'강화 학습' 태그의 글 목록

강화 학습

08. 강화 학습과 분산 인공지능 2020.09.07

08. 강화 학습과 분산 인공지능

2020. 9. 7. 10:54

01. 앙상블 학습 ensemble learning

학습기 하나로 원하는 성능을 낼 수 없을 때 앙상블 학습이 효과적입니다.

앙상블 학습은 개별로 학습한 여러 학습기를 조합해 일반화 성능을 향상할 수 있습니다.

배깅 bagging

배깅은 부트스트랩 방법을 이용해 학습 데이터에서 m개의 복원 추출을 B회만큼 반복합니다.

그러면 작게 나눈 m개의 데이터를 포함하는 B회의 학습 데이터를 생성할 수 있습니다.

부트스트랩 방법은 데이터를 샘플링해 의사 데이터 세트를 생성하는 리샘플링 방법으로 통계의 편향이나 분산을 추정할 때 사용합니다.

각각의 학습 데이터로 학습하면서 약학습기 h를 구축한 후 통합하면 학습기 H가 됩니다. H는 학습 데이터의 식별이나 확인에는 가장 우수한 결과를 선택하며 회귀일 때는 h의 평균을 이용합니다.

랜덤포레스트와의 차이

랜덤포레스트도 배깅과 마찬가지로 무작위 데이터를 추출한 후 작은 데이터 세트에서 학습을 실행합니다.

배깅은 학습 데이터의 설명 변수를 모두 사용하며 랜덤포레스트는 설명 변수도 무작위로 추출한다는 차이가 있습니다.

부스팅

약학습기를 순서대로 하나씩 결합해 강학습기를 얻는 방법입니다.

기대하는 인식 결과를 내고 싶은 데이터 세트와 그렇지 않은 데이터 세트로 나눈 후 특화된 데이터마다 만드는 약학습기를 순서대로 결합하면 인식 결과의 정확도가 높은 강학습기를 얻을 수 있습니다.

에이다부스트 알고리즘

2개의 값 분류에 관한 약학습기 구축 알고리즘입니다.

오류율은 선택한 약학습기의 인식률이 얼마나 높은지를 나타냅니다.

오류율이 0.5를 넘으면 예측보다 정밀도가 낮다는 뜻이므로 약학습기 만들기를 종료합니다.

그리고 오류율에서 중요도를 계산한 후 그 값을 이용해 가중치 D를 업데이트 합니다.

02. 강화 학습

기계가 사람처럼 미지의 데이터에도 대응하도록 스스로 학습기를 변화시킬 수 있는 구조가 필요합니다. 이를 뒷발질하는 것이 강화학습니다.

강화 학습이라는 이름은 심리학의 조작적 조건화에 기반을 두고 자발적인 행동의 빈도를 증가시키는 것을 강화라고 하는 데서 유래했습니다.

확률시스템:

통계 기반 머신러닝에서는 베이즈 추론을 제외하고 동적 계획법 같은 배치 처리 최적화 기법을 이용할 때가 많았습니다. 이러한 최적화 기법을 이용하는 대상을 확정 시스템이라고 합니다.

정책과 강화 학습

보상은 상태와 행동을 기준으로 결정합니다.

강화 학습은 좋은 정책을 계속 채택하는 것이 목표이므로 "미래에 얻을 수 있는 보상의 기대치를 극대화하는 정책을 결정해 가는 것"으로 말할 수 있습니다.

보상과 가치 함수

할인 누적 보상

도중 어떤 상태에서 누적 보상을 극대화하려고 미래의 상태와 행동을 평가하는 함수를 가치 함수라고 합니다.

상태 가치 함수

행동 가치 함수

행동 가치 함수를 최대화하는 함수를 최적 행동 가치 함수 라고 합니다.

벨멘 방정식

Q학습

그리디 방법: 탐욕 알고리즘이라고 하며 q값이 가장 높은 행동만을 선택합니다.

랜덤 방법: 무작위로 선택합니다.

03. 전이 학습 transfer learning

도메인과 도메인 적용

전이 학습 새로운 작업을 효율적으로 해결할려고 기존 작업에서 얻은 학습데이터와 학습 결과를 재사용하는 것입니다.

준 지도 학습과의 차이점

식별하려는 데이터와 지도 학습 데이터가 다른 분포를 따를 때 (실제로 많습니다) 가 있습니다. 이때 식별하려는 데이터의 일반화 성능을 향상시킬 때는 전이 학습을 이용하며 소수의 지도 학습 데이터와 다수의 라벨이 없는 데이터를 다룰 때는 준 지도 학습을 이용합니다.

멀티태스킹 학습

원 도메인과 목표 도메인 사이에서 서로 지식을 보내고 받으면서 공통 부분의 지식을 향상시키는 방법

메타 학습 : " 학습 방법을 학습한다." 라고 설명할 수 있습니다.

04. 분산 인공지능

지능형 에이전트

학습하는 능력을 얻은 프로그램은 환경을 인식해 스스로 행동을 결정할 수 있게 됩니다. 이 동작 주체를 지능형 에이전트 혹은 에이전트라고 합니다. 비록 장치 등의 실체 없이 정기적 /비정기적인 입력 구동으로 동작하는 소트트웨어 에이전트도 지능형 에이전트입니다.

칠판 모델

여러 개의 에이전트가 협업하는 작업에 대응할 때 기억 영역을 공유하는 것

출처: 처음 배우는 인공지능

'책 > 처음 배우는 인공지능' 카테고리의 다른 글

Chapter 10. 이미지와 음성 패턴 인식 (0)	2020.09.10
09. 딥러닝 (0)	2020.09.09
07. 통계 기반 머신러닝 2- 자율학습과 지도 학습 (0)	2020.09.04
06. 통계 기반 머신러닝 1- 확률 분포와 모델링 (0)	2020.09.03
05. 가중치와 최적화 프로그램 (0)	2020.09.02

PREV 1 NEXT

NAIAHD

강화 학습

08. 강화 학습과 분산 인공지능

'책 > 처음 배우는 인공지능' 카테고리의 다른 글

+ Recent posts

티스토리툴바