강화학습 이란?
•Reinforcement Learning
•강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
기계가 사람처럼 미지의 데이터에도 대응하도록 스스로 학습기를 변화시킬 수 있는 구조가 필요합니다.
시행착올르 통해 보상을 받아 행동 패턴을 학습하는 과정을 모델화한 것입니다.
강화 학습이라는 이름은 심리학의 조작적 조건화 에 기반을 두고 자발적인 행동의 빈도를 증가시키는 것을 강화라고 하는 데서 유래했습니다.
2021130
Agent 에이전트:
게임에 존재하는 개별 상태 기계를 총괄하는 시스템
에이전트는 다른 에이전트와 영향을 주고받으면서 이용자인 플레이어에게 정보와 자극을 줍니다.
다음과 같은 특정이 있다.
- 자율성 autonomy
에이전트는 사람이나 다른 사물의 직접적인 간섭없이 스스로 판단해 동작하고 , 행동이나 내부 상태의 제어 권한을 갖습니다.
- 사회성 social ability
에이전트는 에이전트 통신 언어를 사용해 사람과 다른 에이전트들 사이에서 상호작용할 수 있습니다. 반응성 reactivity에이전트는 실세계 , 그래픽 사용자 인터페이스를 통해 사용자, 다른 에이전트들의 집합, 인터넷 같은 환경을 인식하고 그 안에서 일어나는 변화에 적절히 반응합니다.
- 능동성 proactivity
에이전트는 단순히 환경에 반응해 행동하는 것이 아니라 주도권을 잦고 목표 지향적으로 행동합니다.
- 시간 연속성 temporal continuity
에이전트는 단순히 한번 주어진 입력을 처리해 결과를 보여주고 종료하는 것이 아닙니다. 에이전트 실행 특히 그라운드에서 잠시 쉬는 데몬 같은 프로세스입니다.
- 목표 지향성 (goal-orientedness)
에이전트는 복잡한 고수준 작업을 실행합니다. 작업은 더 작은 세부 작업으로 나누며 처리 순서 결정 등의 책임을 에이전트가 집니다.
예: 보드게임
20211223
강화학습은 좋은 정책을 계속 채택하는 것이 목표이므로 "미래에 얻을 수 있는 보상의 기대치를 극대화하는 정책을 결정해 가는 것"으로 말할수 있습니다.
보상과 가치 함수
할인 누적 보상
상태 가치 함수
행동 가치 함수
State
Reward, Penalty
https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5
출처 : 처음 배우는 인공지능
'개념 정리' 카테고리의 다른 글
이진 분류 이란 ?_20210830 (0) | 2021.08.31 |
---|---|
분류 이란?_20210829 (0) | 2021.08.31 |
선형회귀분석이란?_20210827 (0) | 2021.08.27 |
통계 기반 머신러닝이란?_20210826 (0) | 2021.08.26 |
사고범위 문제 이란?_20210825 (0) | 2021.08.25 |