반응형

강화학습 이란?

Reinforcement Learning

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다

기계가 사람처럼 미지의 데이터에도 대응하도록 스스로 학습기를 변화시킬 수 있는 구조가 필요합니다. 

시행착올르 통해 보상을 받아 행동 패턴을 학습하는 과정을 모델화한 것입니다. 

강화 학습이라는 이름은 심리학의 조작적 조건화 에 기반을 두고 자발적인 행동의 빈도를 증가시키는 것을 강화라고 하는 데서 유래했습니다. 

 

2021130

Agent 에이전트:

게임에 존재하는 개별 상태 기계를 총괄하는 시스템

에이전트는 다른 에이전트와 영향을 주고받으면서 이용자인 플레이어에게 정보와 자극을 줍니다. 

다음과 같은 특정이 있다. 

  • 자율성 autonomy

에이전트는 사람이나 다른 사물의 직접적인 간섭없이 스스로 판단해 동작하고 , 행동이나 내부 상태의 제어 권한을 갖습니다. 

  • 사회성 social ability 

에이전트는 에이전트 통신 언어를 사용해 사람과 다른 에이전트들 사이에서 상호작용할 수 있습니다. 반응성 reactivity에이전트는 실세계 , 그래픽 사용자 인터페이스를 통해 사용자, 다른 에이전트들의 집합, 인터넷 같은 환경을 인식하고 그 안에서 일어나는 변화에 적절히 반응합니다. 

  • 능동성 proactivity 

에이전트는 단순히 환경에 반응해 행동하는 것이 아니라 주도권을 잦고 목표 지향적으로 행동합니다. 

  • 시간 연속성 temporal continuity

에이전트는 단순히 한번 주어진 입력을 처리해 결과를 보여주고 종료하는 것이 아닙니다. 에이전트 실행 특히 그라운드에서 잠시 쉬는 데몬 같은 프로세스입니다. 

  • 목표 지향성 (goal-orientedness)

에이전트는 복잡한 고수준 작업을 실행합니다. 작업은 더 작은 세부 작업으로 나누며 처리 순서 결정 등의 책임을 에이전트가 집니다.

예: 보드게임

 

20211223

강화학습은 좋은 정책을 계속 채택하는 것이 목표이므로 "미래에 얻을 수 있는 보상의 기대치를 극대화하는 정책을 결정해 가는 것"으로 말할수 있습니다. 

 

보상과 가치 함수

할인 누적 보상

상태 가치 함수 

행동 가치 함수 

 

State

Reward, Penalty

 

 

https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5

 

강화 학습 - 위키백과, 우리 모두의 백과사전

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화

ko.wikipedia.org

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

이진 분류 이란 ?_20210830  (0) 2021.08.31
분류 이란?_20210829  (0) 2021.08.31
선형회귀분석이란?_20210827  (0) 2021.08.27
통계 기반 머신러닝이란?_20210826  (0) 2021.08.26
사고범위 문제 이란?_20210825  (0) 2021.08.25

+ Recent posts