'강화학습 이란?' 태그의 글 목록

강화학습 이란?

강화학습 이란?_20210828 2021.08.28

강화학습 이란?_20210828

2021. 8. 28. 13:24

강화학습 이란?

•Reinforcement Learning

•강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

기계가 사람처럼 미지의 데이터에도 대응하도록 스스로 학습기를 변화시킬 수 있는 구조가 필요합니다.

시행착올르 통해 보상을 받아 행동 패턴을 학습하는 과정을 모델화한 것입니다.

강화 학습이라는 이름은 심리학의 조작적 조건화 에 기반을 두고 자발적인 행동의 빈도를 증가시키는 것을 강화라고 하는 데서 유래했습니다.

2021130

Agent 에이전트:

게임에 존재하는 개별 상태 기계를 총괄하는 시스템

에이전트는 다른 에이전트와 영향을 주고받으면서 이용자인 플레이어에게 정보와 자극을 줍니다.

다음과 같은 특정이 있다.

자율성 autonomy

에이전트는 사람이나 다른 사물의 직접적인 간섭없이 스스로 판단해 동작하고 , 행동이나 내부 상태의 제어 권한을 갖습니다.

사회성 social ability

에이전트는 에이전트 통신 언어를 사용해 사람과 다른 에이전트들 사이에서 상호작용할 수 있습니다. 반응성 reactivity에이전트는 실세계 , 그래픽 사용자 인터페이스를 통해 사용자, 다른 에이전트들의 집합, 인터넷 같은 환경을 인식하고 그 안에서 일어나는 변화에 적절히 반응합니다.

능동성 proactivity

에이전트는 단순히 환경에 반응해 행동하는 것이 아니라 주도권을 잦고 목표 지향적으로 행동합니다.

시간 연속성 temporal continuity

에이전트는 단순히 한번 주어진 입력을 처리해 결과를 보여주고 종료하는 것이 아닙니다. 에이전트 실행 특히 그라운드에서 잠시 쉬는 데몬 같은 프로세스입니다.

목표 지향성 (goal-orientedness)

에이전트는 복잡한 고수준 작업을 실행합니다. 작업은 더 작은 세부 작업으로 나누며 처리 순서 결정 등의 책임을 에이전트가 집니다.

예: 보드게임

20211223

강화학습은 좋은 정책을 계속 채택하는 것이 목표이므로 "미래에 얻을 수 있는 보상의 기대치를 극대화하는 정책을 결정해 가는 것"으로 말할수 있습니다.

보상과 가치 함수

할인 누적 보상

상태 가치 함수

행동 가치 함수

State

Reward, Penalty

https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5

강화 학습 - 위키백과, 우리 모두의 백과사전

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화

ko.wikipedia.org

출처 : 처음 배우는 인공지능

'개념 정리' 카테고리의 다른 글

이진 분류 이란 ?_20210830 (0)	2021.08.31
분류 이란?_20210829 (0)	2021.08.31
선형회귀분석이란?_20210827 (0)	2021.08.27
통계 기반 머신러닝이란?_20210826 (0)	2021.08.26
사고범위 문제 이란?_20210825 (0)	2021.08.25

PREV 1 NEXT

NAIAHD