강화학습

업데이트: April 25, 2020

본 내용은 인공지능의 이해의 내용을 참조하여 작성하였습니다.

강화학습

강화

강화란 행동 심리학자 스키너가 제시한 것으로,
동물이 시행착오를 통해 학습하는 것을 말한다.

차이

지도학습과 비지도학습의 경우 정해진 데이터의 분석 시나리오 대로 계산을 수행하는 반면,
강화학습은 주어진 문제만 지도 받을 뿐 해결책은 시행착오를 통해 학습한다.

강화학습

미지의 환경에서 행동하는 에이전트가 경험을 통해
기대되는 보상이 최대가 되도록 상황별로 취할 행동을 결정한다.

강화 학습의 정리

미지의 환경에 있는 에이전트가 현재 상태에서 누적 보상값이 최대가 하도록 행동

마르코프

마르코프 모델은 미래의 상태는 현재 상태에 영향을 받고,
과거 상태에는 영향을 받지 않는 시스템에 대한 확률 모델

마르코프 결정과정

한 시점에서 상태와 행동에 의존하는 마르코프 모델에 기반을 두고 학습하며,
행동의 결과로 보상을 부여 받는다.

보상은, 상태와 행동을 기준으로 결정된다.

누적 보상치

단순 합계 : 연속해서 보상치가 더해지면 지속적으로 커질 수 있음
할인 누적 합계 : 가까운 보상이 먼 미래의 보상보다 가치가 있음

가치함수

상태 가치 함수 : 특정 상태에서 시작하여 특정 정책에 따라 행돌할 때 얻게 되는 기대 보상
상태-행동 가치 함수 : 특정 상태에서 특정 행동을 한 다음, 특정 정책에 따라 행동할 때 얻게 되는 기대 보상

Bellman 방정식

상태 가치 함수와 상태-행동 가치 함수의 관계

정책 결정

동적 계획법

큰 문제를 작은 문제로 분할하여 동일한 작은 문제들의 해를 기억해,
반복적으로 동일한 문제를 다시 풀지 않도록 함으로써 처리 속도를 개선

Q-Learning 알고리즘

현재 상태에서 특정 행동을 선택해 즉시 보상값, 새로운 상태를 관찰하는 알고리즘

역강화 학습

보상함수가 직접적으로 제공되지 않을 때 사용
전문가나 그와 동등한 사용자의 시연을 학습

전이학습

특정 문제를 해결하는 데 사용되는 지식 또는 모델을 관련한 다른 문제의 학습에 이용하는 것

Twitter Facebook LinkedIn

Hodurie

강화학습

강화학습

강화

차이

강화학습

강화 학습의 정리

마르코프

마르코프 결정과정

누적 보상치

가치함수

Bellman 방정식

정책 결정

동적 계획법

Q-Learning 알고리즘

역강화 학습

전이학습

공유하기

댓글남기기

참고

선형대수학 - 01. Vector

Linked List 01

Softmax Regression(Multinomial Logistic Regression) 01

Logistic(Regression) Classification TensorFlow 구현