강화학습

업데이트:

본 내용은 인공지능의 이해의 내용을 참조하여 작성하였습니다.

강화학습

강화

강화란 행동 심리학자 스키너가 제시한 것으로,
동물이 시행착오를 통해 학습하는 것을 말한다.

차이

지도학습과 비지도학습의 경우 정해진 데이터의 분석 시나리오 대로 계산을 수행하는 반면,
강화학습은 주어진 문제만 지도 받을 뿐 해결책은 시행착오를 통해 학습한다.

강화학습

미지의 환경에서 행동하는 에이전트가 경험을 통해
기대되는 보상이 최대가 되도록 상황별로 취할 행동을 결정한다.

강화 학습의 정리

미지의 환경에 있는 에이전트가 현재 상태에서 누적 보상값이 최대가 하도록 행동

마르코프

마르코프 모델은 미래의 상태는 현재 상태에 영향을 받고,
과거 상태에는 영향을 받지 않는 시스템에 대한 확률 모델

마르코프 결정과정

한 시점에서 상태와 행동에 의존하는 마르코프 모델에 기반을 두고 학습하며,
행동의 결과로 보상을 부여 받는다.

보상은, 상태와 행동을 기준으로 결정된다.

누적 보상치

  • 단순 합계 : 연속해서 보상치가 더해지면 지속적으로 커질 수 있음
  • 할인 누적 합계 : 가까운 보상이 먼 미래의 보상보다 가치가 있음

가치함수

  • 상태 가치 함수 : 특정 상태에서 시작하여 특정 정책에 따라 행돌할 때 얻게 되는 기대 보상
  • 상태-행동 가치 함수 : 특정 상태에서 특정 행동을 한 다음, 특정 정책에 따라 행동할 때 얻게 되는 기대 보상

Bellman 방정식

  • 상태 가치 함수와 상태-행동 가치 함수의 관계

정책 결정

동적 계획법

  • 큰 문제를 작은 문제로 분할하여 동일한 작은 문제들의 해를 기억해,
  • 반복적으로 동일한 문제를 다시 풀지 않도록 함으로써 처리 속도를 개선

Q-Learning 알고리즘

  • 현재 상태에서 특정 행동을 선택해 즉시 보상값, 새로운 상태를 관찰하는 알고리즘

역강화 학습

  • 보상함수가 직접적으로 제공되지 않을 때 사용
  • 전문가나 그와 동등한 사용자의 시연을 학습

전이학습

  • 특정 문제를 해결하는 데 사용되는 지식 또는 모델을 관련한 다른 문제의 학습에 이용하는 것

태그:

카테고리:

업데이트:

댓글남기기