티스토리 뷰

데이터분석 및 인공지능

강화학습

백수진 2021. 6. 28. 22:37

what?

<개념잡기>

 

강화학습이란 머신러닝의 한 종류로, 어떠한 환경에대한 어떠한 행동이 잘못된 것인지 잘 된 것인지 나중에 확인하고 보상을 달리 줌으로써 반복을 통해서 스스로 학습하게 하는 방법이다.

- 환경과 에이전트의 상태 등을 입력값으로 받아 인공 신경망이 행동을 결정하고 보상이 있다면 이전 학습값과 행동을 긍정적으로 학습 => 딥러닝 방법

- 마르코프 의사결정 + 학습의 개념

 

* 마르코프 가정

상태가 연속적으로 이어질 때 어떠한 시점에 대한 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정

* 마르코프 과정

상태전이 확률 : 어떠한 상태가 i일때, 그 다음 상태가 j가 될 확률을 의미함.(즉, 어떠한 상태가 특정 상태에 영향을 미칠 확률을 의미함)

이때, 마르코프 가정을 만족하면 바로 직전의 확률을 사용한 조건부 확률로 상태전이 확률을 이해할 수 있음.

*마르코프 의사결정과정

- MDP(마르코프 과정)을 기반으로한 의사결정 모델.

- 상태집합, 행동집합, 상태전이 확률행렬, 보상함수, 할인요인으로 구성됨.

- 할인 요인 : 과거의 행동을 얼마나 반영할지 결정 => 0~1사이의 값.

- policy 정책 : 에이전트는 어떠한 상태 s에서 수행핳 행동 a를 정해야하며 이를 정책이라고 함. => 총 보상을 최대화 하는 방향으로 결정


<상태 가치 함수와 상태-행동 가지 함수>

상태 가치 함수란?

에이전트가 어떠한 행동을 수행하는 과정에서 상태가 시간에 따라 변화함. 

상태가치 함수는 현재 상태 s에서 정책을 따랐을 때의 가치.

 

상태-행동 가치 함수란?

어떤 상태 s에서 행동 a를 수행했을 때, 획득할 총 보상의 기댓값.

상태 가치 함수에서 행동 a에 대한 조건이 추가.

즉, 현재 상태 s에서 정책에 따라 행동 a를 수행했을 때의 가치.

 

<벨만 방정식>

상태 가치 함수와 상태-행동 가치 함수의 관계를 나타내는 방정식.

-벨만 기대방정식/ 벨만 최적 방정식

 

벨만 기대 방정식이란?

벨만 방정식으로 상태 가치 함수와 상태-행동 가치 함수를 기댓값 E로 표현가능.