Policy Gradient Methods for Reinforcement Learning with Function Approximation 인공지능로봇/머신러닝강좌2018. 11. 13. 11:21
Abstract
Function Approximation은 RL에 필수적이다. 그러나 가치함수를 근사화하고 그것으로 부터 정책을 결정하는 기존의 방법은 이론적으로 다루기 힘든 것으로 증명된 바 있다. 본 논문에서는 다른 접근방법을 대안으로 제시한다. 여기에서는 정책이 function approximator로 표현된다. 그리고 그 function approximator는 policy변수에 대한 expected reward의 gradient에 따라 update된다.
Environment의 Daynamics는 다음으로 주어지는 State transition probabilities와
다음식으로 표현되는 expected reward에 의해 characterized된다.
그리고 각 시간 t에서의 에이전트의 Decision making Procedure는 다음과 같이 주어지는 policy함수로 characterized 된다.
여기서 policy함수는 미분가능(differntiable)한 것으로 가정한다. 에이전트의 objective를 formulating하는 두가지 방법이 있는데, 그 중 하나가 average reward formulation이다. 이 방법에서는 policies들이 각 step당 long-term expected reward에 따라 rank된다.
여기서
는 states의 stationary distribution이다. 이러한 average reward formulation 방법에서는 state-action pair의 value는 다음과 같이 정의된다.
두번째 formulation으로 designated start state s0가 있고, 그로부터 얻어지는 long-term reward 만을 고려하는 방법이다.
이 formulation방법에서는 value는 다음과 같이 정의된다.
여기서
은 discount rate이다. 이 방법에서 states의 stationary distribution은 s0에서 시작하면서 겪게되는 각 stated들의 discounted weighting으로 다음과 같이 정의된다.
1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
'인공지능로봇 > 머신러닝강좌' 카테고리의 다른 글
RA vs RL (0) | 2018.11.23 |
---|---|
GAN(Generative Adversarial Network) 완전 정복하기 (0) | 2018.11.23 |
DCGAN (0) | 2018.11.23 |
파이썬 데이터 분석 3종 세트 - statsmodels, scikit-learn, theano (0) | 2018.11.23 |
주피터: 파이썬 노트북, 그리고 파이썬 노트북을 넘어서 (0) | 2018.11.23 |