Policy Gradient Methods for Reinforcement Learning with Function Approximation

달력

« 2025/5 »

2018. 11. 13. 11:21

Policy Gradient Methods for Reinforcement Learning with Function Approximation 인공지능로봇/머신러닝강좌2018. 11. 13. 11:21

Abstract
Function Approximation은 RL에 필수적이다. 그러나 가치함수를 근사화하고 그것으로 부터 정책을 결정하는 기존의 방법은 이론적으로 다루기 힘든 것으로 증명된 바 있다. 본 논문에서는 다른 접근방법을 대안으로 제시한다. 여기에서는 정책이 function approximator로 표현된다. 그리고 그 function approximator는 policy변수에 대한 expected reward의 gradient에 따라 update된다.

Environment의 Daynamics는 다음으로 주어지는 State transition probabilities와

다음식으로 표현되는 expected reward에 의해 characterized된다.

그리고 각 시간 t에서의 에이전트의 Decision making Procedure는 다음과 같이 주어지는 policy함수로 characterized 된다.

여기서 policy함수는 미분가능(differntiable)한 것으로 가정한다. 에이전트의 objective를 formulating하는 두가지 방법이 있는데, 그 중 하나가 average reward formulation이다. 이 방법에서는 policies들이 각 step당 long-term expected reward에 따라 rank된다.

여기서

는 states의 stationary distribution이다. 이러한 average reward formulation 방법에서는 state-action pair의 value는 다음과 같이 정의된다.

두번째 formulation으로 designated start state s0가 있고, 그로부터 얻어지는 long-term reward 만을 고려하는 방법이다.

이 formulation방법에서는 value는 다음과 같이 정의된다.

여기서

은 discount rate이다. 이 방법에서 states의 stationary distribution은 s0에서 시작하면서 겪게되는 각 stated들의 discounted weighting으로 다음과 같이 정의된다.

1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf

저작자표시 비영리 변경금지

'인공지능로봇 > 머신러닝강좌' 카테고리의 다른 글

RA vs RL (0)	2018.11.23
GAN(Generative Adversarial Network) 완전 정복하기 (0)	2018.11.23
DCGAN (0)	2018.11.23
파이썬 데이터 분석 3종 세트 - statsmodels, scikit-learn, theano (0)	2018.11.23
주피터: 파이썬 노트북, 그리고 파이썬 노트북을 넘어서 (0)	2018.11.23

Posted by 고경철(kckoh)

달력

« 2025/5 »

Policy Gradient Methods for Reinforcement Learning with Function Approximation 인공지능로봇/머신러닝강좌2018. 11. 13. 11:21

'인공지능로봇 > 머신러닝강좌' 카테고리의 다른 글

고경철의 인공지능, 로봇이야기

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

티스토리툴바