Paper intoduction "Playing Atari with deep reinforcement learning"
論文紹介
“Playing Atari with Deep Reinforcement Learning”
2014年6月3日(火)塚原裕史
https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers
Deep Learning Workshop NIPS 2013
Deep Learning and RL
• モチベーション
– 最近のDeep Learningの発展の恩恵に肖りたい
• 課題
– Deep Learningの方法をそのままでは適用できない
• 正解データが作れない(遅延報酬)
• 学習データ間に高い相関がある
• データの発生源の分布が学習過程で変化する
• データがスパース(似た経験を何度も繰り返さない)
– Model-Free RL with Q-Learningの問題
• Nonlinear value function approximation and off-policy
Learning could cause divergence.
• TD-Gammon (G. Tesauro, 1995)
History
http://www.bkgm.com/articles/tesauro/tdl.html
• 観測空間
– Atariのゲーム画面の画像
• アクション
–
• 状態空間
–
• 報酬
–
この論文でのModel
1 1 2 1, , , ..., ,t t ts x a x a x
1,2, ,ta A K
T
t t
t t
t t
R r
tx
• Optimal Value Function
• Bellman equation
Optimal Value Function
*
, max , ,t t tQ s a E R s s a a
* *
, max , ,s
a
Q s a E r Q s a s a
• Solving Bellman equation iteratively
– Converges to optimal value function as I goes to infinity
• 問題
– すべての 毎に、上の式を解く必要がある
Q-Learning
1 , max , ,i s i
a
Q s a E r Q s a s a
,s a
• Parameterizing the value function
– 価値関数を関数近似して、 全体に汎化させる
• Q-Network
– 関数近似にDeep Networkを使う
– 今回、状態量(入力)が画像なので、CNNを使う
• 特徴量が自動的に学習される
Approximate Value Function by Q-Network
*
, ; ,Q s a Q s a
,s a
• Deep Q-Learning Loss function
– Off-policy sampling: Behavior distribution
• ε-greedy探索(on-policyとランダムサンプルの組合せ)
• Remarks
– 学習データでありながら、出力がパラメタに依存しているのが
特徴的
Deep Q-Learning
2
, 1 , ;i i s a i iL E y Q s a
1 1max , ; ,i s i
a
y E r Q s a s a
,s a
arg max , ;
a
a Q s a
• Gradient of Loss Function
Minibatch Update
, 1max , ; , , ; , ; ,i ii i s a s s i i i
a
L E E E r Q s a s a Q s a Q s a s a
• Introduced a new deep learning model for
reinforcement Learning
– Demonstrated its ability to master difficult policies for
Atari 2600 computer games
• Also presented a variant of online Q-learning that
combines stochastic minibatch updates with
experience replay memory
– Ease the training of deep networks for RL
Conclusion