Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ディープラーニングの最新動向
強化学習とのコラボ編② DDQN	
2016/6/24
株式会社ウェブファーマー
大政 孝充
今回取り上げるのはこれ	
[1]H. V. Hasselt, et al. “Deep Reinforcement Learning with
Double Q-learning” arXiv:1509.06461, 2015.
と、そのもとに...
もともとのDQNはこれ	
[3]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I.
Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari wi...
DQNの解説は	
DQNの解説に関しては、[3]塚原裕史氏「論文紹介 Playing Atari with
Deep Reinforcement Learning」
http://www.slideshare.net/htsukahara/pa...
今回はここだけ解説	
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
まず①番
DQN(2013ヴァージョン)のアルゴリズム	
[3] より
DQN(2013ヴァージョン)のアルゴリズム	
[3] より
actionを選択するための
モデル( )とactionを評
価するためのモデル
( )が同じ
θ
θ
actionを過大評価
してしまう
詳細は[2]参照
DQN(natureヴァージョン)のアルゴリズム	
[4] より
DQN(natureヴァージョン)のアルゴリズム	
[4] より
 はたまに(C steps)  
に更新される
Q
∧
Q
DQN(natureヴァージョン)のアルゴリズム	
[1] より
  の各action value算
出として、たまに更新さ
れてる  を使用する
φj+1
Q
∧
DQN(natureヴァージョン)のアルゴリズム	
[1] より
よって行動を選択する
ためのaction value(  )
と行動を評価するため
のaction value(  )は微
妙に違う
Q
∧
Q
actionの過大評価	
は若干...
次に②番	
①DQNの何が問題か
②DQNをどう改良してDDQNとしたか
DDQNだとここを変更する	
[4] より
rj +γ Q
∧
φj+1,argmax
a'
Q φj+1,a';θ( );θ−⎛
⎝
⎜
⎞
⎠
⎟
こうする
これを
まず  に   を入力して出た action value
の中で最大となる  を選択する
次に  に   を入力するして出た action
value  のうち、  に対応するものを選択す
る
  に   を入力して出た各 action val...
終わり
Upcoming SlideShare
Loading in …5
×

introduction to double deep Q-learning

2,929 views

Published on

This file is introduction to double DQN.

Published in: Data & Analytics
  • Be the first to comment

introduction to double deep Q-learning

  1. 1. ディープラーニングの最新動向 強化学習とのコラボ編② DDQN 2016/6/24 株式会社ウェブファーマー 大政 孝充
  2. 2. 今回取り上げるのはこれ [1]H. V. Hasselt, et al. “Deep Reinforcement Learning with Double Q-learning” arXiv:1509.06461, 2015. と、そのもとになってる論文 [2]H. V. Hasselt. “Double Q-learning” Advances in NIPS, 23:2613-26212015. DQNを改良し、ゲームでさらなる高得点を叩き出した!
  3. 3. もともとのDQNはこれ [3]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I. Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari with Deep Reinforcement Learning” arXiv:1312.5602, 2013. もしくは [4]V. Mnih, et al. “Human-level control through deep reinforcement learning” nature, 2015.
  4. 4. DQNの解説は DQNの解説に関しては、[3]塚原裕史氏「論文紹介 Playing Atari with Deep Reinforcement Learning」 http://www.slideshare.net/htsukahara/paper-intoduction-playing-atari- with-deep-reinforcement-learning や[4]藤田康博氏「Playing Atari with Deep Reinforcement Learning」 http://www.slideshare.net/mooopan/ss-30336609 あるいは[5]私の「ディープラーニングの最新動向 強化学習とのコラボ 編① DQN」 http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning などを参考にして下さい
  5. 5. 今回はここだけ解説 ①DQNの何が問題か ②DQNをどう改良してDDQNとしたか
  6. 6. ①DQNの何が問題か ②DQNをどう改良してDDQNとしたか まず①番
  7. 7. DQN(2013ヴァージョン)のアルゴリズム [3] より
  8. 8. DQN(2013ヴァージョン)のアルゴリズム [3] より actionを選択するための モデル( )とactionを評 価するためのモデル ( )が同じ θ θ actionを過大評価 してしまう 詳細は[2]参照
  9. 9. DQN(natureヴァージョン)のアルゴリズム [4] より
  10. 10. DQN(natureヴァージョン)のアルゴリズム [4] より  はたまに(C steps)   に更新される Q ∧ Q
  11. 11. DQN(natureヴァージョン)のアルゴリズム [1] より   の各action value算 出として、たまに更新さ れてる  を使用する φj+1 Q ∧
  12. 12. DQN(natureヴァージョン)のアルゴリズム [1] より よって行動を選択する ためのaction value(  ) と行動を評価するため のaction value(  )は微 妙に違う Q ∧ Q actionの過大評価 は若干削減された? もっと削減するには・・・ DDQN!
  13. 13. 次に②番 ①DQNの何が問題か ②DQNをどう改良してDDQNとしたか
  14. 14. DDQNだとここを変更する [4] より rj +γ Q ∧ φj+1,argmax a' Q φj+1,a';θ( );θ−⎛ ⎝ ⎜ ⎞ ⎠ ⎟ こうする これを
  15. 15. まず  に   を入力して出た action value の中で最大となる  を選択する 次に  に   を入力するして出た action value  のうち、  に対応するものを選択す る   に   を入力して出た各 action value    の中で最大のものを採用rj +γ max a' Q ∧ φj+1,a';θ− ( ) actionの評価を変更する rj +γ Q ∧ φj+1,argmax a' Q φj+1,a';θ( );θ−⎛ ⎝ ⎜ ⎞ ⎠ ⎟ φj+1 Q ∧ θ− φj+1 Q φj+1 a' a' Q ∧ θ θ− 過大評価はかな り削減される!?
  16. 16. 終わり

×