Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

introduction to Dueling network

2,424 views

Published on

This slide introduces the model which is one of the deep Q network. Dueling Network is the successor model of DQN or DDQN. You can easily understand the architecture of Dueling Network.

Published in: Data & Analytics
  • Be the first to comment

introduction to Dueling network

  1. 1. ディープラーニングの最新動向 強化学習とのコラボ編③ Dueling Network 2016/7/5 株式会社ウェブファーマー 大政 孝充
  2. 2. 今回取り上げるのはこれ [1] Z. Wang, et. al “Dueling Network Architectures for Deep Reinforcement Learning.” arXiv1511.06581. 2016. Q値をV値と行動aに分離することにより性能を向上させ た!
  3. 3. DQNやDDQNの解説は DQNの解説に関しては私の[2]「ディープラーニングの最新動向 強化 学習とのコラボ編① DQN」 http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning DDQNの解説に関しては私の[3]「ディープラーニングの最新動向 強化 学習とのコラボ編② DDQN」 http://www.slideshare.net/ssuser07aa33/introduction-to-double-deep- qlearning などを参考にして下さい
  4. 4. Dueling Networkの仕組み [1]のFigure 1より このへんが 特徴 DQN Dueling Network
  5. 5. DQNからDueling Networkまで DQN 2013Nips 評価のQと選択 のQを分ける DQN 2015Nature DDQN Prioritized Replay Qを時々コピー 学習用データを 選別? Dualing Networks 状態 s と行動 a の advantageを分ける
  6. 6. まず強化学習の基本から the value of the state-action Qπ s,a( )= E Rt st = s,at = a,π⎡⎣ ⎤⎦ Vπ s( )= E a≈π a( ) Qπ s,a( )⎡⎣ ⎤⎦the value of the state st st+1 st+2 st+2st+1 st+1 at 1 at 2 at 3 Qπ s,a( ) Vπ s( )
  7. 7. the advantage functionを定義 the value of the state-action Qπ s,a( )= E Rt st = s,at = a,π⎡⎣ ⎤⎦ Vπ s( )= E a≈π a( ) Qπ s,a( )⎡⎣ ⎤⎦the value of the state st st+1 st+2 st+2st+1 st+1 at 1 at 2 at 3 Qπ s,a( ) Aπ s,a( )= Qπ s,a( )−Vπ s( )the advantage function Vπ s( ) 差をとってる   から   を引いて   とする Vπ Qπ Aπ
  8. 8. the advantage functionとは st st+1 st+1 st+1 at 1 at 2 at 3 Qπ s,a1 ( )= 3 それってどういうこと? 例えば状態  からの行動  に対する  値がそれぞれ・・・ Qπ s,a2 ( )= 4 Qπ s,a3 ( )= 2 ・・・の時 st at Q
  9. 9. the advantage functionとは st st+1 st+1 st+1 at 1 at 2 at 3 Qπ s,a1 ( )= 3 はざっくり・・・ Qπ s,a2 ( )= 4 Qπ s,a3 ( )= 2 V Vπ s( )= E a≈π a( ) Qπ s,a( )⎡⎣ ⎤⎦= 3+ 4+ 2 3 = 3 Vπ s( )
  10. 10. the advantage functionとは st st+1 st+1 st+1 at 1 at 2 at 3 Qπ s,a1 ( )= 3 は・・・ Qπ s,a2 ( )= 4 Qπ s,a3 ( )= 2 A Aπ s,a( )= Qπ s,a( )−Vπ s( )= 4−3=1!Aπ s,a1( ) 3−3= 0!Aπ s,a2( ) 2 −3= −1!Aπ s,a3( ) ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ となる Aπ s,a1 ( ) Aπ s,a3 ( ) Aπ s,a2 ( ) Vπ s( )
  11. 11. Dueling Networkのモデル st st+1 st+1 st+1 at 1 at 2 at 3 Vπ Qπ Aπ ここで ここで 両方足して 実際のモデルではこうなってる
  12. 12. 実際の計算 Aの平均を0として足し合わせる Q s,a;θ,α( )=V s;θ,β( )+ A s,a;θ,β( )− 1 Α A s,a';θ,α( ) a' ∑ ⎛ ⎝ ⎜⎜ ⎞ ⎠ ⎟⎟ 平均を引く Q s,a;θ,α( ) V s;θ,β( ) A s,a;θ,β( )
  13. 13. おわり

×