11. Dueling Network
• Q値をV値とA値に分けて推定する
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴(𝑠, 𝑎)
– V(s):状態sに対する価値
– A(s,a):状態sでの⾏動aの相対的な価値
111) Z. Wang et al. Dueling Network Architectures for Deep Reinforcement Learning. 2016. ICML
通常のDQN
Dueling DQN
V
A
Q
Q
12. Dueling Network
• Q値の絶対値に⽐べてQ値間の差が⼩さい時
– 通常のDQN:更新時のノイズで激しい順位変動
– Dueling:V(Q値の平均的な⼤きさ)を別にしているの
で, そのような影響に対してもロバスト(らしい)
• 最終層の計算
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴 𝑠, 𝑎 − &
𝒜
∑𝐴(𝑠, 𝑎)
121) Z. Wang et al. Dueling Network Architectures for Deep Reinforcement Learning. 2016. ICML
13. Multi-step Learning
• nステップ先のQ値を推定する
𝑅"
V
≔ X 𝛾"
Y
𝑅"%Y%&
VZ&
Y[
𝛿 = 𝑅"
V
+ 𝛾"
V
max
BT
𝑄(𝑆"%V , 𝑎′) − 𝑄(𝑆", 𝐴")
• 例)n=3のとき
𝛿 = 𝑅"%& + 𝛾𝑅"%) + 𝛾)
𝑅"%* + 𝛾*
max
BT
𝑄(𝑆"%* , 𝑎′) − 𝑄(𝑆", 𝐴")
• 適切なnは学習を⾼速化する(らしい)
131) Richard S. Sutton and Andrew G. Barto. 2017. Reinforcement Learning: An Introduction. Second edition. The MIT Press
14. Distributional Perspective on RL
• 通常のDQNでは収益の期待値を推定
• Distributionalでは収益の分布を推定
– 収益をN個の値を取りうる離散分布と考える
{𝑧, 𝑧&, … , 𝑧`Z&}
– ⾏動aごとにN個の値を出⼒
– Softmaxで正規化
• 交差エントロピーを最⼩化
• (まだちゃんと理解できていない)
141) M. G. Bellemare et al. A Distributional Perspective on Reinforcement Learning. 2017. ICML
15. Noisy Network
• 通常のDQN
– ε-greedyなどで探索
– 確率1-εで⼀番良い⾏動, 確率εでランダムで⾏動
– 活⽤-探索のトレードオフ
• Noisy Network
– ランダム性をパラメータとして学習させる
151) M. Fortunato et al. Noisy Networks for Exploration. 2017(8). ICLR under review