Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Rainbow: Combining Improvements in Deep
Reinforcement Learning” (AAAI 2018 under review)
Toru Fujino, Chen Lab, GSFS

書誌情報①
• AAAI 2018 査読され中
• Matteo Hessel et al.
– Deepmind
• 概要
– DQNにおけるテクニック的なものを全部詰め込んだモデルを提案
• Double DQN, Prioritized experience replay, Dueling architecture, Noisy net,
Distributional perspective, Multi-step learning
– 当時(10⽉下旬まで)のState of the Artを出した
– 各テクニックのDQNにおける影響度を実験的に検証した
• 選定理由
– DQNを勉強する必要があった
2

強化学習とは
• エージェントが環境と相互に作⽤しながらより良
い⾏動の仕⽅を学ぶ
• 累積の報酬を最⼤化する⽅策（⾏動の指針）を学習する
𝐺" = 𝑅"%& + 𝛾𝑅"%) + 𝛾)
𝑅"%* + 𝛾*
𝑅"%+ + ⋯
31) Richard S. Sutton and Andrew G. Barto. 2017. Reinforcement Learning: An Introduction. Second edition. The MIT Press

Q学習とは
• ⾏動価値関数
𝑄.
𝑆", 𝐴" = 𝔼 𝑅"%& + 𝛾𝑄.
𝑆"%&, 𝐴"%& |𝑆", 𝐴"
• 最適⾏動価値関数
𝑄∗
𝑠, 𝑎 = max
.
𝑄.
(𝑠, 𝑎)
• 以下の更新則で最適⽅策のQ関数に近づけてい
𝛿>
= 𝑅"%& + 𝛾 ⋅ arg max
BCDE
𝑄(𝑆"%&, 𝑎"%&) − 𝑄 𝑆"%&, 𝑎"%&
𝑄 𝑆", 𝐴" ← 𝑄 𝑆", 𝐴" + 𝜂 ⋅ 𝛿>
4

DQNとは
• Q学習をDNNで近似し教師ありのように学習する
• tableと違い⾏動間でパラメータを⼤部分で共有
• Target Network：教師信号を固定
• Experience Replay：過去の経験からサンプル
51) V. Mnih et al. Human-level control through deep reinforcement learning. 2015. Nature
𝑄(𝑠, 𝑎 &
)
𝑄(𝑠, 𝑎 )
)
𝑄(𝑠, 𝑎 |𝒜|
)
・
・
・
𝑠

DQNの拡張
• DQN（Nature 2015）後, いろいろな拡張案が出
– Double DQN（AAAI 2016）
– Dueling Network（ICML 2016）
– Prioritized Experience Replay（ICLR 2016）
– Noisy Network（ICLR 2018 under review）
– Multi-step Reinforcement Learning（?)
– Distributional Reinforcement Learning（ICML2017)
• 次からのスライドで順番に説明
6

Double DQN（AAAI 2016）
• 通常のQ学習では, 推定のQ値が真の値に対して⼆乗誤差
が正となるとき, maxQ値が真の値よりも⼤きくなってし
まう（overestimate）
71) v. Hasselt et al. Deep Reinforcement Learning with Double Q-Learning. 2016. AAAI

Double DQN（AAAI 2016）
• ⾏動を選択するQ関数とQ値を出⼒するQ関数をわ
けることでこれを軽減できる
• DQNにおいても同様のアイデアを⽤いる
𝑦" = 𝑅"%& + 𝛾𝑄 𝑆"%&, arg max
B
𝑄(𝑆"%& , 𝑎; 𝜽"); 𝜽′"
81) v. Hasselt et al. Deep Reinforcement Learning with Double Q-Learning. 2016. AAAI

Prioritized Experience Replay
• 通常のExperience Replay
– 過去の経験からランダムにサンプル
• Prioritized Experience Replay
– 学習の余地の⼤きいデータを重点的にサンプル
– 学習の余地：TD誤差
91) T. Schaul et al. Prioritized Experience Replay. 2016. ICLR

Prioritized Experience Replay
• TD誤差
𝛿>
= 𝑅"%& + 𝛾 ⋅ arg max
BCDE
𝑄 𝑆", 𝑎"%& − 𝑄(𝑆", 𝐴")
• 抽出確率
𝑃 𝑖 =
𝛿 >
+ 𝜖
Q
∑ 𝛿 > + 𝜖
Q
>T
101) T. Schaul et al. Prioritized Experience Replay. 2016. ICLR

Dueling Network
• Q値をV値とA値に分けて推定する
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴(𝑠, 𝑎)
– V(s)：状態sに対する価値
– A(s,a)：状態sでの⾏動aの相対的な価値
111) Z. Wang et al. Dueling Network Architectures for Deep Reinforcement Learning. 2016. ICML
通常のDQN
Dueling DQN
V
A
Q
Q

Dueling Network
• Q値の絶対値に⽐べてQ値間の差が⼩さい時
– 通常のDQN：更新時のノイズで激しい順位変動
– Dueling：V(Q値の平均的な⼤きさ)を別にしているの
で, そのような影響に対してもロバスト(らしい)
• 最終層の計算
𝑄 𝑠, 𝑎 = 𝑉 𝑠 + 𝐴 𝑠, 𝑎 − &
𝒜
∑𝐴(𝑠, 𝑎)
121) Z. Wang et al. Dueling Network Architectures for Deep Reinforcement Learning. 2016. ICML

Multi-step Learning
• nステップ先のQ値を推定する
𝑅"
V
≔ X 𝛾"
Y
𝑅"%Y%&
VZ&
Y[
𝛿 = 𝑅"
V
+ 𝛾"
V
max
BT
𝑄(𝑆"%V , 𝑎′) − 𝑄(𝑆", 𝐴")
• 例）n=3のとき
𝛿 = 𝑅"%& + 𝛾𝑅"%) + 𝛾)
𝑅"%* + 𝛾*
max
BT
𝑄(𝑆"%* , 𝑎′) − 𝑄(𝑆", 𝐴")
• 適切なnは学習を⾼速化する(らしい)
131) Richard S. Sutton and Andrew G. Barto. 2017. Reinforcement Learning: An Introduction. Second edition. The MIT Press

Distributional Perspective on RL
• 通常のDQNでは収益の期待値を推定
• Distributionalでは収益の分布を推定
– 収益をN個の値を取りうる離散分布と考える
{𝑧, 𝑧&, … , 𝑧`Z&}
– ⾏動aごとにN個の値を出⼒
– Softmaxで正規化
• 交差エントロピーを最⼩化
• (まだちゃんと理解できていない)
141) M. G. Bellemare et al. A Distributional Perspective on Reinforcement Learning. 2017. ICML

Noisy Network
• 通常のDQN
– ε-greedyなどで探索
– 確率1-εで⼀番良い⾏動, 確率εでランダムで⾏動
– 活⽤-探索のトレードオフ
• Noisy Network
– ランダム性をパラメータとして学習させる
151) M. Fortunato et al. Noisy Networks for Exploration. 2017(8). ICLR under review

Noisy Network
• 全結合層の重みの取り⽅を変更
– 通常のDQN
𝑦 = 𝑊𝑥 + 𝑏
– Noisy Network DQN
𝑦 = 𝑊 + 𝜎f
⊙ 𝜖 𝑥 + 𝑏 + 𝜎h
⊙ 𝜖
– σは新たな学習パラメータ. εはノイズでN(0,1)
– σの⼤きさでランダム性を決める
161) M. Fortunato et al. Noisy Networks for Exploration. 2017(8). ICLR under review

今回のRainbow
• 以上のDouble, Dueling, Noisy, Distributional,
Multi-stepを１つのモデルに組み込む
• Atariの57ゲームで⽐較
17

実験結果①：他⼿法との⽐較
• 既存⼿法よりも良い. 学習も早い.

実験結果②：１つ抜きでの⽐較
• Rainbowから要素を⼀つずつ抜いて影響度を検証
• 影響度:Prioriti ≧ Multi ≧ Distributional > Noisy
>> 他

• ゲーム別の⽐較
• PrioritizedとMulti-stepは多くのゲームで影響⼤.
no priori
no multi
no noisy
no distri
no duel
no double

• Noisyはゲームによって影響が別れる
no priori
no multi
no noisy
no distri
no duel
no double

• Duelは基本的に影響⼩. ゲームによっては影響⼤
no priori
no multi
no noisy
no distri
no duel
no double

• Doubleも影響⼩さい.
no priori
no multi
no noisy
no distri
no duel
no double

実験結果③:⼀定レベルまでの到達スピード

まとめ
• DQNの様々な拡張を１つのモデルに統合してSotA
• それぞれの拡張の影響度を実験的に検証
• 要素としてはPrioritized Experience ReplayとMulti-
step Learningが特に重要であるよう

感想
• 実験が⼤変そう

書誌情報②
• “Distributed Prioritized Experience Replay”
• 2017年10⽉28⽇にICLRに投稿. 査読中
• 概要
– 複数の⼦エージェントがExperienceを共有メモリにため
て親エージェントが学習を⾏う分散型のフレームワーク
を提案
– AtariでState of the Art
• DQNの部分だけ話す

全体図
・・・
Learner
Actors
共有メモリ
経験を溜める
定期的にパラメータ
を更新
サンプリング
優先度更新
学習

Actor
• 経験をPriorityとともに共有メモリに蓄積. 学習しない
• 定期的にLearnerからパラメータをコピー

Learner
• 共有メモリに蓄積された経験を利⽤して学習
• そのつどPriorityを更新

ネットワーク
• DQNで使われる通常のCNNプラス
– Double DQN
– Multi-step Learning
– Dueling Network
– Prioritized Experience Replay
• Rainbowではない
– Noisy Net, Distributionalがない

経験の多様性
• Actor間でε-greedyのεの値を変える
– エージェント 𝑖 ∈ {0, … , 𝑁 − 1} に対して
𝜖> = 𝜖&%
>
`
Q
, 𝜖 = 0.4, 𝛼 = 8
– 例）N=360なら
0.40000, 0.39194, 0.38404, … , 0.00026
– 各エージェントのεは学習を通して固定

分散処理
• 360個のCPUコアと1枚のGPU
– それぞれのCPUコアにActor（360⼈）
– １つのGPUにLearner⼀⼈
• 400フレームごとにLearnerのパラメータをActorにコピー
• 共有メモリのサイズは200万

• 横軸は学習時間
• 既存⼿法よりも良い
– 既存⼿法は1GPU

• ゲーム別
• 学習も早い

実験結果②：Actorの数を変えたとき
• 基本的にActorの数を増やせば精度は良くなる
• 「⼤量・多様な探索 + 優先経験再⽣がよいのではないか」

実験結果③：Memoryの容量を変えたとき
• 容量を増やしてもそんなに性能は上がらない

まとめ
• 分散処理が可能な環境における強化学習のフレー
ムワークを提案
• 多数のエージェントよる⼤量・多様な経験
• 優先経験再⽣に基づき効率的に学習
• State of the Art

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)

Similar to Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review) (20)

More from Toru Fujino

More from Toru Fujino (6)

Recently uploaded

Recently uploaded (9)

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 under review)