Rainbow

Rainbow: Combining Improvements
in Deep Reinforcement Learning
Deep Leaningゼミ
B4 細川喜生
2018/7/2

論文概要
• 著者
Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski,
Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver
• AAAI 2018
https://arxiv.org/abs/1710.02298
• 被引用数：36件（2018/6/28）
• 複数のDQNの拡張モデルを組み合わせて出来たRainbowという
ハイパフォーマンスな手法を提案し、当時のstate-of-the-art(最先端技術)となった
1

Rainbowとは？
1. DQN 7つのモデルを
2. Double DQN(DDQN) 組み合わせる…
3. Prioritized Experience Replay
4. Dueling Networks
5. Multi-step Learning
6. Distributional RL
7. Noisy Nets
7つのモデルが持つ特性を
良い所取り！
Rainbow
2

強化学習おさらい
環境エージェント
ある状態において、ある行動を取った時の
価値Qを最大化する行動を探索（エピソード）によって学習する
s:状態観測 a:行動
エピソード
r:報酬
Q:行動価値
3

Q学習おさらい
• Qの値を学習するためのアルゴリズムの一つ
Q(st,at)=(1-α) Q(st,at)+α(rt+1+γmaxat+1(Q(st+1,at+1)))
• 実際の報酬と見込みの差分（TD誤差）から学習していくTD学習の1つ
• 行動した後の状態をもとに報酬と行動価値を判断する
• 学習率αによってQ値の更新をどれだけ急激に行うかを制御している
4

1.DQN
Q学習+深層学習
特徴
・Experience Replay
エージェントの経験したサンプルを記録しておきそれを学習に利用
→学習データの相関をなくす
・Fixed Target Network
教師データのNNを遅れて更新→NNの出力を用いた学習の安定
・報酬のclipping
報酬を-1,0,1に固定→ゲーム内容によらずDLを実行しやすい
・誤差関数：二乗誤差→Huber関数
誤差関数の出力を小さくして学習を安定させる
5

2. Double DQN(DDQN)
Q学習では価値が高くない行動を過大評価することで
学習に悪影響が出る場合がある
最適行動を選択する関数
行動価値関数Q
Q値を評価する関数
Q関数を分割することで誤差の増大を防ぎ解決！
この考え方をDQNに用いて改良された手法がDDQN
Yt=Rt+1+γQ（St+1,argmaxQ(St+1,a;θt);θ’t）
別のもの
6

3.Prioritized Experience Replay
・Experience Replayでのサンプルに優先順位をつける
・どうやって？→TD誤差の大きさで優先順位をつける
Rt+1+γ・argmaxQ(St,at+1)-Q(St,At)
• 確率的サンプリングを採用
サンプルに優先順位をつけて学習して
DQNのネットワークの誤差を小さくする！
at+1
7

4.Dueling networks
• Q値を状態の価値V(s)と行動のアドバンテージ価値A(s,a)に分けて学習する手法
Q(s,a)=V(s) + A(s,a)
実際は完璧にV値とA値を推定することは出来ないので
以下の式で計算する
• Q(s,a) = V(s)+(A(s,a) –
1
|𝐴|
ΣA(s,a))
A値とA値の平均の差分を用いる
V値が行動に左右されずに学習可能
学習が安定する！
引用:Dueling Network Architectures
for Deep Reinforcement Learning
Q(s,a)
Q(s,a)
V(s)
A(s,a)
従来のDQN
Dueling DQN
8

5. Multi-step learning
• 学習に用いる報酬を1-stepの報酬からn-stepに拡張した手法
報酬：
• Rainbowではn=1,3,5を比較し、最も良かったn=3を使っている
TD誤差(n=3)：
大きくしすぎてもバイアスが大きくなる
適切なnの設定が重要
学習の高速化につながる！
9

6. Distributional RL
• DQNではQ関数を収益の期待値で表現している
これは状態・行動に分布が左右される
• その期待値を分布として学習する手法
学習が安定する！
例 FREEWAY 鳥に当たらないように車を動かすゲーム
鳥車
引用：A Distributional Perspective on
10

7. Noisy Nets
• ε-greedy法による探索では確率εでランダムに行動する、しかし…
εに左右されやすく、設定が難しい
最初の報酬を得るのに多くの行動選択枝があると難しい
• どのくらいランダムにするかをノイズを用いてネットワークに学習させる
通常の全結合
Noisy Nets
どのくらいランダムにするかのランダムなノイズ
学習パラメータ
探索効率の改善！
11

実験方法
• 57種類のAtari2600のゲームで比較実験
例エイリアンスペースインベーダー
1. DQNの拡張モデル6つとRainbowの比較
2. Rainbow（7種のモデル）と1つ抜き（6種のモデル）の比較
12

実験結果 1.他モデルとの比較
• 右図：他のモデルとRainbowのスコアの比較図
• 縦軸：スコア
• 横軸：学習に用いたフレーム数
• ７MフレームでDQNの最高スコア、
44Mフレームでその他の全モデルの
最高スコアを上回る
• 大幅なスコアの更新に成功
引用：Rainbow: Combining Improvements
13

実験結果 1.他モデルとの比較
• 下図：どのくらいの速度で人間のパフォーマンスに到達するか
• 縦軸：ゲーム数
• 学習の速度も向上した
20% 50% 100% 200% 500%
14

実験結果 2.1種抜けとの比較
• 右図：Rainbowから1種抜いたモデルとRainbowのスコアの比較図
• 縦軸：スコア
• PriorityとMulti-step抜き…影響が大きい
早い段階でパフォーマンスに大きな影響
• DoubleとDuel抜き…影響が小さい
Double
影響力大！
Multi-step
Priority
DQN
Noisy
影響力小
Duel
Dis
15

実験結果 2.1種抜けとの比較
ゲーム毎のパフォーマンス
• PriorityとMulti-step抜き…ほとんどのゲームでRainbowより低く、影響大
全57ゲーム中53で影響を及ぼしている。
• Noisy抜き…ゲームによって影響がまちまち
• DoubleとDuel抜き…影響は小さいが、Duelはゲームによっては影響大
No Double
No Multi-step
No Priority
No Noisy
No Duel
No Distribution
16

まとめ
• Rainbowは7種のDQNモデルを合わせたモデルで、従来手法より
パフォーマンスが大幅に向上した
• Prioritized Experience ReplayとMulti-step Learningが特に重要
• Pythonでの実装
https://github.com/Kaixhin/Rainbow
17

参考文献
• Deep Reinforcement Learning with Double Q-learning
Hado van Hasselt, Arthur Guez, David Silver
• Prioritized Experience Replay
Tom Schaul, John Quan, Ioannis Antonoglou, David Silver
• Dueling Network Architectures for Deep Reinforcement Learning
Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas
• A Distributional Perspective on Reinforcement Learning
Marc G. Bellemare, Will Dabney, Rémi Munos
• Noisy Networks for Exploration
Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Ian Osband, Alex
Graves, Vlad Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell, Shane
Legg
• https://github.com/arXivTimes/arXivTimes/issues/439
18

Rainbow

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Rainbow

Editor's Notes