DQNからRainbowまで〜深層強化学習の最新動向〜

DQNからRainbowまで
〜深層強化学習の最新動向〜
強化学習アーキテクチャ勉強会 #12
February 13, 2018
Jun Ernesto Okumura
AI System Dept.
DeNA Co., Ltd.

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Disclaimer
■ 深層強化学習は領域が広く、多くを紹介することは出来ないため、
Rainbow論⽂※で紹介されているDQNを中⼼とした複数アルゴリズム
のみ扱います
⁃ Model-free（モデルベース強化学習は扱わない）
⁃ Off-policy（A3C等は扱わない）
⁃ ベンチマークタスクはAtari 2600が主対象（連続⾏動制御等は扱わない）
■ “強化学習を勉強したての⾃分” を想定ターゲットに、「当時こんな資
料があったら理解が進んだな」という要素を盛り込んでいます。
※ 分かりにくい箇所や、不正確な記載があればコメントください。
⁃ mail: jun.okumura@dena.com
⁃ Twitter: @pacocat
※ Hessel et al., “Rainbow: Combining Improvements in Deep Reinforcement Learning”, 2017,
https://arxiv.org/abs/1710.02298
※ 登場時、ゲームタスクのSOTAとして話題だったが2018/1現在は更新されている: “Distributed Prioritized Experience Replay”, 2017
https://openreview.net/forum?id=H1Dy---0Z

背景
■ 近年、強化学習技術を使って様々なゲームタスクが攻略されている
■ 転機になったのは2013年のDQN (Deep Q-Network)の発表
■ 以後、様々な改善アプローチが⾏われ、2017年にはRainbowという
「全部のせ」改良モデルが提案された。
■ 本発表では、提案7⼿法に加え、DQN周辺の話題について紹介を⾏う

アジェンダ
■ 強化学習の問題系
■ DQN以前からRainbowまで
⁃ 0. Neural Fitted Q Iteration（DQN以前）
⁃ 1. Deep Q Network（DQNの登場）
⁃ 2. Double DQN
⁃ 3. Prioritized Experience Reply
⁃ 4. Dueling Network
⁃ 5. Multi-Step learning
⁃ 6. Noisy Network
⁃ 7. Categorical DQN
⁃ 8. Rainbow
⁃ 9. And More
■ まとめと所感

強化学習の問題系
■ ある環境下で、⽬的とする収益を最⼤化するための戦略（⾏動系列）
を獲得する機械学習の⼀種
1. 教師データがなくても学習できる
• 環境に対する試⾏錯誤によってターゲットをサンプリングできる
2. 未知の環境に対しても学習ができる
• MDP（Markov Decision Process）の成⽴を仮定する必要がある
環境
現在の状態を観測
⽅策に従って⾏動を選択
報酬と次状態を観測
期待収益を
最⼤化したい
…

強化学習におけるMDP環境の要素
■ MDP:
⁃ : 状態※1（ : 状態集合）
⁃ : ⾏動※1（ : ⾏動集合）
⁃ : 状態遷移確率※2（系のダイナミクス）
•
• 状態で⾏動を選択した時に、次状態に遷移する確率
⁃ : 報酬関数
•
• 状態で⾏動を選択し、次状態に遷移した時の報酬量
※1 特に、時刻（ステップ）における状態・⾏動を明⽰する場合は、添字を付けて , と表す
※2 現状態・⾏動がgivenな場合に次状態を与える確率という意味でと表現する場合もある

MDPを構成する要素
■ MDPの要素を使って、以下が定義出来る
⁃ : ⽅策（policy）
• 状態が与えられた時に⾏動を返す確率分布
⁃ : 累積期待報酬※1
• 与えられた⽅策を取り続けた時に期待される報酬の累積和
• : 割引率※2（将来の報酬期待をどの程度割り引くかを表現）
※1: 時刻に獲得する報酬
※1: 最⼤化する⽬的関数、という意味ではではなくが使われることが多い（⽅策勾配法などでよく⾒る）
※2: 報酬が疎なエピソードタスクではが、DQNでAtariを使う場合にはがよく使われる

状態・⾏動の価値とベルマン⽅程式（Bellman Equation）
■ 状態価値 (value function) は次のように定義・変形できる
■ 状態⾏動価値 (action value function) は次のように定義・変形できる
※期待値を分解
※定義
↑状態価値関数に関するベルマン⽅程式
※状態価値と同様
↑状態⾏動価値関数に関するベルマン⽅程式

ベルマン最適⽅程式（Bellman Optimal Equation）
■ どの状態においても常に期待収益が最⼤となるように⾏動すれば、
そのような⽅策は最適となる
■ 最適な⾏動のもと成り⽴つ状態価値に関する再帰式：
■ 最適な⾏動のもと成り⽴つ状態⾏動価値に関する再帰式：
■ モデルが既知（状態遷移確率が既知）の場合はdynamic programingで
解けるが、モデルが未知の場合は他のアルゴリズムを使って解く
※本発表で扱うのは以後 Model-Free な強化学習アルゴリズムのみ

Q-learning（Q学習）
■ ⾏動価値を直接推定・最適化することで、最適⽅策を得る⼿法の１つ
（このような⽅策の獲得をvalue-basedと呼ぶ ⇔ policy-based※1）
■ 試⾏錯誤によるサンプリングによって、⾏動価値を推定する：
■ Q学習の特徴
⁃ Model-free: 系のダイナミクスを陽に⽤いずに学習する
⁃ Value-based
⁃ Off-policy: 最適⾏動価値関数の更新がサンプリング⽅策に依存しないため、
⽅策によらず（無限回の試⾏で）価値関数が同じ場所に収束する
※1 例えば、PG, DDPG, TRPO, PPO等
現在の価値推定試⾏錯誤からのサンプリングによる価値推定
※「サンプリングによってtargetを定義した教師あり学習」のようなイメージ
学習率

探索の必要性
■ ⾏動価値を推定するためには、様々な状態・⾏動に対して
⼗分な量のサンプリングを⾏わないといけない
■ ⼀般的に状態空間は⼤きいことが多く、探索が必要になる
⁃ Behavior Policy: 探索を⾏う⽅策
⁃ Target Policy: 求めたい最適⽅策
■ Behavior Policyの例
⁃ ε-greedy policy: 確率εでランダムな⾏動を選択し、確率 1-ε で
現時点でもっとも価値が⾼い⾏動を取る⽅策
⁃ Boltzmann policy: 探索の度合いを温度パラメータTで調整できる⽅策
• Tが⼩さいほど決定論的に現時点での最適⾏動を選択しやすい
■ 「学習初期は⼤きめに探索、後半は探索をなるべくしない」など
探索のプランニングがチューニング上重要になりやすい

関数近似を⽤いたQ学習
■ 状態空間、⾏動空間が巨⼤である場合は、全てのを
⼗分に探索・更新することが難しい
■ Q関数をパラメータθで特徴づけられる関数で近似することが多い
■ 関数近似器が線形の場合は特定条件下での収束性が保証されているが、
⾮線形の場合は必ずしも収束が保証されていない
サンプリングによって作られた target 現在のQ関数勾配⽅向
学習率※
TD誤差※
※ TD = Temporal Difference

0. DQN以前: Neural Fitted Q Iteration
Riedmiller, Martin.
“Neural fitted Q iteration–first experiences with a data efficient neural reinforcement learning method”.
In: European Conference on Machine Learning. Springer, Berlin, Heidelberg, 2005. p. 317-328.
https://link.springer.com/chapter/10.1007/11564096_32

DQN以前：MLPを使った関数近似の課題
■ Q関数をニューラルネットワーク（MLP※1）で近似する試みがあった
⁃ ⾮線形なので、複雑な価値表現も獲得できる
⁃ 広⼤な状態空間に対しても使える
■ ⼀⽅、ニューラルネットを使った近似は様々な課題が指摘されていた※2
⁃ ある特定の (s,a) でQ関数を更新すると、重み全体が変わってしまうため、
別の(s,a)対の価値評価にも影響してしまう
⁃ 結果、個別の(s,a)に対してオンラインで訓練しても学習が安定しない
※1: 多層パーセプトロン（multi-layer perceptron）
※2: Boyan, Justin A., and Andrew W. Moore."Generalization in reinforcement learning: Safely approximating the value function.”
Advances in neural information processing systems. 1995.
http://papers.nips.cc/paper/1018-generalization-in-reinforcement-learning-safely-approximating-the-value-function.pdf

MLPを使って学習を安定化させるための⼯夫
■ あるデータ点を更新する度に過去の経験も⼀緒に活⽤する
⁃ Experience Replay technique※1を参考
■ オンラインではなくオフラインでバッチ学習する
⁃ Fitted Q Iteration※2を参考
※1: Lin, Long-Ji. "Self-improving reactive agents based on reinforcement learning, planning and teaching."
Machine learning 8.3-4 (1992): 293-321.
※2: Ernst, Damien, Pierre Geurts, and Louis Wehenkel. "Tree-based batch mode reinforcement learning.”
Journal of Machine Learning Research 6.Apr (2005): 503-556.
Neural Fitted Q Iteration

Neural Fitted Q Iteration
1. 事前に様々な状態・⾏動・報酬を獲得し、⼤量の学習データを⽣成
2. MLPを構成し1. の⽣成データでバッチ学習
←学習データ⽣成
←s, u, c※1 から targetを作成
←inputは s, u (=a)
←⽣成した学習データでバッチ学習
※1 この問題設定では期待報酬rの最⼤化ではなく期待コストcの最⼩化を解いている点に注意
※ Riedmiller 2005より

Neural Fitted Q Iteration（実験）
■ 以下3タスクで実験を⾏い、学習が出来ていることを確認
1. The Pole Balancing (avoidance control task)
2. The Mountain Car (reaching a goal)
3. Cart-pole Regulator (regulator problem)
■ 評価⽅法
⁃ 初期状態をランダム変えながら、初めてterminal stateに到着した
学習エピソード数で評価※（⼩さいほどいい）
■ 学習上の⼯夫
⁃ 時間ステップごとに⼩さいコスト ctransを与え続けることで、
なるべく早くゴールを志向するようにする
⁃ ゴール付近の成功サンプルを意図的に増やすことで学習を効率化
（hint-to-goal-heuristic）
※ Pole Balancingのみ、300sec中どれだけ⻑くpoleを落とさなかったか、で評価
※ この論⽂では、各時間ステップの単位を”cycle”と呼んでいる

実験例：The Mountain Car
■ ⾞をタイミングよく加速させゴールまで登らせるタスク
⁃ 状態は⾞の座標、⾏動は0.05sec毎に加速量 [-4, 4]の2種類
⁃ ⼊⼒は state 2次元 / action 1次元、出⼒はQ値
⁃ 隠れ層2層のMLP、活性化関数はsigmoid
⁃ 学習に使う各trajectoryの最⼤⻑は50cycles (≒2.5 sec)
※ 左図出典: M Alzantot., “Deep Reinforcement Learning Demysitifed (Episode 2) ̶ Policy Iteration, Value Iteration and Q-learning”
https://medium.com/@m.alzantot/deep-reinforcement-learning-demysitifed-episode-2-policy-iteration-value-iteration-and-q-978f9e89ddaa
Accessed: 2018-01-31 12:00
※ 右図はRiedmiller 2005より
Episode終了
（成功）
Episode終了
（失敗）

1. DQNの登場: Deep Q Network
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning."
Nature 518.7540 (2015): 529.
Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning."
arXiv preprint arXiv:1312.5602 (2013).
←Nature版DQN (本発表)
←初期DQN

DQN（Deep Q Network）概要
■ レトロビデオゲームドメイン（Atari 2600）で、
⼈間レベルのパフォーマンスを達成したアルゴリズム
⁃ ルールや報酬が異なる様々なゲームを攻略できるようになった
⁃ ⼊⼒特徴量を画像にすることで、複数のゲームを同じハイパーパラメータ
で学習できるようになった（視覚の獲得）

論⽂で着⽬している課題
■ ⾮線形関数で価値関数を近似すると学習が安定しない※1
1. 探索⽅策によるサンプリングは時系列的に連続する※2
2. ターゲットが現在のQ関数に依存し教師データの役割を果たさない
ある探索⽅策がサンプルしてきた系列
データ系列が連続してしまう（時系列の相関が強い）
同じ関数を使って更新してしまう
※1 Neural Fitted Q Iterationも同様の課題に対応しているが、⼤きなネットワークで何度もイテレーションを繰り返す場合は⾮現実的
※2 SGDを適⽤する際に必要となるi.i.d.（独⽴同分布）の仮定が壊れてしまう

DQNの貢献
■ Experience Replyの活⽤
⁃ データ系列をシャッフルすることで、時系列の相関に対処※
■ Target networkの導⼊
⁃ TargetのQ関数と更新するQ関数のパラメータを分離（定期的に同期）
⁃ Targetをしばらく固定することで学習を安定化
■ ミニバッチ学習
⁃ ある程度まとまったデータで更新を⾏い学習を安定化
■ CNNの導⼊（画像特徴量の採⽤）
⁃ 異なるゲームにおいても同じフレームでの学習を可能にした
■ その他、数々の⼯夫を試みている
⁃ 画像前処理、Huber損失の採⽤、報酬のclipping、…
パラメータを別に持った関数で更新
※ 論⽂ではそこまで強調されていないが、学習に有⽤なレアな経験を再利⽤しやすくなる、という利点もある

ネットワーク構成
■ DQNアーキテクチャ（Nature版※1）
84
84
20
20
32 64
9
9 7
7
64
512
4-18
8
8
4
4 3
3
Conv 8x8x32
Stride (4,4)
ReLU
Conv 4x4x64
Stride (2,2)
ReLU
Conv 3x3x64
Stride (1,1)
ReLU
flatten dense
ReLU
dense
※1 2013年の旧DQNの構成は、Conv 8x8x16 (ReLU) → Conv 4x4x32 (ReLU) → flattend dense 256 (ReLU) → dense 4-18
※2 ゲーム画⾯は OpenAI Gym 環境で”Breakout-v0”論⽂と同じ処理を⾏って作成
no op.
4
0.12
-0.68
0.94
0.33
連続するゲーム画⾯を⼊⼒すると、
各⾏動に対する評価値（Q値）を出⼒
※2

特徴量⽣成
■ 画像前処理（関数φ）
⁃ 210 × 160 pixの画像を84 × 84 pixにリサイズ
⁃ 前後のフレームの最⼤値を取る（画⾯上の点滅を抑えるため※1）
⁃ RGBから線形光度Y※2を計算してgray-scaleに変換
■ 前処理した連続する4フレーム※3の画像を現状態として⼊⼒
⁃ 複数フレーム使うことでゲーム内のオブジェクトの移動を表現できる
⁃ 連続するフレーム数を3や5にしても⼤きく結果は変わらない
※1 例えば、ブロック崩しではボールが奇数フレームにしか現れないので、偶数フレームを単独で使うとボールが消えてしまう
※2 Y = 0.216R + 0.7152G + 0.0722B
※3 複数のフレームの定義があることに注意！実際のゲームでは60Hzでフレームが定義されているが、
エージェントは4フレーム毎に⾏動を選択するため実質15Hzで⾏動している（AIのフレーム）
前処理: Φ

実験設定
■ 対象ゲーム
⁃ Atari 2600で既存研究が存在する49ゲームが対象
■ 学習設定
⁃ 報酬
• ゲームによらず正の報酬は+1、負の報酬は-1、他は0に設定（clipping）
⁃ Optimizer: RMSProp
⁃ 探索⽅策: ε-greedy⽅策
• εは1M frames※1まで1.0→0.1のように減少、以後0.1で固定
⁃ 訓練期間: 50M frames※1 (実時間で38.58⽇に相当※2)
⁃ Replay Memory: 直近1M frames※1の (s, a, r, sʼ) を保存
⁃ Frame-skipping: 4 frameは同じ⾏動を取り続ける（学習時間の短縮に寄
与）
⁃ 5ゲームでパラメータチューニングし全ゲームに適⽤
• 全てのゲームでハイパーパラメータを調整するのが⾼コストなため
※1 ここでのフレームはAI frame（15Hz）
※2 ⼈間と⽐べてゲームの学習効率が悪いので、最近は認知科学の観点から様々な提案がされている（e.g. Episodic Control, …）

ハイパーパラメータ

Pseudo-code
←画像特徴量の作成
←ε-greedy⽅策によるサンプリング
← replay bufferへのストア
← targetの作成
← パラメータ更新
← target networkの同期

評価⽅法
■ AIエージェント
⁃ ゲーム時間で最⼤5minのepisodeを30回繰り返したスコア平均値で評価
⁃ 評価時にε=0.05である程度ランダムな摂動を加える
⁃ 開始時に0-30stepsランダムな⾏動を取り初期状態をずらす
• 初期状態に対する過学習を抑制
■ Randomエージェント
⁃ 10Hz毎にランダムな⾏動を選択するベースライン
• 10Hz (≒0.17sec) は⼈間がボタンを押す反射⾏動の時間らしい
■ ⼈間（professional human tester※1）
⁃ 2hゲームに慣れた後、最⼤5minのepisodeを20回繰り返したスコア平均
■ 最終的に、以下のように規格化してスコアを評価
※1 彼らが ”professional” かどうかは不明（いずれにせよ、⼈間とのパフォーマンス⽐較をする場合はこの評価設定を念頭に置く）

結果：49ゲームを⼈間のスコアで規格化したパフォーマンス
⼈間のパフォーマンスと同程度か超えているゲーム（29タイトル）
※ここではprofessional testerの75%ラインで定義
ほとんどのゲームで既存の線形モデルのパフォーマンスを超えている
悪名⾼い”Montezumaʼs Revenge”
（中⻑期のタスク志向が必要、背景画像が頻繁に変わる、等DQNが不得意とする領域）
Linear Modelの⽅がいい成績を出しているものもある
“Tennis”, “Kung-Fu Master”, “Double Dunk”
※Bellemare, Marc G., Joel Veness, Michael Bowling. "Investigating Contingency Awareness Using Atari 2600 Games." AAAI. 2012.

結果（状態価値・状態⾏動価値）
ブロック崩し（Breakout）
①, ② 各フレームごとの状態価値は
そこまで⾼くない
③ 左隅のブロックを崩せそうになり
状態価値が上昇する
④ 左隅の隙間を通ることでボールが
上に周り⾼得点取得（価値上昇）
Pong
① AI（緑）はどの⾏動をとっても
価値にそれほど差がない
② 上に⾏かないと負けるので、上の
⾏動価値が上昇、それ以外は減少
③ 負けないためには上⼀択状態
（②よりも差し迫っている）
④ 無事にボールを返せたので、
どの⾏動も価値が横並びで⾼い

結果（t-SNEによる最終層の可視化）
• ゲーム時間で2hのプレイで訪れた状態に対して、最終FC層をt-SNEで表現
• 様々な局⾯が、状態価値と結びついて表現されている様⼦がわかる
⾚いほど状態価値が⾼い

最近の話題（DQN論⽂の再現性について）
■ DQNはアルゴリズムも簡単なので実装しやすいが、Nature論⽂では
深く⾔及されていないトリッキーな項⽬もありハマりやすい
■ 再現性のあるDQNを⽬指して実装上の注意をまとめた報告がある※1
■ 主な注意点：
1. Atari frame（60Hz）とagent frame（15Hz）の違いに注意する
• 例えば、画像特徴量を作る際はagent frameにおける4 framesを使う
2. target net更新の際は、更新間隔ちょうどのネットワークを同期するので
はなく、その間最もパフォーマンスがよかったネットワークで同期する
• 安定化の⼯夫をしているとはいえNN近似による振動が激しいため
• Q学習はQ関数を推定することで間接的に最適⽅策を探すため、学習中の
Q関数の推定精度向上が必ずしも⽅策の改善に寄与しないことがある※2
3. エピソードの終了はゲームオーバーではなくライフを失ったタイミング
4. RMSPropはHintonのオリジナルではなくモーメント項が⼊った改良版※4
※1 Roderick et al. “Implementing the Deep Q-Network”, https://arxiv.org/abs/1711.07478
※2 後のDouble DQNも参照
※3 例えばブロック崩しではある程度ブロックを消してからボールを落とすと（ライフのロス）、その状態が初期状態になる
※4 Tensorflowでは同じ: https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/training/rmsprop.py

エピソード終了定義の影響
■ 特に、エピソードの定義に関しては、タイトルによって⼤きな差が
⽣まれてしまうため、DQN再現時は注意が必要

2. Double DQN
Van Hasselt, Hado, Arthur Guez, and David Silver.
"Deep Reinforcement Learning with Double Q-Learning." AAAI. Vol. 16. 2016.

着⽬した課題背景
■ 関数近似をしたQ学習では、教師データはmax operatorによって、
各状態⾏動について最も⾼い評価を⾏うことで作成している
■ ⼀⽅で、Qの評価には誤差が含まれるため、本当は価値が⾼くない⾏動
を（たまたま）⾼評価して教師データにしてしまうことがある※
⁃ 学習中はこのような過⼤評価によって最適な⽅策を⾒つけにくくなる
※ 本資料では触れないが、理論的にもQ値の評価に正のoffsetの下限がつけられる（論⽂に証明あり）

Double DQNの提案
■ ターゲット⽣成時に、現在のネットワークで最適⾏動を評価するので
はなく、別のネットワークを活⽤することで、過⼤評価を抑制
通常のQ学習で⽣成するターゲット
DoubleQ学習で⽣成するターゲット
最適⾏動を選択するQ関数と、その時のQ値を評価する関数が同じ
最適⾏動を選択するQ関数と、その時のQ値を評価する関数が異なる

Over-optimismの検証
■ 状態価値がgivenなトイタスクでDoubleQ学習の効果を検証
⁃ 以下の例では、状態価値関数をN(0,1)のガウス分布で定義（左図紫線）
• [-6, …, 0, ..., 6]の各state毎にaction数は10個ある
• 全てのアクションでQ*(s,a) = V*(s)
• 推定誤差はQ_t(s,a) = V*(s) + ε_aで与える
⁃ Q関数をd次元多項式で近似するタスクを解く（以下の例ではd=9）
• 各イテレーション毎にstatusの⼀部をサンプルから除外してQ関数を推定
真のQ*(s,a)
推定したQt(s,a)の例
※価値をoverestimateしてる
Q(s,a)の各推定結果
Qt (s,a)のmax
※overestimateしたもののmaxなので
全体的に価値を過⼤評価している
DoubleQ学習を使った結果
最適なQ*とmax Qの差
※ overestimateの度合い

Atariでの実験と結果
■ Nature版DQNと同設定で、最適⾏動を取るためのネットワークとして
target networkをそのまま流⽤
■ （過⼤評価が抑えられ）Q値の推定がより正確になった結果、
DQNと同じ49タイトルにおける評価※でパフォーマンスが改善
←スコアがDQNより改善
←タイトル毎のバラツキが⼤きいので、
Meanは⾒ない⽅がいい
※ Nature版DQNと同様、ゲーム時間で5minのプレイを⾏い、⼈間のスコアで規格化

結果：Over-optimismの抑制効果検証
■ 多くのタイトルで、過⼤評価の抑制と、スコアの改善が確認された
※ 直近125,000 stepsのmax Q(s,a) の平均値として計算
DQNと⽐較して、
価値評価※は抑えられている
“Wizard of War”, “Asterix”では
特に価値推定精度とスコアの
向上が⾒られた

Double DQNのチューニング結果と評価⽅法について
■ ⽐較のためハイパーパラメータやアーキテクチャはDQNと同じに
設定しているが、独⾃のチューニングも試みている
⁃ Target networkの更新間隔は⻑くした⽅がいい: 10,000 → 30,000 steps
⁃ 探索時のεは抑えたほうがよかった: ε = 0.1 → 0.01
• 評価時のεも 0.05→0.001にしている（より決定論的に⾏動）
■ チューニングによってパフォーマンスが更に改善
⁃ 先ほどと評価⽅法（と学習時の初期設定）が異なる点に注意！
• No op. start: 0-30 step間放置した状態からエピソードを開始（Nature版
DQN）
• Human start: human expertの軌跡からエピソード開始状態をサンプル※
• No op.では初期状態が決まった決定論的なゲームで過学習する可能性がある
※ Nair, Arun, et al. "Massively parallel methods for deep reinforcement learning.” arXiv preprint arXiv:1507.04296 (2015).

結果：DQN論⽂の49タイトル+追加8タイトルのパフォーマン
ス
相変わらず”Montezumaʼs Revenge”は解けていない
※ 下に並んでいる”Venture”, “Gravitar”, “Private Eye”もDQNが苦⼿なタスク
線形モデルの⽅がよかったDouble Dunkは⼤幅に改善
※ Tennis, Kung-Fu Masterも同様
（DQNではQ値のバイアスがパフォーマンスを落としてた？）
Double DQNをチューニングしないほうがよかったタイトル
※ Centipedeも同様

3. Prioritized Experience Reply
Schaul, Tom, et al. "Prioritized experience replay.”

■ DQNではExperience Replyの活⽤が学習の効率化に寄与していた
1. 経験をランダムにサンプルすることでi.i.d.に近づく（バイアス減）
2. 学習に有⽤なレアな経験の再利⽤性を⾼める
■ ⼀⽅、経験をストアするためには⼤きな記憶領域が必要なので※1、
より低計算リソースで効率的に学習する⽅法が求められる
■ 基本的なアイデア：
⁃ 再⽣する記憶には、学習を促進するものとそうではないものがあるはず
⁃ 「報酬に紐付いて記憶を優先的に再⽣する」海⾺の機能※2を参考に、
学習効率化したい
⁃ 記憶の再⽣分布を意図的に変えることによるバイアスに対しては
importance samplingによって悪影響を緩和
⁃ Model-basedな問題系ではprioritized sweeping※3等が提案されていた
※1 オリジナルDQNでは、各経験（状態⾏動対）は平均8回再⽣されている
※2 睡眠時や休息時に、海⾺は報酬に結びついた経験を優先的に再⽣して学習を⾏っているらしい
※3 閾値を超えたTD誤差が現れたら何度も学習を繰り返す（c.f. Moore & Atkeson, 1993）
他にも、re-samplingを活⽤したNarashimhan et al. 2015、等samplingの⼯夫も数多く提案されてきた

検証に⽤いるトイタスク
■ “Blind Cliffwalk”
⁃ 各state毎に2 actionを選択、選択の結果は正解or不正解
• n回連続で正解しないと報酬がもらえない
⁃ 報酬獲得の確率が2-nなので報酬がsparse
• 成功体験が圧倒的な量の失敗体験に埋没する
• 効率的に成功体験を活⽤しないと学習が進まない
■ ⽐較対象のエージェント
⁃ Uniform: replay bufferから⼀様分布でサンプリング（DQNと同じ）
⁃ Oracle: lossが⼀番減る経験を（後知恵で）greedyにサンプリング
※ n=2-16、簡単のためQ関数は線形近似で検証。replay bufferは2n+1-2を確保。

記憶再⽣の優先度の付け⽅
■ 基本的にTD誤差に応じて優先度を付けた上でreplay bufferにストア※1
■ 気をつけるべき：
⁃ TD誤差の少ない経験がずっと再⽣されない
⁃ 関数近似によるノイズに影響されやすい
⁃ ⾼優先度の経験をgreedyにサンプルすると過学習しやすい
■ 導⼊：
⁃ 確率的サンプリングを活⽤（αで優先度pのとり⽅をコントロール）
• α=0で⼀様サンプリング、αが⼤きいほど偏ったサンプリングを表現
■ 優先度の付け⽅：
1. Proportional※2:
2. Rank-based※3:
※1 経験はヒープ構造(proportionalではsum-tree) で格納（サンプリングのオーダー：O(1), ソートのオーダー: O(logN)）
Nが⼤きくなるとソート⼤変なので、再⽣される経験のみソート対象としている
※2 εは分布のエッジを適切に評価するため
※3 指数αの指数分布と同じになる（outlierに影響されないのでproportionalよりもロバスト）、実際にはk segmentに分けて評価

バイアスへの対処
■ αが0より⼤きくなるについて、教師データは偏ってくるため、
weighted Importance Samplingでバイアス影響を緩和※1
⁃ 更新に使うTD誤差がになる
⁃ βが0に⼩さいほどバイアスがかかる、β=1でuniform updateに近づく
⁃ 安定性のため更にで重みをかけている※2
■ Annealing IS
⁃ 学習終盤ではbiasの影響を受け易いのでβ=β0→1のように徐々に変更
※1 αでサンプリングの偏りを作り、βで影響を緩和しているので、お互いにトレードオフがある点に注意
※2 （とても慎重に更新してる）

トイタスクの検証結果
■ どちらのケースでもuniform samplingよりも学習が早い

Pseude-code
↑経験のストア
←重みを付けてサンプリング
←weighted IS
↑TD誤差に重みwiを付けて学習
←target netの更新

結果：DQN / Double DQNとの⽐較
■ DQN/Double DQNにそれぞれPrioritized Experience Replayを導⼊し、
49/57タイトルで⼈間のスコアで規格化したスコアを⽐較
⁃ 学習パラメータはNature版DQN、Double DQN(tuned)と同様
⁃ 学習率のみ、TD誤差が⼤きめに出ることを考慮し1/4倍している
⁃ α, β0は8タイトルを使った簡単なgrid searchで出した値を使⽤
■ 多くのタイトルで既存のDouble DQNの成績を超えた

結果：Double DQNとの個別タイトル⽐較
■ 全体ではDouble DQNよりも優れていそうだが、⼀部成績が悪化する
タイトルや、優先度の付け⽅でバラツキのある結果が出ていいる

Prioritized Experience ReplayとImportance Sampling影響
Prioritized Experience Replay有り、ISなし（バイアスがある場合；β=0）
⇒総じて学習の⽴ち上がりは早いが、初期に収束してしまい最終成績が悪化する場合がある
Prioritized Experience Replay有り、IS有り（バイアスを修正した場合；β=1）
⇒最終成績は安定しやすいが、お互いの影響を相殺？しているためDQNと同様の成績のものもある
通常のDQN

実際のサンプリング分布の様⼦
■ 学習初期の経験のTD絶対誤差分布（α=0.7）
■ タイトルごとに分布に特徴があるが、前⾴の結果と合わせて
⽰唆を出すのは難しそう

4. Dueling Network
Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning."

提案内容
■ Q関数（⾏動価値）ではなく、状態価値と⾏動のアドバンテージ価値を
別々に学ぶ新しいアーキテクチャを提案
⁃ ある状態の価値を、⾏動に対する評価を経由せずに直接表現できる
⁃ V（≒状態に対するbaseline）の収束が早くなる効果もある
■ 提案しているアーキテクチャ：
84
84
20
20
32 64
9
9 7
7
64
512
4-18
8
8
4
4 3
3
Conv 8x8x32
Stride (4,4)
ReLU
Conv 4x4x64
Stride (2,2)
ReLU
Conv 3x3x64
Stride (1,1)
ReLU
flatten dense
ReLU
dense
4 dense
Nature版DQNと同じ
⾏動価値関数Vを評価するstream
アドバンテージ関数Aを評価するstream
4-18
1
512

状態価値とアドバンテージのイメージ
■ レーシングゲーム“Enduro”で⽣成されたsaliency map※
※ Simonyan et al. (2013)と同様に、Dueling Netで学習した状態価値とアドバンテージのJacobianを計算
i.e. ,
状態価値
・道路（特に⾞がやって来る地平線）
・スコア
・ぶつかりそうな⾞
に注⽬している
アドバンテージ（上図）
・左右どちらの⾏動を選択しても
状態価値が変わらないものは、
特に注⽬している箇所はない
アドバンテージ（下図）
・よけないと⾞にぶつかってしまう
場合には、⾏動を決定するための
⾞の位置に注⽬している

ネットワークの分離
■ Dueling Netを導⼊すれば、Enduroの例のように、⾏動が期待報酬に
結びつきにくいような場⾯で必要のない推定をしないように済む
■ 分岐したネットワークパラメータをα, βとして⾏動価値を以下に分離
■ 実際には、分解が⼀意に決まらないので、以下のような修正を加える
⁃ 論⽂では、収束がより早い②を採⽤している
①
②

Atariでの実験設定
■ アーキテクチャ
⁃ CNN部分はNature版DQNと同じ
⁃ 分岐したネットワークはそれぞれ512 unitsのFC層
⁃ パラメータ数を揃えて⽐較しやすくするため、
DQNの実験では最初のFC層を512→1024 unitsにしている
■ その他の⼯夫
⁃ 分岐の際gradientに1/√2を乗じるhuristicsを導⼊
⁃ gradientは絶対値が10以下になるようclipping
⁃ Prioritized Experience Replayを使う際にはTD誤差が⼤きくなりがち
なので、⼤きな更新を⾏わないよう学習率は0.0000625に設定
■ 評価⽅法
⁃ 57ゲームに対して実験
⁃ エピソード開始は、30 no-op.とhuman startの2種類で⽐較
⁃ ⽐較対象のDQNはDouble DQN

結果：DQNとの⽐較
（Nature DQN, Double DQN, Prioritized Experience Replay）
■ Dueling Netを導⼊した場合には成績が⼤きく改善
■ gradient clippingの導⼊もポジティブ

結果：57ゲームのPrioritized Double DQNとの⽐較
多くのゲームでパフォーマンスが改善
パフォーマンスが悪化した群
※Double DunkやSkiingは安定しない印象

5. Multi-Step learning
Sutton, Richard S., and Andrew G. Barto. ”Reinforcement learning: An introduction.”
Vol. 1. No. 1. Cambridge: MIT press, 1998.

概要
■ DQNでは1-stepの報酬を⽤いて、教師データを作成しているが、
これをn-stepに拡張することで、学習が促進される場合がある
■ 報酬は、即時報酬ではなく以下のn-step報酬を使う
■ この定義のもとで、DQNが最⼩化するべきLoss関数は以下になる
⁃ 当然、n=1の場合は通常のDQNと同じ

6. Noisy Network
Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning."

■ 学習のためには探索が不可⽋であるが、過去の探索アプローチには
いくつかの課題がある
⁃ 多くの場合でε-greedyといった探索⽅策が使われる※1が、このような
localな摂動では、⼗分に広い空間を探索することができない
⁃ 訪れたことのない状態に積極的に移動させるintrinsic motivation※2等の
⼿法も存在するが、それらの報酬設計は実験者依存になってしまう
■ ネットワーク重みに摂動を加えて探索を促進するNoisyNetを提案
⁃ 各stepでlocalに探索⽅策に摂動を加えるε-greedyとは異なり、
重みへの摂動はより複雑で⻑期的な探索が期待される
⁃ 加える摂動はネットワークの重みから⾃動的にサンプルされる
※1 on-policy強化学習の場合には、エントロピー正則化などもよく使われる
※2 例えば、 Chentanez, Nuttapong, Andrew G. Barto, and Satinder P. Singh.
"Intrinsically motivated reinforcement learning." Advances in neural information processing systems. 2005.

NoisyNetの表現
■ ネットワークの重みを以下のように表現する
⁃ は学習対象となるパラメータ※1
⁃ 合わせて、固定のノイズ分布からサンプリングしたεを加える※2
■ 例：線形モデルの場合
※1 同じサイズのベクトルを2つ（target部分とノイズ部分）学習することになる
※2 ここではGaussian。ただ、どの程度の⾃由度をεに持たせるかについてはいくつかのパターンがある（次ページ参照）
※3 （σが0に収束すると探索が⾏われなくなるので、step毎にどのようにσが変化しているか気になるところ）

ノイズの導⼊
■ ノイズ分布から取得するεの⾃由度はいくつかパターンがある
1. Independent Gaussian noise
• 重みとバイアス項の各要素についてサンプリング（変数はpq+q個）
2. Factorized Gaussian noise
• 重みについては、⾏と列毎にサンプリング（変数はp+q個）
⁃ この論⽂では、学習効率化のため後者を採⽤
■ また、今回の実験では、以下のノイズ関数を使⽤

DQNを使った実験設定（NoisyNet-DQN）
■ ε-greedy⽅策は使わず、探索はNoisyNetによって⾏う
■ 価値関数の最終FC層をnoisy networkに置き換える
■ 以下のloss関数を最⼩化する問題として解く
NoisyNet-DQNにおけるtarget
各ε, εʼに対するLossの期待値はreplay buffer(D)からのサンプリングで近似
ミニバッチ学習では、さらにεに対してLossの期待値を取る（ノイズ分布から都度サンプリング）
参考：DQNで最⼩化するloss（厳密にはHuber loss）

Pseudo-code
←ノイズ分布からのサンプリング
←ノイズが加わったネットワークを使い探索、
取得系列をreplay bufferにストア
←replay bufferを使って学習
←target netの更新

結果：57ゲームにおけるDQNとの⽐較
■ Dueling NetやA3Cと⽐較してパフォーマンスが改善

7. Categorical DQN
Bellemare, Marc G., Will Dabney, and Rémi Munos.
"A distributional perspective on reinforcement learning." arXiv preprint arXiv:1707.06887 (2017).

■ DQNではQ関数を収益の期待値として表現している
■ ⼀⽅で、期待収益を”点”としてではなく”分布”として学習することで、
様々なメリットが享受できる可能性がある
⁃ 収益期待の多峰性や分散（≒確信度）が表現できる
⁃ 不安定な学習を抑制できる
■ 論⽂の提案
⁃ Bellman⽅程式を、収束性を担保した状態で拡張した
Distributional Bellman⽅程式を提案
⁃ 収益の期待値ではなく期待分布の学習を可能にした
• 具体的には、分布はrewardのヒストグラムとして表現（Categorical）
• bin数に応じて、C11, C51, …といった書き⽅がされている

Categorical DQNで学習できることのイメージ
■ 各(s,a)に対する期待収益が分布として表現される※
⁃ 以下のスペースインベーダーの例では、左に移動して射撃のタイミングを
待ち構える or そのまま動かないで敵がくるのを待つ⾏動の収益が⾼い
⁃ レーザーを打つと次の補充までにやられてしまうので収益は0に寄る
敵の移動⽅向
※ 以下で分かりやすい動画が⾒れる
https://youtu.be/yFBwyPuO2Vg
※1発で当てないとやられてしまう状況
⾼い確信度を持ってNGな⾏動
（⼩さい分散として学習・表現される）
Noopは報酬が0より⼤きいと期待されるが
そこそこ0報酬のリスクもある（多峰性）

（復習）Bellman⽅程式
■ ベルマンオペレータ（Bellman Operator）: ( )
■ 最適ベルマンオペレータ（Optimal Bellman Operator）:
■ 上記のオペレータを⽤いて、強化学習の問題はベルマン⽅程式の
不動点を求める問題として定式化できる※
※ 唯⼀の不動点への収束性の説明には、バナッハの不動低定理が使われる

Distributional Bellman⽅程式
■ ある価値分布Zに対して、Transition Operatorを以下のように導⼊※1
■ Distributional Bellman Operatorは以下のように定義できる
■ Q関数に対するのと同様、分布Zに対してもベルマン⽅程式が作れる※2
※1 ある⽅策のもと、次分布を与えるオペレータ
※2 距離関数としてWasserstein距離を使う場合は縮⼩写像であることが論⽂内で⽰されている

Distributional Bellman Operatorのイメージ
①次状態の期待収益分布を⽣成
（横軸は期待収益）
②割引率を乗じる
（bin sizeが変わる点に注意）
③観測された即時報酬を加算
（正の報酬の場合は分布全体が右に移動）
④変形された分布を元のbin sizeに加⼯

（参考）収束性について
■ ある固定された⽅策の元での価値分布の収束性：
⁃ 分布間距離をWasserstein計量で定義すればはに収束する※1
（ベルマン作⽤素は縮⼩写像になり、⼀意な不動点も存在）
■ 最適分布への収束性：
※ 最適⽅策（の集合）は以下で定義されているとする
⁃ 分布の期待値は収束する：
⁃ 分布全体は、条件付きで収束※2
※1 Total variation distanceやKL divergenceやKolmogorov distanceでは縮⼩写像にはならない
※2 詳しくは論⽂中のTheorem1参照（合わせて、収束しない特殊な事例も紹介されている）

DQNへの適⽤
■ 価値分布をヒストグラムで表現（Categorical）
⁃ bin数：
⁃ 分布の最⼩・最⼤値：
⁃ support：
⁃ bin間隔：
⁃ 分布のパラメータ：
■ ベルマン(+projection※1) 作⽤素をかけた分布と元分布の距離を最⼩化※2
※1 projection作⽤素は、割引率γによって縮⼩した分布を元のbin間隔に戻す操作を⾏う
※2 ここではKL距離の最⼩化の問題に落とし込んでいる

Pseudo-code
←Q関数を分布で表現
←次状態と報酬から分布の遷移を獲得
←もとのbin間隔にprojection

カテゴリの数による学習の影響
■ 基本的には、カテゴリ数が多くなるほど表現⼒が増し学習が進捗する※
⁃ 特にSEAQUESTにおいては顕著
※ 期待値ではなく分布を学習するためカテゴリ数が多いほど学習に時間がかかりそうだが、
実際にはC51でもDQNの75%程度のスピードで学習が出来ている

結果：57ゲームにおけるパフォーマンス
■ 過去のDQNsと⽐較して成績が改善
■ ゲーム毎にDouble DQNと⽐較すると成績がいいものばかりではない

Intrinsic Stochasticity
■ Atariのゲームは基本deterministicなので、価値は単峰分布に近づくと
期待されるが、⼀部多峰性が現れる場合もある（以下はPongの例）
①相⼿がボールを返してくるかもしれず、
価値が⾼いとも低いとも⾔えない
②ボールがパッドの裏に回ったので、勝ちを
確信し始める（分布が多峰になる）
③既に勝っているにも関わらず、
エピソードは終了していないので、
中途半端な価値判断が残っている
④このタイミングになると、ようやく
勝ちの確信度が上がり、単峰に近づく
⑤エピソードが終了
（初期状態に戻る）

8. Rainbow
Hessel, Matteo, et al. "Rainbow: Combining Improvements in Deep Reinforcement Learning."

この論⽂の成果
■ 過去に提案されてきたDQNに関する改良アルゴリズムを統合
■ 「全部のせ」によって、⼤幅な成績の更新が⾏われた
⁃ Nature版DQNの最⾼成績を7M framesで更新

（再掲）各アルゴリズムの統合⽅法
1. DQN: ベースアルゴリズムはDQN
2. Categorical DQN: 価値は分布（ヒストグラム）で定義
3. Multi-Step RL: 期待計算をMulti-stepに拡張
4. Double DQN: Targetの価値分布Zʼによって選択された⾏動の結果を、
現在の価値分布Zで評価することで過⼤評価を抑制
5. Prioritized Experience Replay: 獲得した⾏動系列をlossの減少幅
（KL距離）で評価し、期待計算時に優先度を付けてサンプリングする
6. Dueling Net: アーキテクチャはDueling Netを使⽤
7. Noisy Net: 最終層にfactorized Gaussian noiseを導⼊
Rainbow

統合時の注意・実験設定
■ 探索はNoisyNetが担うため、NoisyNetが⼊っている時は
ε-greedy⽅策を切らないといけない
■ Prioritized Experience ReplayとCategorical DQNの組み合わせ時は、
TD誤差の⼤きさではなく、KL距離の⼤きさに基いて優先度付け
■ Atari実験の設定
Multi-stepはn=1,3,5で実験し、
⼀番成績のよかったものを採⽤

Ablation Studies：タイトルごとの評価
■ 特定アルゴリズムを切った時の影響をタイトルごとに評価

Ablation Studies：学習曲線
■ Priotirized Experience Repla/multi-step が⽴ち上がりに重要
■ Categorical DQN/NoisyNet は最終パフォーマンスに影響している
■ Double DQNがあまり効いてないように⾒えるが、gradient clipping
の影響を受けている可能性がある（過⼤評価が元々抑制されている）

この論⽂で扱えなかった関連話題
■ Value-basedなQ-learning familyのみを扱ったが、
TRPOのようなPolicy-basedな問題系での改良は扱っていない
■ Multi-stepも単純な前⽅観測アルゴリズム以外の⼿法を使えるかも
⁃ Optimality tightening※1、Eligibility traces、…
⁃ ⼀⽅で、時系列⾏動の扱いは⼀般に計算リソースを使いがちな上、
経験の保存・優先利⽤をどのように⾏うか問題になりやすい
■ Episodic Control※2のような認知科学的妥当性のあるデータ活⽤⽅法
■ NoisyNet以外にも、様々な探索⽅法がある
⁃ Bootstraped DQN※3、intrinsic motivation※4、
count-based exploration※5、…
※1 He, Frank S., et al. "Learning to play in a day: Faster deep reinforcement learning by optimality tightening."
※2 Blundell, Charles, et al. "Model-free episodic control." arXiv preprint arXiv:1606.04460 (2016).
※3 Osband, Ian, et al. "Deep exploration via bootstrapped DQN." Advances in neural information processing systems. 2016.
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
※5 Bellemare, Marc, et al. "Unifying count-based exploration and intrinsic motivation."
Advances in Neural Information Processing Systems. 2016.

この論⽂で扱えなかった関連話題
■ 分散学習
⁃ A3C※1、Gorila※2、Evolution Strategies※3
■ 階層型強化学習
⁃ h-DQN※4、Feudal Networks※5
■ 状態表現の効率化
⁃ feature control※6、supervised predictions※7、successor features※8
■ …
※1 Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.
※2 Nair, Arun, et al. "Massively parallel methods for deep reinforcement learning." arXiv preprint arXiv:1507.04296 (2015).
※3 Salimans, Tim, et al. "Evolution strategies as a scalable alternative to reinforcement learning." arXiv preprint arXiv:1703.03864 (2017).
※4 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation."
※5 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017).
※6 Jaderberg, Max, et al. "Reinforcement learning with unsupervised auxiliary tasks." arXiv preprint arXiv:1611.05397(2016).
※7 Dosovitskiy, Alexey, and Vladlen Koltun. "Learning to act by predicting the future." arXiv preprint arXiv:1611.01779 (2016).
※8 Kulkarni, Tejas D., et al. "Deep successor reinforcement learning." arXiv preprint arXiv:1606.02396 (2016).

And More …

APE-X（Distributed Prioritized Experience Replay）
■ ICLR2018で提案された分散学習アルゴリズム※1
■ 既存研究と⽐較して学習時間と成績を⼤幅に改善（2018/2現在SotA）
※1 Horgan, Dan, Quan, John, Budden, David, Barth-Maron,Gabriel, Hessel, Matteo, van Hasselt, Hado, and Silver,David.
“Distributed prioritized experience replay”. InternationalConference on Learning Representations, 2018.
学習時間も
成績も⼤幅に改善

アーキテクチャ概要
■ Actor: （A3Cのようにgradientではなく）経験を取得させて、優先度
付けした上で共通のreplay memoryに保存
⁃ 利⽤時にのみ優先度更新していたPrioritized Experience Replayとは
異なり、利⽤優先度がより正確になることが期待される
■ Learner: Double DQN、Dueling Net、Multi-stepを統合

類似研究との⽐較
※ 評価で使うエピソード開始は、全てno-op（human-startではない点に注意）

まとめと所感

DQNsに対する所感
■ MeanやMedianの成績だけをみるのは危険
⁃ 少なくともMeanは⾒る必要はない
■ どのアルゴリズムもゲームタイトルによって得意不得意がある
⁃ ⽴ち上がりや最終成績をタイトルごとに眺めると発⾒があるかも
■ 似たようなゲーム性のタイトルでもパフォーマンスが違うことがあり、
ゲーム構造を理解した上でのアルゴリズムのプロコンを整理したい
⁃ 各アルゴリズムが、どのように学習効率化に寄与しているか、という
理論的理解がもっと必要な印象を持った
■ i.i.d.や収束性について、モヤモヤする部分が残る
⁃ 特にPrioritized Experience Replayはバイアスの影響が気になる
■ 認知科学分野の知⾒が今後役⽴っていきそう
⁃ DQNはゲームを学習するのにゲーム時間で38⽇程度かかるが、
⼈間はより効率的にone/zero-shot的な学習をしている
■ 論⽂の通りに実装するだけだと再現が困難な場合があるので、
ちゃんと著者たちの実装を⾒に⾏く必要がある

DQNからRainbowまで 〜深層強化学習の最新動向〜

More Related Content

What's hot

Similar to DQNからRainbowまで 〜深層強化学習の最新動向〜

More from Jun Okumura