最近のDQN

最近 DQN
藤田康博
Preferred Networks
2015/07/23

Outline
DQN
DQN 分析
DQN 改善
DQN 応用

話人
▶ 藤田康博
▶ Twitter: @mooopan
▶ GitHub: muupan
▶ 2015 年 4 月 Preferred Networks 入社

話
DQN（Deep Q-Networks） [Mnih et al. 2013; Mnih et al.
2015]
▶ 説明
▶ 分析・改善・応用紹介（本題）
▶ 2015 年 7 月 23 日時点 DQN 関連情報
機能目指

話
DQN 毛色異深層強化学習（主 Policy Search 系）
▶ Deterministic Policy Gradient [Silver et al. 2014]
▶ Guided Policy Search [Levine and Koltun 2013]
▶ Trust Region Policy Optimization [Schulman et al. 2015b]
▶ Generalized Advantage Estimation [Schulman et al.
2015a]
▶ 話，説明時間
▶ 別機会 …

強化学習問題
▶ 各 t = 0, 1, . . .
1. 現在状態 st ∈ S 観測
2. st 応行動 at ∈ A 選択
3. 報酬 rt ∈ R（次状態 st+1 ∈ S）観測
▶ 目標：累積報酬
∑
t rt 最大化
▶ 行動選教師存在
▶ 試行錯誤通学習必要

強化学習概念（1）
▶ 方策（policy）
▶ 「行動選」
▶ π : S → A
▶ 行動価値関数（action value function）
▶ 状態 s 行動 a 選，後方策 π 従場合，
期待累積報酬
▶ Qπ(s, a) = E[rt + γrt+1 + γ2rt+2 + · · · | st = s, at = a, π]
▶ γ 割引率

強化学習概念（2）
▶ 最適方策
▶ 期待累積報酬最大化方策 π∗
▶ 最適行動価値関数
▶ Q∗(s, a) = Qπ∗
(s, a) = maxπ Qπ(s, a)
▶ 求，π(s) = arg maxa Q∗(s, a) 最適
方策求
▶ Bellman 最適方程式
▶ Q∗(s, a) = Es′ [r + γ maxa′ Q∗(s′, a′) | s, a]
▶ 行動価値関数最適必要十分条件
▶ 解 Q∗ 求

Q-learning [Watkins and Dayan 1992]
▶ DQN 元
▶ 一定条件下 Q∗
収束
Input: γ, α
1: Initialize Q(s, a) arbitrarily
2: loop
3: Initialize s
4: while s is not terminal do
5: Choose a from s using policy derived from Q
6: Execute a, observe reward r and next state s′
7: Q(s, a) ← Q(s, a) + α[r + γ maxa′ Q(s′
, a′
) − Q(s, a)]
8: s ← s′
9: end while
10: end loop

Deep Q-learning
▶ 価値関数 DNN 近似
Q(s, a; θ) ≈ Q(s, a)
▶ 損失定義
L(θ) = E[(r + γ max
a′
Q(s′
, a′
; θ) − Q(s, a; θ))2
]
∂L(θ)
∂θ
= E[(r + γ max
a′
Q(s′
, a′
; θ)−Q(s, a; θ))
∂Q(s, a; θ)
∂θ
]
▶ Stochastic Gradient Descent 最小化可能

何新
▶ 価値関数 NN 近似？
▶ 昔（有名例：TD-Gammon [Tesauro 1994]）
▶ 価値関数 DNN 近似？
▶ 何 deep 呼，Deep Belief Networks
使 [Abtahi and Fasel 2011]
▶ LSTM 使古 [Bakker 2001]
▶ 学習成功工夫
▶ 重要
▶ 初 DQN 呼 [Silver 2015]

学習不安定化要因除去
▶ 入力時系列，i.i.d.
▶ → Experience Replay
▶ 価値関数小更新方策大変
，振動
▶ → Target Q-Network
▶ 報酬異
▶ → 報酬 clipping

Experience Replay
▶ 経験遷移 (st, at, rt, st+1) replay
memory D 蓄
▶ 損失計算 Q 更新 D
上行
L(θ) = Es,a,r,s′∼D[(r + γ max
a′
Q(s′
, a′
; θ) − Q(s, a; θ))2
]

Target Q-Network
▶ 学習目標値計算使価値関数固定（target
Q-network）
L(θ) = Es,a,r,s′∼D[(r + γ max
a′
Q(s′
, a′
; θ−
) − Q(s, a; θ))2
]
▶ 一定周期学習中 Q-network 同期
θ−
← θ

報酬 clipping
▶ 報酬 [−1, 1] 範囲 clip
▶ 負 −1，正 1，0 0
▶ 報酬大小区別

Arcade Learning Environment（ALE） [Bellemare
et al. 2013]
図 [Mnih et al. 2013] 引用
▶ 家庭用機 Atari 2600 +学習用
▶ 50 以上対応
▶ 変動読取

DQN in ALE
▶ 図畳込層 2 ， [Mnih et al. 2015] 本文読
3 ！
▶ 入力過去 4 画像，出力 18 行動価値

DQN vs. 人間

工夫効果
表 [Silver 2015] 引用

DQN 超
▶ [Mnih et al. 2013] 学習率等詳細書
▶ 早 Theano DQN 再現 1
試
Nathan Sprague 氏調
▶ （一方自分 AdaDelta 茶濁）
1
https://github.com/spragunr/deep_q_rl

DQN 超分析 [Sprague 2015]
図 [Sprague 2015] 引用
DQN（ [Mnih et al. 2013] 再現）性能超設定敏感
▶ α：学習率，γ：割引率，ρ：RMSprop 移動平均減衰率
▶ target Q-network 未使用

Outline
DQN
DQN 分析
DQN 改善
報酬
並列化
先読
Exploration 改善
DQN 応用

Normalized DQN [Silver 2015]
報酬 clipping 代，報酬学習
▶ 報酬値使
▶ Q(s, a; θ) 代
U(s, a; θ) ∈ [−1, +1]
出力
▶ 学習可能 π, σ Q 値変換
Q(s, a; θ, σ, π) = σU(s, a; θ) + π

Gorila（GOogle ReInforcement Learning Architecture）
[Nair et al. 2015]
図 [Nair et al. 2015] 引用
DQN 並列実行高速化
▶ Actor：行動選経験 (s, a, r, s′
) 積
▶ Memory：Actor 集経験蓄
▶ Learner：Memory 経験更新量計算
▶ Bundle：(Actor, Memory, Learner) 組

Gorila 安定化
消滅，遅延処理遅延
安定学習工夫
▶ 古 θ 使計算更新量
Parameter Server 無視
▶ Learner 誤差絶対値移動平均・標準偏差保持
，大外捨

Gorila DQN vs. Single DQN
図 [Nair et al. 2015] 引用
▶ Single DQN：12-14 日間訓練
▶ Gorila DQN：6 日間訓練，100 bundles
▶ 49 中 41 Gorila DQN 勝利

ALE 先読
・将棋・囲碁先読（
木探索）使，ALE ？
▶ 実 DQN 強！ [Bellemare et al. 2013; Guo et al.
2014]
▶ 機能状態巻戻必要
▶ TAS
▶ 遅（行動選数秒）
B. Rider Breakout Enduro Pong Q*bert Seaquest S. Invaders
DQN [Mnih et al. 2013] 4092 168 470 20 1952 1705 581
UCT [Guo et al. 2014] 7233 406 788 21 18850 3257 2354

UCC-I [Guo et al. 2014]
先読選行動真似訓練
▶ UCC-I（UCTtoClassiﬁcation-Interleaved）
▶ 先読教師生成，学習
交互繰返
▶ 先読始位置学習中
軌跡選
▶ 教師状態分布
際状態分布離
意図
▶ DQN [Mnih et al. 2013] 同形状（＝
同速度），高達成
B. Rider Breakout Enduro Pong Q*bert Seaquest S. Invaders
DQN [Mnih et al. 2013] 4092 168 470 20 1952 1705 581
UCT [Guo et al. 2014] 7233 406 788 21 18850 3257 2354
UCC-I [Guo et al. 2014] 5388 215 601 19 13189 2701 670

Exploration vs. Exploitation
▶ 強化学習下 2 必要
▶ Exploration：知識状態・行動試
▶ Exploitation：良状態・
行動試
▶ DQN ？
▶ ϵ-greedy：確率 ϵ 行動，確率 1 − ϵ
Q(s, a) 最大行動選
▶ 最初 1000000 ϵ 1 0.1 ，
以降 0.1 固定

Exploration Bonus [Stadie et al. 2015]
選状態・行動対報酬 R(s, a)
N(s, a) 加学習
▶ 次状態予測 M 学習，予測誤差大
大与
e(s, a) = ∥σ(s′
) − M(σ(s), a)∥2
2
¯e(s, a) = et(s, a)/maxe
N(s, a) =
¯e(s, a)
t ∗ C
▶ σ : S → RN 状態特徴表現，maxe e
値最大値，t 数，C 定数
▶ σ，M 学習

Exploration Bonus vs. Plain DQN
表 [Stadie et al. 2015] 引用
▶ Static AE（Auto Encoder）：DQN 学習前学習 AE σ
使
▶ Dynamic AE：AE DQN 学習合更新

図 [Narasimhan et al. 2015] 引用
▶ 状態：画像文章
▶ 行動：動詞目的語

LSTM-DQN [Narasimhan et al. 2015]
▶ LSTM（Long Short-Term Memory）文章状態表現落
▶ 単語 word embedding 前順入力，最後出
力平均
▶ word embedding 一緒学習
▶ Q(s, a)（動詞） Q(s, o)（目的語） 2 出力学習

LSTM-DQN vs. BOW-DQN
▶ Fantasy World Evennia2
▶ 語彙数：1340
▶ 組合数：222
▶ 1 epoch = 20 episodes × 250 steps
▶ BOG（Bag-of-Words）良性能
2
http://www.evennia.com/

LSTM-DQN Word Embeddings

制御
見人今
「分散深層強化学習制御 — Preferred Research」3
！！！
3
http://research.preferred.jp/2015/06/
distributed-deep-reinforcement-learning/

▶ DQN
▶ 以外応用少
▶ 改善
▶ 今後目離！

参考文献 I
[1] Farnaz Abtahi and Ian Fasel. “Deep belief nets as function approximators for
reinforcement learning”. In: AAAI 2011 Lifelong Learning Workshop (2011),
pp. 183–219.
[2] Bram Bakker. “Reinforcement Learning with Long Short-Term Memory”. In:
NIPS 2001. 2001.
[3] Marc C. Bellemare et al. “The arcade learning environment: An evaluation
platform for general agents”. In: Journal of Artiﬁcial Intelligence Research 47
(2013), pp. 253–279.
[4] Xiaoxiao Guo et al. “Deep learning for real-time Atari game play using oﬄine
Monte-Carlo tree search planning”. In: Advances in Neural Information
Processing Systems (NIPS) 2600 (2014), pp. 1–9.
[5] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. In: ICML 2013.
Vol. 28. 2013, pp. 1–9.
[6] Volodymyr Mnih et al. “Human-level control through deep reinforcement
learning”. In: Nature 518.7540 (2015), pp. 529–533.
[7] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”.
In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv:
arXiv:1312.5602v1.

参考文献 II
[8] Arun Nair et al. “Massively Parallel Methods for Deep Reinforcement
Learning”. In: ICML Deep Learning Workshop 2015. 2015.
[9] Karthik Narasimhan, Tejas Kulkarni, and Regina Barzilay. Language
Understanding for Text-based Games Using Deep Reinforcement Learning.
2015. arXiv: arXiv:1506.08941v1.
[10] John Schulman et al. High-Dimensional Continuous Control Using
Generalized Advantage Estimation. 2015. arXiv: arXiv:1506.02438v1.
[11] John Schulman et al. “Trust Region Policy Optimization”. In: ICML 2015.
2015. arXiv: arXiv:1502.05477v1.
[12] David Silver. Deep Reinforcement Learning. ICLR 2015 Keynote.
http://www.iclr.cc/lib/exe/fetch.php?media=iclr2015:silver-
iclr2015.pdf. 2015.
[13] David Silver et al. “Deterministic Policy Gradient Algorithms”. In: ICML
2014. 2014, pp. 387–395.
[14] Nathan Sprague. “Parameter Selection for the Deep Q-Learning Algorithm”.
In: RLDM 2015. 2015.
[15] Bradly C. Stadie, Sergey Levine, and Pieter Abbeel. Incentivizing Exploration
In Reinforcement Learning With Deep Predictive Models. 2015. arXiv:
1507.00814v2.

参考文献 III
[16] Gerald Tesauro. “TD-Gammon, A Self-Teaching Backgammon Program,
Achieves Master-Level Play”. In: Neural Computation 6(2) (1994),
pp. 215–219.
[17] Christopher JCH Watkins and Peter Dayan. “Q-learning”. In: Machine
learning 8.3-4 (1992), pp. 279–292.

最近のDQN

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

More from mooopan

More from mooopan (8)

最近のDQN