Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最近のDQN

16,464 views

Published on

2015/07/23 PFIセミナー発表資料

Published in: Technology
  • Be the first to comment

最近のDQN

  1. 1. 最近 DQN 藤田康博 Preferred Networks 2015/07/23
  2. 2. Outline DQN DQN 分析 DQN 改善 DQN 応用
  3. 3. Outline DQN DQN 分析 DQN 改善 DQN 応用
  4. 4. 話 人 ▶ 藤田康博 ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 2015 年 4 月 Preferred Networks 入社
  5. 5. 話 DQN(Deep Q-Networks) [Mnih et al. 2013; Mnih et al. 2015] ▶ 説明 ▶ 分析・改善・応用 紹介(本題) ▶ 2015 年 7 月 23 日時点 DQN 関連情報 機能 目指
  6. 6. 話 DQN 毛色 異 深層強化学習(主 Policy Search 系) ▶ Deterministic Policy Gradient [Silver et al. 2014] ▶ Guided Policy Search [Levine and Koltun 2013] ▶ Trust Region Policy Optimization [Schulman et al. 2015b] ▶ Generalized Advantage Estimation [Schulman et al. 2015a] ▶ 話 ,説明 時間 ▶ 別 機会 …
  7. 7. Outline DQN DQN 分析 DQN 改善 DQN 応用
  8. 8. 強化学習問題 ▶ 各 t = 0, 1, . . . 1. 現在 状態 st ∈ S 観測 2. st 応 行動 at ∈ A 選択 3. 報酬 rt ∈ R( 次状態 st+1 ∈ S) 観測 ▶ 目標:累積報酬 ∑ t rt 最大化 ▶ 行動 選 教師 存在 ▶ 試行錯誤 通 学習 必要
  9. 9. 強化学習 概念(1) ▶ 方策(policy) ▶ 「 行動 選 」 ▶ π : S → A ▶ 行動価値関数(action value function) ▶ 状態 s 行動 a 選 , 後方策 π 従 場合 , 期待累積報酬 ▶ Qπ(s, a) = E[rt + γrt+1 + γ2rt+2 + · · · | st = s, at = a, π] ▶ γ 割引率
  10. 10. 強化学習 概念(2) ▶ 最適方策 ▶ 期待累積報酬 最大化 方策 π∗ ▶ 最適行動価値関数 ▶ Q∗(s, a) = Qπ∗ (s, a) = maxπ Qπ(s, a) ▶ 求 ,π(s) = arg maxa Q∗(s, a) 最適 方策 求 ▶ Bellman 最適方程式 ▶ Q∗(s, a) = Es′ [r + γ maxa′ Q∗(s′, a′) | s, a] ▶ 行動価値関数 最適 必要十分条件 ▶ 解 Q∗ 求
  11. 11. Q-learning [Watkins and Dayan 1992] ▶ DQN 元 ▶ 一定 条件下 Q∗ 収束 Input: γ, α 1: Initialize Q(s, a) arbitrarily 2: loop 3: Initialize s 4: while s is not terminal do 5: Choose a from s using policy derived from Q 6: Execute a, observe reward r and next state s′ 7: Q(s, a) ← Q(s, a) + α[r + γ maxa′ Q(s′ , a′ ) − Q(s, a)] 8: s ← s′ 9: end while 10: end loop
  12. 12. Deep Q-learning ▶ 価値関数 DNN 近似 Q(s, a; θ) ≈ Q(s, a) ▶ 損失 定義 L(θ) = E[(r + γ max a′ Q(s′ , a′ ; θ) − Q(s, a; θ))2 ] ∂L(θ) ∂θ = E[(r + γ max a′ Q(s′ , a′ ; θ)−Q(s, a; θ)) ∂Q(s, a; θ) ∂θ ] ▶ Stochastic Gradient Descent 最小化可能
  13. 13. 何 新 ▶ 価値関数 NN 近似? ▶ 昔 (有名 例:TD-Gammon [Tesauro 1994]) ▶ 価値関数 DNN 近似? ▶ 何 deep 呼 ,Deep Belief Networks 使 [Abtahi and Fasel 2011] ▶ LSTM 使 古 [Bakker 2001] ▶ 学習 成功 工夫 ▶ 重要 ▶ 初 DQN 呼 [Silver 2015]
  14. 14. 学習 不安定化要因 除去 ▶ 入力 時系列 ,i.i.d. ▶ → Experience Replay ▶ 価値関数 小 更新 方策 大 変 ,振動 ▶ → Target Q-Network ▶ 報酬 異 ▶ → 報酬 clipping
  15. 15. Experience Replay ▶ 経験 遷移 (st, at, rt, st+1) replay memory D 蓄 ▶ 損失 計算 Q 更新 D 上 行 L(θ) = Es,a,r,s′∼D[(r + γ max a′ Q(s′ , a′ ; θ) − Q(s, a; θ))2 ]
  16. 16. Target Q-Network ▶ 学習 目標値 計算 使 価値関数 固定(target Q-network) L(θ) = Es,a,r,s′∼D[(r + γ max a′ Q(s′ , a′ ; θ− ) − Q(s, a; θ))2 ] ▶ 一定周期 学習中 Q-network 同期 θ− ← θ
  17. 17. 報酬 clipping ▶ 報酬 [−1, 1] 範囲 clip ▶ 負 −1,正 1,0 0 ▶ 報酬 大小 区別
  18. 18. Arcade Learning Environment(ALE) [Bellemare et al. 2013] 図 [Mnih et al. 2013] 引用 ▶ 家庭用 機 Atari 2600 +学習用 ▶ 50 以上 対応 ▶ 変動 読 取
  19. 19. DQN in ALE 図 [Mnih et al. 2015] 引用 ▶ 図 畳 込 層 2 , [Mnih et al. 2015] 本文 読 3 ! ▶ 入力 過去 4 画像,出力 18 行動価値
  20. 20. DQN vs. 人間 図 [Mnih et al. 2015] 引用
  21. 21. 工夫 効果 表 [Silver 2015] 引用
  22. 22. Outline DQN DQN 分析 DQN 改善 DQN 応用
  23. 23. DQN 超 ▶ [Mnih et al. 2013] 学習率等 詳細 書 ▶ 早 Theano DQN 再現 1 試 Nathan Sprague 氏 調 ▶ (一方自分 AdaDelta 茶 濁 ) 1 https://github.com/spragunr/deep_q_rl
  24. 24. DQN 超 分析 [Sprague 2015] 図 [Sprague 2015] 引用 DQN( [Mnih et al. 2013] 再現) 性能 超 設定 敏感 ▶ α:学習率,γ:割引率,ρ:RMSprop 移動平均 減衰率 ▶ target Q-network 未使用
  25. 25. Outline DQN DQN 分析 DQN 改善 報酬 並列化 先読 Exploration 改善 DQN 応用
  26. 26. Outline DQN DQN 分析 DQN 改善 報酬 並列化 先読 Exploration 改善 DQN 応用
  27. 27. Normalized DQN [Silver 2015] 報酬 clipping 代 ,報酬 学習 ▶ 報酬 値 使 ▶ Q(s, a; θ) 代 U(s, a; θ) ∈ [−1, +1] 出力 ▶ 学習可能 π, σ Q 値 変換 Q(s, a; θ, σ, π) = σU(s, a; θ) + π
  28. 28. Outline DQN DQN 分析 DQN 改善 報酬 並列化 先読 Exploration 改善 DQN 応用
  29. 29. Gorila(GOogle ReInforcement Learning Architecture) [Nair et al. 2015] 図 [Nair et al. 2015] 引用 DQN 並列 実行 高速化 ▶ Actor:行動 選 経験 (s, a, r, s′ ) 積 ▶ Memory:Actor 集 経験 蓄 ▶ Learner:Memory 経験 更新量 計算 ▶ Bundle:(Actor, Memory, Learner) 組
  30. 30. Gorila 安定化 消滅, 遅延 処理 遅延 安定 学習 工夫 ▶ 古 θ 使 計算 更新量 Parameter Server 無視 ▶ Learner 誤差 絶対値 移動平均・標準偏差 保持 , 大 外 捨
  31. 31. Gorila DQN vs. Single DQN 図 [Nair et al. 2015] 引用 ▶ Single DQN:12-14 日間 訓練 ▶ Gorila DQN:6 日間 訓練,100 bundles ▶ 49 中 41 Gorila DQN 勝利
  32. 32. Outline DQN DQN 分析 DQN 改善 報酬 並列化 先読 Exploration 改善 DQN 応用
  33. 33. ALE 先読 ・将棋・囲碁 先読 ( 木探索) 使 ,ALE ? ▶ 実 DQN 強 ! [Bellemare et al. 2013; Guo et al. 2014] ▶ 機能 状態 巻 戻 必要 ▶ TAS ▶ 遅 (行動 選 数秒) B. Rider Breakout Enduro Pong Q*bert Seaquest S. Invaders DQN [Mnih et al. 2013] 4092 168 470 20 1952 1705 581 UCT [Guo et al. 2014] 7233 406 788 21 18850 3257 2354
  34. 34. UCC-I [Guo et al. 2014] 先読 選 行動 真似 訓練 ▶ UCC-I(UCTtoClassification-Interleaved) ▶ 先読 教師 生成 , 学習 交互 繰 返 ▶ 先読 始 位置 学習中 軌跡 選 ▶ 教師 状態分布 際 状態分布 離 意図 ▶ DQN [Mnih et al. 2013] 同 形状(= 同 速度) , 高 達成 B. Rider Breakout Enduro Pong Q*bert Seaquest S. Invaders DQN [Mnih et al. 2013] 4092 168 470 20 1952 1705 581 UCT [Guo et al. 2014] 7233 406 788 21 18850 3257 2354 UCC-I [Guo et al. 2014] 5388 215 601 19 13189 2701 670
  35. 35. Outline DQN DQN 分析 DQN 改善 報酬 並列化 先読 Exploration 改善 DQN 応用
  36. 36. Exploration vs. Exploitation ▶ 強化学習 下 2 必要 ▶ Exploration: 知識 状態・行動 試 ▶ Exploitation: 良 状態・ 行動 試 ▶ DQN ? ▶ ϵ-greedy:確率 ϵ 行動,確率 1 − ϵ Q(s, a) 最大 行動 選 ▶ 最初 1000000 ϵ 1 0.1 , 以降 0.1 固定
  37. 37. Exploration Bonus [Stadie et al. 2015] 選 状態・行動対 報酬 R(s, a) N(s, a) 加 学習 ▶ 次 状態 予測 M 学習 ,予測誤差 大 大 与 e(s, a) = ∥σ(s′ ) − M(σ(s), a)∥2 2 ¯e(s, a) = et(s, a)/maxe N(s, a) = ¯e(s, a) t ∗ C ▶ σ : S → RN 状態 特徴表現,maxe e 値 最大値,t 数,C 定数 ▶ σ,M 学習
  38. 38. Exploration Bonus vs. Plain DQN 表 [Stadie et al. 2015] 引用 ▶ Static AE(Auto Encoder):DQN 学習前 学習 AE σ 使 ▶ Dynamic AE:AE DQN 学習 合 更新
  39. 39. Outline DQN DQN 分析 DQN 改善 DQN 応用
  40. 40. Outline DQN DQN 分析 DQN 改善 DQN 応用
  41. 41. 図 [Narasimhan et al. 2015] 引用 ▶ 状態:画像 文章 ▶ 行動:動詞 目的語
  42. 42. LSTM-DQN [Narasimhan et al. 2015] 図 [Narasimhan et al. 2015] 引用 ▶ LSTM(Long Short-Term Memory) 文章 状態表現 落 ▶ 単語 word embedding 前 順 入力 ,最後 出 力 平均 ▶ word embedding 一緒 学習 ▶ Q(s, a)(動詞) Q(s, o)(目的語) 2 出力 学習
  43. 43. LSTM-DQN vs. BOW-DQN 図 [Narasimhan et al. 2015] 引用 ▶ Fantasy World Evennia2 ▶ 語彙数:1340 ▶ 組 合 数:222 ▶ 1 epoch = 20 episodes × 250 steps ▶ BOG(Bag-of-Words) 良 性能 2 http://www.evennia.com/
  44. 44. LSTM-DQN Word Embeddings 図 [Narasimhan et al. 2015] 引用
  45. 45. Outline DQN DQN 分析 DQN 改善 DQN 応用
  46. 46. 制御 見 人 今 「分散深層強化学習 制御 — Preferred Research」3 !!! 3 http://research.preferred.jp/2015/06/ distributed-deep-reinforcement-learning/
  47. 47. 制御 見 人 今 「分散深層強化学習 制御 — Preferred Research」3 !!! 3 http://research.preferred.jp/2015/06/ distributed-deep-reinforcement-learning/
  48. 48. Outline DQN DQN 分析 DQN 改善 DQN 応用
  49. 49. ▶ DQN ▶ 以外 応用 少 ▶ 改善 ▶ 今後 目 離 !
  50. 50. 参考文献 I [1] Farnaz Abtahi and Ian Fasel. “Deep belief nets as function approximators for reinforcement learning”. In: AAAI 2011 Lifelong Learning Workshop (2011), pp. 183–219. [2] Bram Bakker. “Reinforcement Learning with Long Short-Term Memory”. In: NIPS 2001. 2001. [3] Marc C. Bellemare et al. “The arcade learning environment: An evaluation platform for general agents”. In: Journal of Artificial Intelligence Research 47 (2013), pp. 253–279. [4] Xiaoxiao Guo et al. “Deep learning for real-time Atari game play using offline Monte-Carlo tree search planning”. In: Advances in Neural Information Processing Systems (NIPS) 2600 (2014), pp. 1–9. [5] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. In: ICML 2013. Vol. 28. 2013, pp. 1–9. [6] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [7] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.
  51. 51. 参考文献 II [8] Arun Nair et al. “Massively Parallel Methods for Deep Reinforcement Learning”. In: ICML Deep Learning Workshop 2015. 2015. [9] Karthik Narasimhan, Tejas Kulkarni, and Regina Barzilay. Language Understanding for Text-based Games Using Deep Reinforcement Learning. 2015. arXiv: arXiv:1506.08941v1. [10] John Schulman et al. High-Dimensional Continuous Control Using Generalized Advantage Estimation. 2015. arXiv: arXiv:1506.02438v1. [11] John Schulman et al. “Trust Region Policy Optimization”. In: ICML 2015. 2015. arXiv: arXiv:1502.05477v1. [12] David Silver. Deep Reinforcement Learning. ICLR 2015 Keynote. http://www.iclr.cc/lib/exe/fetch.php?media=iclr2015:silver- iclr2015.pdf. 2015. [13] David Silver et al. “Deterministic Policy Gradient Algorithms”. In: ICML 2014. 2014, pp. 387–395. [14] Nathan Sprague. “Parameter Selection for the Deep Q-Learning Algorithm”. In: RLDM 2015. 2015. [15] Bradly C. Stadie, Sergey Levine, and Pieter Abbeel. Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models. 2015. arXiv: 1507.00814v2.
  52. 52. 参考文献 III [16] Gerald Tesauro. “TD-Gammon, A Self-Teaching Backgammon Program, Achieves Master-Level Play”. In: Neural Computation 6(2) (1994), pp. 215–219. [17] Christopher JCH Watkins and Peter Dayan. “Q-learning”. In: Machine learning 8.3-4 (1992), pp. 279–292.

×