Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Trust Region Policy Optimization

6,343 views

Published on

ICML2015読み会 発表資料

Published in: Technology
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/39mQKz3 ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❶❶❶ http://bit.ly/39mQKz3 ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Trust Region Policy Optimization

  1. 1. “Trust Region Policy Optimization” ICML2015 読 会 藤田康博 Preferred Networks August 20, 2015
  2. 2. 話 人 ▶ 藤田康博 ▶ Preferred Networks ▶ Twitter: @mooopan ▶ GitHub: muupan ▶ 強化学習・ AI 興味
  3. 3. 読 論文 John Schulman, Sergey Levine, Philipp Moritz, Michael I. Jordan, Pieter Abbeel. Trust Region Policy Optimization. ICML 2015. ▶ (深層)強化学習 話 ▶ DQN(Deep Q-Network) [Mnih et al. 2015; Mnih et al. 2013] 異 ,価値関数 方策 NN 表現 最適化 (policy optimization)
  4. 4. 何 :https://sites.google.com/site/trpopaper/ ▶ 制御 ▶ ▶ 一部 DQN 勝
  5. 5. Policy Optimization ▶ 決定過程 (S, A, P, c, ρ0, γ) ▶ S 状態集合 ▶ A 行動集合 ▶ P : S × A × S → R 遷移確率 ▶ c : S → R 関数 ▶ ρ0 : S → R 初期状態 s0 分布 ▶ γ ∈ [0, 1] 割引率 ▶ 方策(policy)π : S × A → [0, 1] ▶ 期待割引 η(π) = Es0,a0,... [ ∞∑ t=0 γt c(st) ] , where s0 ∼ ρ0, at ∼ π(· | st), st+1 ∼ P(st+1 | st, at) ▶ 目標:η(π) 小 π 求
  6. 6. 価値関数 状態 先 期待割引 考 便利 ▶ 状態価値関数 Vπ(st) = Eat ,st+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st 先 π 従 行動 選 ▶ 行動価値関数 Qπ(st, at) = Est+1,at+1,...[ ∑∞ l=0 γl c(st+l )] ▶ st at 選 先 π 従 行動 選 ▶ 関数 Aπ(s, a) = Qπ(s, a) − Vπ(s)
  7. 7. Trust Region Policy Optimization(TRPO) ▶ 元 方策 πθold KL 値 δ 以下 抑 制約付 最適化問題 解 方策 改善 提案 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 導出 説明 (時間 )
  8. 8. 期待割引 最小化(1) 方策 π 元 , 良 方策 ˜π 求 考 ▶ 方策 ˜π 期待割引 η(˜π) ,別 方策 π 期待割 引 対 表 (証 明 論文 Appendix 参照). η(˜π) = η(π) + Es0,a0,... [ ∞∑ t=0 γt Aπ(st, at) ] , where s0 ∼ ρ0, at ∼ ˜π(· | st), st+1 ∼ P(st+1 | st, at). (1) ▶ 割引訪問頻度 ρπ(s) = (P(s0 = s) + γP(s1 = s) + . . . ) 使 書 η(˜π) = η(π) + ∑ s ρ˜π(s) ∑ a ˜π(a | s)Aπ(s, a). (2) ▶ 右辺 最小化 ˜π 求 ρ˜π 邪魔
  9. 9. 期待割引 最小化(2) ▶ ρ˜π ρπ 置 換 楽 Lπ(˜π) = η(π) + ∑ s ρπ(s) ∑ a ˜π(a | s)Aπ(s, a). (3) ▶ π 十分近 η 一次近似 Lπθ0 (πθ0 ) = η(πθ0 ), ∇θLπθ (πθ)|θ=θ0 = ∇θη(πθ)|θ=θ0 (4) ▶ 十分小 Lπ 改善 η 改善 , ?
  10. 10. Conservative Policy Iteration(CPI) [Kakade and Langford 2002] ▶ π′ = arg minπ′ Lπold (π′ ) πold 混合方策 πnew(a | s) = (1 − α)πold(a | s) + απ′ (a | s) (5) 期待割引 η(πnew) 次 保証 得 . η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) ( α ∈ [0, 1), ϵ = maxs |Ea∼π′(a|s)[Aπold (s, a)]|) ▶ η(πnew) < η(πold) α 計算 混合方策 求 繰 返 単調改善
  11. 11. 非混合方策 拡張(1) 混合方策 実用的 一般 確率的方策 対 改善 保証 ( 論文 主 理論的貢献) Theorem 1 α = Dmax TV (πold, πnew), ϵ = maxs maxa |Aπold (s, a)| 混合 方策 πnew 対 η(πnew) ≤ Lπold (πnew) + 2ϵγ (1 − γ)2 α2 (8) 成 立 . DTV(p ∥ q) := 1 2 ∑ i |pi − qi | (total variation divergence), Dmax TV (π, π′ ) := max s DTV(π(· | s) ∥ ˜π(· | s)), (9)
  12. 12. 非混合方策 拡張(2) DTV(p ∥ q)2 ≤ DKL(p ∥ q) 関係 使 , η(˜π) ≤ Lπ(˜π) + CDmax KL (π, ˜π), where C = 2ϵγ (1 − γ)2 (10) 書 . Dmax KL (π, π′ ) := max s DKL(π(· | s) ∥ ˜π(· | s)).
  13. 13. 化 方策 最適化(1) 化 方策 πθ(a | s) 考 . ▶ 結果 minimize θ [CDmax KL (θold, θ) + Lθold (θ)] 解 η θold 改善 保証 . ▶ , C 値 実際 大 ,更新 量 小 ,代 minimize θ Lθold (θ) subject to Dmax KL (θold, θ) ≤ δ. (12) (信頼領域)制約付 最適化問題 .
  14. 14. 化 方策 最適化(2) ▶ ,Dmax KL 制約 ,制約 数 多 実用的 ,平均 KL ¯Dρ KL(θ1, θ2) := Es∼ρ[DKL(πθ1 (· | s) ∥ πθ2 (· | s))] 代 使 ,解 最適化問題 minimize θ Lθold (θ) subject to ¯D ρθold KL (θold, θ) ≤ δ. (13)
  15. 15. 近似 ▶ 先 最適化問題 期待値 形 書 , 分布 q(a | s) importance sampling 使 minimize θ Es∼ρθold ,a∼q [ πθ(a | s) q(a | s) Qθold (s, a) ] subject to Es∼ρθold [DKL(πθold (· | s) ∥ πθ(· | s))] ≤ δ. (15) ▶ 期待値 有限 近似 ,Qθ(s, a) 推定値 計算 ▶ 2 種類 方 提案:Single Path, Vine
  16. 16. 法1:Single Path ▶ 初期状態 s0 ∼ ρ0 πθ 従 軌跡 s0, a0, . . . , sT , aT 生成 ,全 状態行動 使 (q = πθ) ▶ Qθ(s, a) 元 軌跡 実際 割引 推定
  17. 17. 法2:Vine ▶ πθ 従 生成 軌跡 N 個 状態 , 状態 K 個 行動 q 従 選 ▶ Qθ(s, a) 結果 割引 推定
  18. 18. 実用的 以下 繰 返 1. Single Path Vine 使 ,状態行動 (s, a) Qπ(s, a) 推定値 集 2. 目的関数 制約条件 構築 3. 制約付 最適化問題 解 更新量 求 ▶ (共役勾配法 直線探索 用 )
  19. 19. 移動制御 評価(1) Swimmer Hopper Walker 入力 10 12 20 出力(連続,gaussian) 2 3 6 数 364 4806 8206
  20. 20. 移動制御 評価(2) ▶ Single Path, Vine 既存手法 性能 ▶ (手法 下 見 ?)
  21. 21. 評価(1) ▶ 入力:Atari 2600 画面 ▶ 出力: 押下(離散,softmax) ▶ 数:33500
  22. 22. 評価(2) ▶ 一部 DQN ( [Mnih et al. 2013] ) 上回 達成 ▶ Vine > DQN:Pong, Q*bert ▶ Single Path > DQN:Enduro, Pong, Q*bert, Seaquest
  23. 23. ▶ 一般 確率的方策 期待割引 単調減少 保証 更新方法 提示 ▶ 実用的 方策最適化 TRPO 提案 ▶ 2 種類 評価 ▶ 移動制御:総 既存 方策最適化手法 上回 ▶ : DQN 上回
  24. 24. :DQN 比較 TRPO DQN NN 表 方策 π 行動価値関数 Q(s, a) 行動空間 連続 ◦ × 行動空間 離散 ◦ ◦ Single Path 不要, Vine 必要 不要 実装 容易 行列・ 積 効率的 計算方法,共 役勾配法 必要 SGD 学習可能
  25. 25. 参考文献 I [1] Sham Kakade and John Langford. “Approximately Optimal Approximate Reinforcement Learning”. In: ICML 2002. 2002. [2] Volodymyr Mnih et al. “Human-level control through deep reinforcement learning”. In: Nature 518.7540 (2015), pp. 529–533. [3] Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”. In: NIPS 2014 Deep Learning Workshop. 2013, pp. 1–9. arXiv: arXiv:1312.5602v1.

×