Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Trust Region Policy Optimization

2,324 views

Published on

TRPOについて第8回強化学習アーキテクチャ勉強会で発表した内容です。TRPOの理論とどう実装するかが分かるように説明しています。変数が統一されていない箇所がありますすみません。基本的にπ~=π_new , π=π_oldです。

Published in: Technology
  • Be the first to comment

Trust Region Policy Optimization

  1. 1. Trust Region Policy Optimmization 第8回強化学習アーキテクチャ勉強会 吉田 岳人 東京大学國吉新山研 株式会社DeepX November 14, 2017
  2. 2. 自己紹介 •吉田岳人 •東京大学情報理工知能機械情報学國吉新山研究室修士1年 •アルバイト:DeepX(始めたばかり) •興味分野:逆強化学習、強化学習、Imitation •UC BerkeleyでのDeep RL Bootcampに参加以来RL好きに •探しもの:研究テーマ 2
  3. 3. Agenda • Trust Region Policy Optimization(TRPO) : 95% – RLの系譜 – RLの定式化 – 他の手法と比較 – TRPOの特徴 – TRPOの概要 – 詳しい内容 – まとめ • Proximal Policy Optimization(PPO) : 5% – PPO (簡潔に) • GAEは時間足りなさそうなのでまたの機会に…
  4. 4. RLの系譜 4 Schulman, John. "Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs." (2016). 他にも... Model-based 対 Model-free、On Policy 対 Off Policy等々の分類 TRPOは、Policy Gradient & Model-free & On Policy TRPOは… ここから始めて… ここへ!!
  5. 5. RLの定式化 ・Policy Optimization 𝜋∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜋 𝜂(𝜋), 𝜂 𝜋 = 𝐸𝑠0~𝜌0, 𝑎 𝑡~𝜋(.|𝑠 𝑡)[Σ 𝑡=0 𝛾 𝑡 𝑟𝑡] ・価値関数 -状態価値関数 𝑠𝑡から方策πに従ったときの期待収益 𝑉 𝜋 (𝑠𝑡) = 𝐸 𝑎 𝑡,𝑠 𝑡+1,… Σ𝑙=0 𝛾 𝑙 𝑟𝑡+𝑙 𝑠𝑡 - 状態行動価値関数 𝑠𝑡では𝑎 𝑡という行動をとるが、その後 は方策πに従ったときの期待収益 𝑄 𝜋 (𝑠𝑡, 𝑎 𝑡) = 𝐸𝑠 𝑡+1,𝑎 𝑡+1… Σ𝑙=0 𝛾 𝑙 𝑟𝑡+𝑙 𝑠𝑡, 𝑎 𝑡 -アドバンテージ関数 𝑠𝑡で𝑎 𝑡を取ることが𝑠𝑡で𝜋に従うこと に比べてどれだけよかったか 𝐴 𝜋 𝑠𝑡, 𝑎 𝑡 = 𝑄 𝜋 𝑠𝑡, 𝑎 𝑡 − 𝑉 𝜋 (𝑠𝑡) 5 Schulman, John. "Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs." (2016). 𝑎𝑐𝑡𝑖𝑜𝑛: 𝒂 𝒕 ~𝜋 𝑎 𝑡 𝑠𝑡 , 𝜋:policy 𝑠𝑡𝑎𝑡𝑒: 𝒔 𝒕+𝟏~𝑃 𝑠𝑡+1|𝑎 𝑡, 𝑠𝑡 , 𝑃: 𝑑𝑦𝑛𝑎𝑚𝑖𝑐𝑠 𝑟𝑒𝑤𝑎𝑟𝑑: 𝒓 𝒕~𝑃 𝑟𝑡 𝑠𝑡, 𝑎 𝑡
  6. 6. TRPOの特徴 • 2015年にJohn Schulmanが発表した手法 • TRPO(2015) ⇒ PPO(2017) ⇒ ACKTR(2017) original 計算量削減 TRPOとActor Criticの合わせ技 – 連続行動空間、離散行動空間どちらもOK – 安定性:高 – サンプル効率:やや高い(オンポリシーの中では) • Andrej KarpathyのBlogでは “TRPO, which almost always works better and more consistently than vanilla PG in practice” Andrew Karpathy, Deep Reinforcement Learning: Pong from Pixels [Blog Post] • 動画: http://sites.google.com/site/trpopaper 6John Schulman, Open AI それでは、具体的なTRPOの内容を見 ていきましょう!
  7. 7. TRPO概要 •解く問題 •方策の更新をKLダイバージェンスがある値以下になるよ うに慎重に更新ステップを求めて、期待収益を最大化 7 TRPO Other PG method 教師あり学習:データが独立同分布 ステップサイズが大⇒次の更新で修正 強化学習:データが方策に依存 ステップサイズ大⇒悪い方策 次のバッチ:悪い方策下で集められる パフォーマンスの崩壊
  8. 8. 他の手法との比較 8 Core Lecture 9 Model-based RL(slide),Chelsea Finn, Deep RL Bootcamp, 26-27 August 2017
  9. 9. 目的関数 •期待収益 •これは改更新後の方策との関係は… *証明は次ページ 更新後の収益=前の方策に従った時の収益+更新した方策により得られた期 待総アドバンテージ 9 右辺第二項が正になる更新が正しい更新!
  10. 10. 10
  11. 11. 方策反復(Policy Iteration) 11 •ダイナミクスがわかっている動的計画法では価値関数が 完璧に求まり、 𝜂 𝜋~ = 𝜂 𝜋 + 𝑚𝑎𝑥 𝑎 𝐴 𝑠, 𝑎 ≧ 𝜂 𝜋
  12. 12. 目的関数の修正 •𝜋 𝑛𝑒𝑤によって得られるデータで期待値取りたくない –更新を考えるときに持っているデータは𝜋 𝑜𝑙𝑑によって生じたもの 1、𝑎~𝜋 𝑛𝑒𝑤消去(同値変形) 2、s~𝜋 𝑛𝑒𝑤消去(別の関数) •Lはηの一次近似 12 Lの改善でηが改 善されるはず! しかし、ステップ サイズは??
  13. 13. 単調改善(Monotonic Improvement) 「下界を求める」 –混合方策を用いる場合、過去 の研究より –もっと一般的な方策には –もっと簡単にすると 13 下界を最大化すれば単調改善 「下界最大化のイメージ」 𝜃の更新が大きすぎると𝐿 𝜃 が上昇しても、 𝜂(𝜃)が減衰する、しかし下界のL 𝜃 − 𝐶 ∗ 𝐾𝐿を 上昇させる更新は必ず𝜂(𝜃)を上昇させる
  14. 14. 信頼領域法(1) •先ほどの という定式化では、Cが 非常に小さくなりステップサイズがあまりにも小さくなってしまう ⇒信頼領域法(Trust Region Method)の導入 •制約付き最適化問題にする •また、このままでは全状態に対する制約になっていてい て解けないので、平均KLを用いる(ここの理解ができて いない。 = なのでmaxのs にのみ制約が付いているのでは?maxの操作が嫌という こと??) 14
  15. 15. 信頼領域法(2) •制約なし問題 –Cが固定 •制約あり問題 –δが固定 15
  16. 16. サンプルベースドな目的関数と 価値関数の推定 16
  17. 17. 計算トリック 1、目的関数を1次近似、平均KLを2次近似してステッ プサイズの候補を求める –近似 –結局以下のラグランジュ関数の最大化になる –Θで微分して𝜃 − 𝜃 𝑜𝑙𝑑 = 1 𝜆 𝐹−1 𝑔 ⇒勾配方向Sunscale = 𝐹−1 𝑔とわかる –勾配が制約項を満たすようにscaleするS 𝑠𝑐𝑎𝑙𝑒 = 2𝛿 𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 𝑇 𝐹𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 2、近似なしで本当の制約を満たすステップサイズを直 線探索で求める Lbarrier 𝜃 = L 𝜃 𝑜𝑙𝑑 𝜃 + 10100 ∗ max(𝐾𝐿 𝜋 𝜃 𝑜𝑙𝑑 𝜋 𝜃 − 𝛿, 0) 17
  18. 18. アルゴリズム 18
  19. 19. まとめ 1、元の方策の目的関数 2、更新後の方策の目的関数 3、更新後の方策依存性を除外 4、改善を保証する下界を見付ける 5、サンプルベースドな推定と制約 問題へ変更 6、近似と直線探索で最適ステップ を発見 19 Sunscale = 𝐹−1 𝑔 S 𝑠𝑐𝑎𝑙𝑒 = 2𝛿 𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 𝑇 𝐹𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 𝑠 𝑢𝑛𝑠𝑐𝑎𝑙𝑒 Lbarrier 𝜃 = L 𝜃 𝑜𝑙𝑑 𝜃 + 10100 ∗ max(𝐾𝐿 𝜋 𝜃 𝑜𝑙𝑑 𝜋 𝜃 − 𝛿, 0)
  20. 20. 結果 •Benchmarking Deep Reinforcement Learning for Continuous Controlという論文から抜粋 •TNPGとTRPOが圧倒的、ただし、TRPOの方が収束が早い 20
  21. 21. Proximal Policy Optimization •同じくJohn Schulmanによって今年発表された論文 •動画: https://www.youtube.com/watch?v=bqdjsmSoSgI 21 Schulman, John. “Advanced Policy Gradient Methods: Natural Gradient,TRPO, and More” , lecture(2017)
  22. 22. 参考文献 –Paper • Schulman, John, et al. "Trust region policy optimization." Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 2015. • Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017). • Duan, Yan, et al. "Benchmarking deep reinforcement learning for continuous control." International Conference on Machine Learning. 2016. • Schulman, John. "Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs." (2016). –Presentation Slide • Schulman, John. “Advanced Policy Gradient Methods: Natural Gradient,TRPO, and More” , lecture(2017) • Tingwu, Wang. “Trust Region Policy Optimization”, Group Seminar(2017) • Yasuhiro, Fujita. “Trust Region Policy Optimization”, ICML2015 読み会(2015) • “Lab 4: Policy Optimization Algorithms”, Deep Reinforcement Learning Bootcamp(2017) –動画 • https://www.youtube.com/watch?v=bqdjsmSoSgI • http://sites.google.com/site/trpopaper 22
  23. 23. 23 ご清聴ありがとうございました

×