Successfully reported this slideshow.
Your SlideShare is downloading. ×

【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 16 Ad
Advertisement

More Related Content

Slideshows for you (20)

More from Deep Learning JP (20)

Advertisement

Recently uploaded (20)

【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説 Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
  2. 2. 書誌情報 2 題目: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods 著者: Adam Stooke, Joshua Achiam, and Pieter Abbeel 採録: ICML2020 概要: • 制約条件を考慮した強化学習(Constrained RL) • ベースラインアルゴリズムのLagrangian methodについて、 制御工学におけるPID制御を応用することで性能を改善 選定理由: • Constrained RLを1次のダイナミクスとして再定義 • 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた ※注釈無しの図は本論文から抜粋
  3. 3. 問題設定 3 強化学習に制約条件を組み込んだもの 目的関数 方策: コスト: 以下の最適化問題を解く Constrained Markov Decision Processes (CMDP):
  4. 4. CMDPの具体例 4 ベースラインアルゴリズム: 1) Constrained Policy Optimization (CPO) 2) Lagrangian method 実装がCPOよりも簡単 コスト制約の追従に関して良い性能を発揮 図はhttps://openai.com/blog/safety-gym/より抜粋 Safety-Gym: 2019年のOpenAIが発表した安全制約を考慮する強化学習のベンチマーク問題
  5. 5. PID-Lagrangian Methodの概要 5 従来のLagrangian Methodの課題 ➝コストの応答が振動的になる: コスト(応答) λ(制御入力) 提案手法:PID-Lagrangian Method 未定乗数法λの更新でPID制御を導入 収束性を改善、振動を抑制 従来手法の未定乗数λの更新は積分制御に相当 g(x)の応答に対して制御入力の位相が90度遅れる 位相が遅れることは制御工学の安定性の観点から好ましくない
  6. 6. ラグランジュの未定乗数法 6 制約条件付きの最適化問題: 未定乗数λを用いた制約条件なしの最適化問題: 勾配法を用いて数値的に計算する場合:
  7. 7. , 既存の数値計算方法について 7 次式の微分方程式を考える: (1)を時間tで微分して(2)を代入する [1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987. 文献[1]より以下が示されている: • Aが正定値であれば制約条件を満たす解へ収束 • 振動的に収束することが多い (1) (2) ➝2次のダイナミクス
  8. 8. PID-Lagrangian Method 8 追加された項は正定なのでダンピングに関する極が増加して収束性を高め る 現在の制約条件の値に比例項を加える 比例-積分型の方法: 積分-微分型の方法: 微分項が追加されるので即応性があがる , 比例-積分-微分型の方法: ➝理論的な解析は今後の課題とのこと
  9. 9. フィードバック制御を用いたConstrained RL 9 1次のダイナミクス: F:方策更新に関する式 h:フィードバック制御則 λ:制御入力 d:コストリミット 勾配法: 従来手法(積分制御):
  10. 10. PID-Controlled Lagrange Multiplier 10 スケーリングされた目的関数: ,
  11. 11. 数値実験 11 実験で使用したアルゴリズム: PPOとConstraint-Controlled PPO (CPPO)で比較 Safety-Gym: 2019年のOpenAIが発表した安全制約を考 慮する強化学習のベンチマーク問題
  12. 12. 比例項による性能改善 12 比例項を加えることで目標コストへの追従性能を改善 Kiを大きくすると(コストの追従性能は良くなるが)Returnは小さくなる
  13. 13. 報酬とコストのトレードオフ 13 コストとリターンに対する指標: 比例項を加えることで性能を改善
  14. 14. 微分項による性能改善 14 微分項を加えることでコストに対するオーバーシュート・振動を抑制
  15. 15. Reward-Scale Invariance 15 方策勾配にスケーリングファクターを 導入: 報酬をスケールするとKi, Kp, Kdも同時 にスケールされてしまう課題を解決
  16. 16. まとめ • 未定乗数法λの更新でPID制御則を導入 • Safety-gymで提案手法の性能を検証 • コスト目標値への収束性を改善 所感 • Constrained RLを1次のダイナミクスとして再定義したのがおもしろかった • 現代制御・ロバスト制御理論と組み合わせることができそうと思った 16

Editor's Notes

  • つまり、 g(x)の応答(を入力として)に対して、制御入力の位相が90度遅れる
    位相が180度以上遅れると制御システムは不安定となる
  • ラムダを制御入力と考えると、コストg(x)を積分してから代入している➝積分制御

×