【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods (ICML2020)の解説
1. 1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Responsive Safety in Reinforcement Learning
by PID Lagrangian Methods (ICML2020)の解説
Ryoichi Takase, Department of Aeronautics and Astronautics, The University of Tokyo
2. 書誌情報
2
題目: Responsive Safety in Reinforcement Learning by PID Lagrangian Methods
著者: Adam Stooke, Joshua Achiam, and Pieter Abbeel
採録: ICML2020
概要:
• 制約条件を考慮した強化学習(Constrained RL)
• ベースラインアルゴリズムのLagrangian methodについて、
制御工学におけるPID制御を応用することで性能を改善
選定理由:
• Constrained RLを1次のダイナミクスとして再定義
• 制御工学と強化学習の観点から議論でき、本論文の応用先は広いと考えた
※注釈無しの図は本論文から抜粋
7. ,
既存の数値計算方法について
7
次式の微分方程式を考える:
(1)を時間tで微分して(2)を代入する
[1] Platt, John C., and Alan H. Barr. "Constrained differential optimization." Proceedings of the 1987 International Conference on Neural Information Processing Systems. 1987.
文献[1]より以下が示されている:
• Aが正定値であれば制約条件を満たす解へ収束
• 振動的に収束することが多い
(1)
(2)
➝2次のダイナミクス