Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)

8,383 views

Published on

Generative Adversarial Imitation Learning の紹介スライド
実装コード: https://github.com/uidilr/gail_ppo_tf

Published in: Science

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)

  1. 1. Generative Adversarial Imitation Learning Jonathan Ho, Stefano Ermon (NIPS 2016) 中田 勇介(M1) 千葉大学 大学院 融合理工学府 荒井研究室 2017/11/14 RLアーキテクチャ勉強会
  2. 2. 発表の構成 2 論文の主な貢献 模倣学習,IRL ,RLの概要 RL○IRLを凸最適化問題として定式化 既存の徒弟学習手法を凸最適化問題の枠組みで説明  徒弟学習(Apprenticeship learning) = IRLによる模倣学習 提案法:GANsを用いた模倣学習アルゴリズム 実験結果 まとめ
  3. 3. 論文の主な貢献 3 RL○IRLと同じ方策を学習する模倣学習アルゴリズム  環境の情報を必要としないモデルフリーアルゴリズム  報酬(コスト)を推定することなく方策を直接学習  既存のIRLが必要とする試行錯誤(RL)を削減  大規模,高次元状態行動空間に適用可能 RL○IRLを凸最適化(min max)問題として定式化 既存の模倣学習手法を定式化した枠組みで説明  IRLを使った模倣学習手法 [Abbeel 04], [Syed 08] GANを用いた模倣学習アルゴリズムを提案
  4. 4. 模倣学習 4 所与:エキスパートの意思決定系列 学習対象:エキスパートの方策 主なアプローチは二つ  Behavior cloning [Pomerleau 89]  Apprenticeship Learning (IRL) [Abbeel 04], [Syed 08]
  5. 5. 逆強化学習 5 エキスパートが最小化するコストを推定する手法  エキスパート,タスクの解き方を知っているエージェント  推定したコストを最小化する方策 = エキスパートの方策 三つのステップで推定 Update cost Run RLCompare with Expert
  6. 6. 逆強化学習 6 目的関数(Maximum causal Entropy IRL) ※ 上式の解 に対する最適方策はエキスパートの方策と一致
  7. 7. 強化学習 7 コストの期待値を最小化する方策を学習 IRLで求めたコストに対してRLすればエキスパートの 方策を再現可能 目的関数(エキスパートの方策を再現する場合)
  8. 8. 論文の目的 8 上式はIRLを解いてRLを解くという2段階の問題設定 RL○IRLを1段階の問題設定で定式化したい 変数を変換しRL○IRLを凸最適化問題として定式化
  9. 9. 凸最適化問題とは 9 非凸関数凸関数
  10. 10. 凸最適化問題とは 10 凸関数 凹関数 凸関数をひっくり返したものが凹関数
  11. 11. 凸最適化問題とは 11 von Neumannのミニマックス定理(鞍点の存在定理)  YとZはそれぞれ空でないコンパクト凸集合.KはY×Zを定義 域とする実数値関数.Zを固定したK(・, z)が下半連続な凸関数. Yを固定したK(y, ・)が上半連続な凹関数ならば関数K(y, z)には 鞍点が存在する. https://ja.wikipedia.org/wiki/%E9%9E%8D%E7%82%B9
  12. 12. 凸最適化問題とは 12 局所的な最小値が大域的な最小値と一致 狭義凸関数で最小値を持てば解は一意に決まる 最適性条件など諸定理が分かっていることも嬉しい  KKT条件,双対定理,鞍点定理,ミニマックス定理 等
  13. 13. IRL,RLの再定式化 13 凸な正則化関数を含むIRLを定義 正則化関数を導入しコスト関数の表現能力を目的関数に反映
  14. 14. IRL,RLの再定式化 14 正則化関数を含むIRLの解を と表す  を凸最適化問題にするために変数を変換 コストの期待値は次式で表される
  15. 15. ρが満たす性質 15  と は一対一対応   はアフィン集合
  16. 16. 命題3.2. 16 命題:RL○IRLで得られる方策は次式で表される  は の凸共役関数
  17. 17. 証明 17 変数をρに変換した関数を定義 凸関数 凹関数線形関数線形関数
  18. 18. 証明 18 と は対応 命題の式の解 上式を用いて命題の式の解,IRL,RL○IRLを表す IRLの解 RL○IRLの解 と は一対一対応なので を示せば命題が示せる
  19. 19. 証明 19  は任意の に対して凸関数( が変数)  は任意の に対して凹関数( が変数) 上記と変数の定義域から は鞍点 を持つ 鞍点の定義 凸関数 凹関数線形関数線形関数 ※Von Neumannのミニマックス定理
  20. 20. 証明 20 鞍点の定義 鞍点の定義より次式が成り立つ
  21. 21. 証明 21 minとmaxの定義から次式が成り立つ
  22. 22. 証明 22 鞍点の定義から導いた式 minとmaxの定義から導いた式 関数 は上の二つの式を満たすので ※minimax dualityからも分かる.
  23. 23. 証明 23 上式より, は の鞍点である 命題の式の解 IRLの解
  24. 24. 証明 24 上式より, は の鞍点である 鞍点なので次式が成り立つ 命題の式の解 IRLの解
  25. 25. 証明 25 RL○IRLの解 は次式で表される 鞍点の条件から導いた式 は よって と は一対一対応 は狭義凸関数 証明終わり
  26. 26. 証明から分かること 26 今までは次式を解いていた 証明によって次式を解けば良いことが分かった IRLの解 RL○IRLの解
  27. 27. IRLに関して分かったこと 27 IRLは関数 の鞍点を求めていた 上の事実は正則化関数が定数の場合が理解しやすい 上式の解は次の問題のラグランジュ関数の解に等しい Cがラグランジュ変数 (制約なし)
  28. 28. IRLに関して分かったこと 28 IRLはラグランジュ変数を求めていたことになる 例えば,MaxEnt IRLは次の二つのステップを繰り返す これは双対上昇法(鞍点の座標を求める手法) 双対上昇法は主問題が安易に解ける場合は有効 しかし,IRLの場合はRLを解く必要があるため非効率 主問題
  29. 29. IRLに関して分かったこと 29 凹関数の上昇 方向に更新 凸関数最適化 凹関数の勾配 計算 Update Cost Compare with Expert IRL 双対上昇法 Run RL 非効率
  30. 30. 線形コストの場合の模倣学習 30 模倣学習の場合,双対上昇法(IRL)は非効率的 疑問:導出した問題は効率的に解けるのか? 導出した問題 既存の徒弟学習 IRLの解
  31. 31. 線形コストの場合の模倣学習 31 コスト関数が線形の場合には効率的な方法がある 1. 軌跡をサンプルし解析的にコストを求める 2. 解いたコストを使って方策勾配 1, 2を繰り返す 線形の場合は解析的に解ける
  32. 32. GANsを用いた非線形コストの模倣学習 32 非線形のコスト関数を使いたい GANsは,ある非線形関数のミニマックス問題を解ける GANsの目的関数と一致するように正則化関数を定義 模倣学習の目的関数 最小値で分布が一致
  33. 33. アルゴリズム 33
  34. 34. 実験結果 34
  35. 35. まとめ 35 IRLを必要としない模倣学習アルゴリズムを提案 モデルフリーのアルゴリズム 教師データの数は少なくて良い IRLの解を凸解析の枠組みで説明

×