Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Curiosity driven exploration

4,135 views

Published on

2018/02/04 第44回CV勉強会「強化学習論文読み会」発表資料です。”Curiosity-driven Exploration by Self-supervised Prediction”

Published in: Technology
  • Be the first to comment

Curiosity driven exploration

  1. 1. CV勉強会「強化学習論文読み会」 Curiosity-driven Exploration by Self- supervised Prediction 2018/02/04 takmin
  2. 2. 自己紹介 2 テクニカル・ソリューション・アーキテクト 皆川 卓也(みながわ たくや) フリーエンジニア(ビジョン&ITラボ) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
  3. 3. 論文紹介  Curiosity-Driven Exploration by Self-Supervised Prediction.  Pathak, D.,Agrawal, P., Efros,A.A., & Darrell,T. . (UC Berkeley)  ICML2017  強化学習に「好奇心」を埋め込むことで環境の探索を効 率化する  予測がうまくいかないところを積極的に探索  予測は「行動が影響を与える範囲」の特徴に対してのみ行う
  4. 4. 強化学習の流れ エージェント 環境 状態: 𝑠𝑡 方策:𝜋(𝑠𝑡) 𝑠𝑡 行動:𝑎 𝑡
  5. 5. 強化学習の流れ エージェント 環境 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 外部報酬:𝑟𝑡 𝑒
  6. 6. 強化学習の流れ エージェント 環境 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 報酬:𝑟𝑡 𝑒 学習
  7. 7. 強化学習の流れ エージェント 環境 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 𝑠𝑡+1 行動:𝑎 𝑡+1 方策:𝜋(𝑠𝑡+1)
  8. 8. 強化学習の問題点  実際に報酬を得られるような状態というのが稀にしか起 こらないケースが多々ある  例: 迷路内でゴールが見えたら報酬  (ゴールの位置が不明なので、ゴールとエージェントとの距離を報酬 として使えない) 内部的報酬によって探索的を効率的に行う
  9. 9. 好奇心(Curiosity-driven)  人間は「好奇心」や「モチベーション」によって環境を探索 し、新しい状態を発見する  強化学習における好奇心  予測できない環境に出会った時に大きな報酬を得る  従来手法:  予測と違う結果の中にはエージェントの行動が影響を与えず、 かつエージェントに影響を与えないものが存在  本手法  Self-supervised trainingにより、状態の中からエージェントの行 動と関連のある特徴を学習
  10. 10. Curiosity-driven Exploration エージェント 環境 ICM 状態: 𝑠𝑡 方策:𝜋(𝑠𝑡) 𝑠𝑡 行動:𝑎 𝑡 行動:𝑎 𝑡
  11. 11. Curiosity-driven Exploration エージェント 環境 ICM 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 外部報酬:𝑟𝑡 𝑒
  12. 12. Curiosity-driven Exploration エージェント 環境 ICM 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 𝑠𝑡+1 内部報酬:𝑟𝑡 𝑖 外部報酬:𝑟𝑡 𝑒
  13. 13. Curiosity-driven Exploration エージェント 環境 ICM 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡) 報酬:𝑟𝑡 = 𝑟𝑡 𝑖 + 𝑟𝑡 𝑒 学習 学習
  14. 14. Curiosity-driven Exploration エージェント 環境 ICM 状態: 𝑠𝑡+1 方策:𝜋(𝑠𝑡+1) 行動:𝑎 𝑡+1 状態: 𝑠𝑡+2 行動:𝑎 𝑡+1
  15. 15. Intrinsic Curiosity Module (ICM)
  16. 16. Intrinsic Curiosity Module (ICM) 特徴抽出
  17. 17. Intrinsic Curiosity Module (ICM) 行動𝑎 𝑡から次 の状態𝑠𝑡+1を 予測
  18. 18. Intrinsic Curiosity Module (ICM) 予測誤差 =内部報酬
  19. 19. Intrinsic Curiosity Module (ICM) 状態𝑠𝑡 、𝑠𝑡+1から 行動𝑎 𝑡を推定
  20. 20. Intrinsic Curiosity Module (ICM) 行動𝑎 𝑡や状態 𝑠𝑡+1を推定するた めに有効な特徴 が学習される エージェントの行動に影 響する特徴のみ学習
  21. 21. 学習  方策 𝜋、Forward Model、Inverse Modelの各パラメータを最適化 𝜃𝐼 𝜃 𝑝 𝜃 𝐹 min 𝜃 𝑝,𝜃𝐼,𝜃 𝐹 −𝜆𝔼 𝜋 𝑠 𝑡;𝜃 𝑝 ෍ 𝑡 𝑟𝑡 + 1 − 𝛽 𝐿𝐼 ො𝑎 𝑡, 𝑎 𝑡; 𝜃𝐼 + 𝛽𝐿 𝐹 𝜑 𝑠𝑡+1 , ො𝜑 𝑠𝑡+1 ; 𝜃 𝐹
  22. 22. 学習  報酬(内部+外部)の和を最大にするよう方策 𝜋のパラメータ 𝜃 𝑝を学習 𝜃𝐼 𝜃 𝑝 𝜃 𝐹 min 𝜃 𝑝,𝜃𝐼,𝜃 𝐹 −𝜆𝔼 𝜋 𝑠 𝑡;𝜃 𝑝 ෍ 𝑡 𝑟𝑡 + 1 − 𝛽 𝐿𝐼 ො𝑎 𝑡, 𝑎 𝑡; 𝜃𝐼 + 𝛽𝐿 𝐹 𝜑 𝑠𝑡+1 , ො𝜑 𝑠𝑡+1 ; 𝜃 𝐹 𝑟𝑡 = 𝑟𝑡 𝑖 + 𝑟𝑡 𝑒
  23. 23. min 𝜃 𝑝,𝜃𝐼,𝜃 𝐹 −𝜆𝔼 𝜋 𝑠 𝑡;𝜃 𝑝 ෍ 𝑡 𝑟𝑡 + 1 − 𝛽 𝐿𝐼 ො𝑎 𝑡, 𝑎 𝑡; 𝜃𝐼 + 𝛽𝐿 𝐹 𝜑 𝑠𝑡+1 , ො𝜑 𝑠𝑡+1 ; 𝜃 𝐹 学習  状態𝑠𝑡と𝑠𝑡+1から行動𝑎 𝑡を推定するようパラメータ 𝜃𝐼を学習 𝜃𝐼 𝜃 𝑝 𝜃 𝐹 𝑎 𝑡が離散値を取る時𝑔はSoftmax関数、 𝐿𝐼はCross Entropy ො𝑎 𝑡 = 𝑔 𝑠𝑡, 𝑠𝑡+1; 𝜃𝐼
  24. 24. min 𝜃 𝑝,𝜃𝐼,𝜃 𝐹 −𝜆𝔼 𝜋 𝑠 𝑡;𝜃 𝑝 ෍ 𝑡 𝑟𝑡 + 1 − 𝛽 𝐿𝐼 ො𝑎 𝑡, 𝑎 𝑡; 𝜃𝐼 + 𝛽𝐿 𝐹 𝜑 𝑠𝑡+1 , ො𝜑 𝑠𝑡+1 ; 𝜃 𝐹 学習  状態𝑠𝑡と行動𝑎 𝑡から次の状態𝑠𝑡+1を予測できるようForward Model のパラメータ 𝜃 𝐹を学習 𝜃𝐼 𝜃 𝑝 𝜃 𝐹 ො𝜑 𝑠𝑡+1 = 𝑓 𝜑 𝑠𝑡 , 𝑎 𝑡; 𝜃 𝐹 𝐿 𝐹 = 1 2 𝜑 𝑠𝑡+1 − ො𝜑 𝑠𝑡+1 2 2
  25. 25. 実験  ビデオゲーム(VizDoom、Super Mario Bros)で実験  RGB画像を42x42のグレースケールへ変換  状態 𝑠𝑡は現フレームと過去3フレームを合わせた状態で保持  ベースアルゴリズムとしてA3Cを使用し、エージェントを20 workersを用い て学習 4 convolution layers + LSTM (256 unit) 4 convolution layers 2 fully connected layers 2 fully connected layers
  26. 26. 実験1: VizDoom  3Dの迷路を”move forward”、”move left”、”move right”、”no action”の4つの行動を使って攻略  エージェントがゴールに到達するか2100 time steps経過 したら終了  ゴール地点を見つけたら+1の報酬、それ以外は0 (報酬 が疎) 入力画面 入力画面(ノイズあり)
  27. 27. 実験1: VizDoom  Pre-trainを(a)のマップでのみ行い、(b)のマップでテスト  青いドットの地点はランダムなエージェント発生地点 (Denseなケース)
  28. 28. ICMの性能評価
  29. 29. 画像にランダムなノイズを加えた場合
  30. 30. 既存手法との比較  ”Sparse”なケースで、内部報酬モデルを採用する既存手 法と性能比較 Houthooft, R., Chen, X., Duan,Y., Schulman, J., De Turck, F., & Abbeel, P. (2016). VIME:Variational Information Maximizing Exploration. In Neural Information Processing Systems (NIPS).
  31. 31. 内部報酬のみ与えた場合の探索範囲 (2100step) ICM ランダムな探索
  32. 32. テスト環境でFine-tuningしたケースと比較  Pre-train環境で学習したモデルをFine-tuneするケースと、 テスト環境でスクラッチで学習する場合の比較
  33. 33. 実験2: Super Mario Bros  ゲームの4レベルのうち、最初の1レベルのみpre-train に使用  14種類の行動  Up, Down, Left, Right,A, B  ボタンとレバーの同時押し含む  ボタンを押す長さも影響  学習は内部報酬のみ使用 Level-1 Level-2
  34. 34. 内部報酬のみを与えた場合の探索範囲  Level 1でPre-trainした結果をLevel 2、3へ適用  Level 2  ビジュアルがLevel 1と異なるため、Fine-tuningが有効  Level 3  ビジュアルがLevel 1と一緒のためAs-isでもそれなりの性能  ある地点から難易度が上がるが、Fine-tuningした際、その地 点の付近の特徴を学習済みのために、その地点で内部報酬 が働かなくなり、As-isよりも性能が低くなってしまう
  35. 35. まとめ  “Curiosity-driven”な内部報酬によって外部報酬が疎な 場合でも効率的に環境を探索可能な強化学習手法を提 案  内部報酬は高次元の入力(画像)に対しても対応でき、 エージェントが影響しない/影響を与えられないようなノイ ズに対してロバスト  ベースラインとなるA3Cを上回る性能を実現

×