Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

論文紹介 No-Reward Meta Learning (RL architecture勉強会)

1,105 views

Published on

RL architecture勉強会での発表資料

Published in: Technology
  • Login to see the comments

  • Be the first to like this

論文紹介 No-Reward Meta Learning (RL architecture勉強会)

  1. 1. 論文紹介 NoRML: No-Reward Meta Learning D1 中田勇介 2019/05/21 強化学習アーキテクチャ勉強会
  2. 2. 002 / 実環境で実行可能な方策を学習するためのMeta-Learning手法を提案 ・シミュレータで学習 -> 実環境で方策を適応 ・特徴:実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 ・著者:Yuxiang Yang, Ken Caluwaerts, Atil Iscen, Jie Tan, Chelsea Finn ・実装:https://github.com/google-research/google-research/tree/master/norml どんな論文?
  3. 3. 003 / 1. Introduction 2. Preliminaries 3. NO-REWARD META LEARNING (提案法) 4. Experiments 5. Related Work 6. まとめ Outline
  4. 4. 004 / ・(モデルフリー)強化学習には多くの試行錯誤が必要 ・実環境では試行錯誤するのは困難 ・シミュレータで実環境のダイナミクスを再現するのは困難 ・シミュレータで学習させた方策を実環境に適応 Introduction
  5. 5. 005 / 想定している状況 [Tan+, 2018]
  6. 6. 006 / Notation 状態集合 行動集合 状態遷移確率 報酬関数 軌跡 方策 Preliminaries
  7. 7. 007 / Model-free Reinforcement Learning ・Loss function Preliminaries
  8. 8. 008 / Model-free Reinforcement Learning ・Loss function ・Policy Gradient ・Advantage function Preliminaries
  9. 9. 009 / 学習タスク〜 を用いてテストタスク〜 に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. Meta Learningとは
  10. 10. 0010 / 学習タスク〜 を用いてテストタスク〜 に適応可能な パラメータを学習する方法 仮定:タスク間には共通の構造(使いまわせる知識)が存在する. ・NoRMLにおける仮定 タスク間で共通 : , , タスク間で異なる: Meta Learningとは
  11. 11. 0011 / Model-Agnostic Meta Learning (MAML)
  12. 12. 0012 / Model-Agnostic Meta Learning (MAML)
  13. 13. 0013 / MAML on Model-free RL Policy Gradient
  14. 14. 0014 / ・Policy Gradient ・Update Rule MAML on Model-free RL
  15. 15. 0015 / MAML on Model-free RL
  16. 16. 0016 / MAML on Model-free RL
  17. 17. 0017 / MAML on Model-free RL
  18. 18. 0018 / ・Learned Advantage Function ・Offset NO-REWARD META LEARNING (提案法)
  19. 19. 0019 / ・Learned Advantage Function ・Offset NO-REWARD META LEARNING (提案法)
  20. 20. 0020 / ・Learned Advantage Function ・Offset NO-REWARD META LEARNING (提案法) 全タスクで共通
  21. 21. 0021 / NO-REWARD META LEARNING (提案法)
  22. 22. 0022 / NO-REWARD META LEARNING (提案法)
  23. 23. 0023 / NO-REWARD META LEARNING (提案法)
  24. 24. 0024 / 比較対象 ・MAML ・Domain Randomization Experiments
  25. 25. 0025 / Domain Randomization
  26. 26. 0026 / 実験環境 ・Point Agent with Rotation Bias ・Cartpole with Sensor Bias ・Half Cheetah with Swapped Actions Experiments
  27. 27. 0027 / Point Agent with Rotation Bias (-2, 2) (2, 2) (2, -2)(-2, -2) x Goal (1, 0) action Rotation bias Next state State(0, 0)
  28. 28. 0028 / Point Agent with Rotation Bias
  29. 29. 0029 / Point Agent with Rotation Bias
  30. 30. 0030 / Point Agent with Rotation Bias
  31. 31. 0031 / Cartpole with Sensor Bias
  32. 32. 0032 / Cartpole with Sensor Bias
  33. 33. 0033 / Half Cheetah with Swapped Actions
  34. 34. 0034 / Half Cheetah with Swapped Actions
  35. 35. 0035 / https://sites.google.com/view/noreward-meta-rl/ Half Cheetah with Swapped Actions
  36. 36. 0036 / Meta reinforcement learningの分類 - Recurrent based: RL2, Attentive meta learner, etc. - エピソードを記憶させることで環境の違いを認識 - Gradient-based: NoRML(this work), MAML, etc. - 勾配法でパラメータを更新し環境に適応 - Hybrid-based: Evolved Policy Gradient, Meta-critic network, etc - 上の二つのハイブリッド Related Work
  37. 37. 0037 / ダイナミクスの変化に対する他のアプローチ - Adaptive inverse control - Self-modeling - Bayesian optimization - Online system identification Related Work
  38. 38. 0038 / 実環境で実行可能な方策を学習するNoRMLを提案 提案内容:Learned Advantage Function, Offset ・シミュレータで学習 -> 実環境で方策を適応 ・実環境への適応時に報酬不要 ・MAML, Domain Randomizationと比較して優れた性能 まとめ
  39. 39. 0039 / おまけ:AAMAS2019参加報告 http://www.kamishima.net/archive/MLDMAImap.pdf
  40. 40. 0040 / おまけ:AAMAS2019参加報告
  41. 41. 0041 / おまけ:AAMAS2019参加報告
  42. 42. 0042 / おまけ:AAMAS2019参加報告
  43. 43. 0043 / おまけ:AAMAS2019参加報告
  44. 44. 0044 / おまけ:AAMAS2019参加報告

×