Successfully reported this slideshow.
Your SlideShare is downloading. ×

[DL輪読会]Learning Task Informed Abstractions

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 20 Ad
Advertisement

More Related Content

Slideshows for you (20)

Similar to [DL輪読会]Learning Task Informed Abstractions (20)

Advertisement

More from Deep Learning JP (20)

Recently uploaded (20)

Advertisement

[DL輪読会]Learning Task Informed Abstractions

  1. 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Learning Task Informed Abstractions 発表者: 阿久澤圭 (松尾研D3)
  2. 2. 書誌情報 • タイトル: Learning Task Informed Abstractions • 著者: Xiang Fu (MIT), Ge Yang (University of Chicago), Pulkit Agrawal (MIT), Tommi Jaakkola (MIT) • 投稿先: ICML2021 accepted • 概要: 強化学習のための,タスク関連・非関連の特徴量を分離する表現学習手法
  3. 3. 背景 • 強化学習において画像観測は,タスク(報酬関数)と無関係な特徴 (disctactor)を含むことが多々ある • モデルベース強化学習(図ではDreamer (Hafner et. al., 2019))の性能 はdistractorに強く影響される
  4. 4. 既存研究の問題点と本論文の提案 • 既存研究の問題点: • モデルベースRLにおけるモデルは,(1)画像の予測と(2)報酬の予測で学習する. • しかし観測がタスクに関係のない情報(distractor)を含む時, • (1) 画像の予測(再構成)では,タスクに関係のない情報を捉えてしまう • (2) 報酬の予測では,シグナルが弱く学習が難しい • 提案: • Dreamerを拡張した,Task Informed Abstraction (TIA) を提案.既存のDreamerと同様 に,画像と報酬の予測で学習.しかし,タスクに関係のない特徴量を捉えないように制約
  5. 5. 関連研究 • 提案手法のバックボーン • Dream to Control: Learning Behaviors by Latent Imagination. (ICLR2020) • タスク関連・非関連の特徴量の分離に関する研究 • Deepmdp: Learning continuous latent space models for representation learning (ICML2019) • Invariant causal prediction for block mdps (ICML2020) • Learning invariant representations for reinforcement learning without reconstruction (ICLR2021)
  6. 6. 関連研究: Dreamer [Hafner et. al. 2020] • (a) 画像・観測予測によって表現(緑色の点)を学習 • (b) 表現を入力に取る価値関数・方策を訓練(データはモデル自身から生成) • 欠点(発表論文での指摘): 表現は,タスク関連/非関連の情報を分離できていない
  7. 7. 関連研究: DeepMDP [Gelada et. al. 2019] • 二つの損失関数で表現学習 • 報酬の予測 • 次の時刻の表現(の分布)の予測 • メリット: • 画像予測を用いないため,表現は distractor-free • デメリット(発表論文の指摘): • 画像予測を用いないと,学習が難しい
  8. 8. 関連研究: MISA [Zhang et. al. 2020] • 提案: • グラフィカルモデル上で状態を タスク関連・非関連に分離する ことを提案 • 欠点(紹介論文の指摘): • アイデア自体は紹介論文と同じ • practicalな手法の提案や,複雑 な画像観測を使った実験がない
  9. 9. 関連研究: DBC [Zhang et. al. 2021] • 提案: • bisimulation metricsを用 いた,タスク関連・非関連 の特徴量の分離 • DeepMDPと似ている(画 像予測を学習に用いない) • 欠点(発表論文の指摘): • 画像予測を用いないと,学 習が難しい
  10. 10. 提案手法 • グラフィカルモデル上で,状 態を報酬に関係のある と, 関係のない に分割 s+ s−
  11. 11. 提案手法の学習 • 基本的にDreamerと同様Amortized Inference(VAE)で前出のグラフィカルモデルを学習 • 追加的な4つの工夫 • Reward Dissociation: からは報酬が予測できないように敵対学習を行う • Cooperative Reconstruction: と からそれぞれ画像を生成しそれらを合成 • Distractor-model-only Reconstruction: が無情報になる問題を回避するため, のみから再構成を行う • Policy Learning: のみを方策への入力とする s− s+ s− s− s− s+
  12. 12. 提案手法の学習 • Reward Dissociation: からは報酬が予測できないように敵対学習を行う s−
  13. 13. 提案手法の学習 • Cooperative Reconstruction: と からそれぞれ画像を生成し,それらを足し合わせる s+ s−
  14. 14. 提案手法の学習 • Distractor-model-only Reconstruction: が無情報になる問題を回避するため, のみから再構成を行う s− s−
  15. 15. 提案手法の学習 • Policy Learning: のみを方策への入力とする s+
  16. 16. 実験: 提案手法による画像特徴の分離 •TIAは,ノイズとタスク関連の特徴をよく分離できていることがわかる
  17. 17. 実験: ManyWorld and DMC • ManyWorld env. (a, b) と DeepMind Control suit (c, d, e) 環境を用い た実験.人工的に画像特徴にdistractorを加える • 既存のモデルベースRL手法を上回る性能を確認
  18. 18. 実験: Atari • Atari環境で実験.この環境はもともとdistractorが存在する • いくつかの環境でDreamerV2を上回る・モデルフリーのアルゴリズムに匹敵
  19. 19. まとめ • 貢献 • タスク関連・非関連の特徴を分離するRL手法を提案 • DeepMind Control suit と Atari で,実験的に良い性能を発揮した • Future work • Test-time adaptation: 訓練時に見たことのないdistractorが来たときに,それを分離したい • ハイパラ頑健性(敵対学習など使っているので) • スパース報酬への対応 • タスク関連・非関連というbinaryの帰納バイアスではなく,よりソフトな制約を課す
  20. 20. 参考文献 • Hafner, Danijar, et al. "Dream to Control: Learning Behaviors by Latent Imagination." International Conference on Learning Representations. 2020. • Gelada, C., Kumar, S., Buckman, J., Nachum, O., and Belle- mare, M. G. Deepmdp: Learning continuous latent space models for representation learning., International Conference on Machine Learning, 2019. • Zhang, A., Lyle, C., Sodhani, S., Filos, A., Kwiatkowska, M., Pineau, J., Gal, Y., and Precup, D. Invariant causal prediction for block mdps. In International Conference on Machine Learning, pp. 11214‒11224. PMLR, 2020 • Zhang, A., McAllister, R. T., Calandra, R., Gal, Y., and Levine, S. Learning invariant representations for reinforcement learning without reconstruction. International Conference on Learning Representations, 2021.

×