DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Learning Task Informed Abstractions
発表者: 阿久澤圭 (松尾研D3)
書誌情報
• タイトル: Learning Task Informed Abstractions
• 著者: Xiang Fu (MIT), Ge Yang (University of Chicago), Pulkit Agrawal (MIT),
Tommi Jaakkola (MIT)
• 投稿先: ICML2021 accepted
• 概要: 強化学習のための,タスク関連・非関連の特徴量を分離する表現学習手法
背景
• 強化学習において画像観測は,タスク(報酬関数)と無関係な特徴
(disctactor)を含むことが多々ある
• モデルベース強化学習(図ではDreamer (Hafner et. al., 2019))の性能
はdistractorに強く影響される
既存研究の問題点と本論文の提案
• 既存研究の問題点:
• モデルベースRLにおけるモデルは,(1)画像の予測と(2)報酬の予測で学習する.
• しかし観測がタスクに関係のない情報(distractor)を含む時,
• (1) 画像の予測(再構成)では,タスクに関係のない情報を捉えてしまう
• (2) 報酬の予測では,シグナルが弱く学習が難しい
• 提案:
• Dreamerを拡張した,Task Informed Abstraction (TIA) を提案.既存のDreamerと同様
に,画像と報酬の予測で学習.しかし,タスクに関係のない特徴量を捉えないように制約
関連研究
• 提案手法のバックボーン
• Dream to Control: Learning Behaviors by Latent Imagination. (ICLR2020)
• タスク関連・非関連の特徴量の分離に関する研究
• Deepmdp: Learning continuous latent space models for representation
learning (ICML2019)
• Invariant causal prediction for block mdps (ICML2020)
• Learning invariant representations for reinforcement learning without
reconstruction (ICLR2021)
関連研究: Dreamer [Hafner et. al. 2020]
• (a) 画像・観測予測によって表現(緑色の点)を学習
• (b) 表現を入力に取る価値関数・方策を訓練(データはモデル自身から生成)
• 欠点(発表論文での指摘): 表現は,タスク関連/非関連の情報を分離できていない
関連研究: DeepMDP [Gelada et. al. 2019]
• 二つの損失関数で表現学習
• 報酬の予測
• 次の時刻の表現(の分布)の予測
• メリット:
• 画像予測を用いないため,表現は
distractor-free
• デメリット(発表論文の指摘):
• 画像予測を用いないと,学習が難しい
関連研究: MISA [Zhang et. al. 2020]
• 提案:
• グラフィカルモデル上で状態を
タスク関連・非関連に分離する
ことを提案
• 欠点(紹介論文の指摘):
• アイデア自体は紹介論文と同じ
• practicalな手法の提案や,複雑
な画像観測を使った実験がない
関連研究: DBC [Zhang et. al. 2021]
• 提案:
• bisimulation metricsを用
いた,タスク関連・非関連
の特徴量の分離
• DeepMDPと似ている(画
像予測を学習に用いない)
• 欠点(発表論文の指摘):
• 画像予測を用いないと,学
習が難しい
提案手法
• グラフィカルモデル上で,状
態を報酬に関係のある と,
関係のない に分割
s+
s−
提案手法の学習
• 基本的にDreamerと同様Amortized Inference(VAE)で前出のグラフィカルモデルを学習
• 追加的な4つの工夫
• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
• Cooperative Reconstruction: と からそれぞれ画像を生成しそれらを合成
• Distractor-model-only Reconstruction: が無情報になる問題を回避するため,
のみから再構成を行う
• Policy Learning: のみを方策への入力とする
s−
s+
s−
s−
s−
s+
提案手法の学習
• Reward Dissociation: からは報酬が予測できないように敵対学習を行う
s−
提案手法の学習
• Cooperative Reconstruction: と からそれぞれ画像を生成し,それらを足し合わせる
s+
s−
提案手法の学習
• Distractor-model-only Reconstruction: が無情報になる問題を回避するため,
のみから再構成を行う
s−
s−
提案手法の学習
• Policy Learning: のみを方策への入力とする
s+
実験: 提案手法による画像特徴の分離
•TIAは,ノイズとタスク関連の特徴をよく分離できていることがわかる
実験: ManyWorld and DMC
• ManyWorld env. (a, b) と DeepMind Control suit (c, d, e) 環境を用い
た実験.人工的に画像特徴にdistractorを加える
• 既存のモデルベースRL手法を上回る性能を確認
実験: Atari
• Atari環境で実験.この環境はもともとdistractorが存在する
• いくつかの環境でDreamerV2を上回る・モデルフリーのアルゴリズムに匹敵
まとめ
• 貢献
• タスク関連・非関連の特徴を分離するRL手法を提案
• DeepMind Control suit と Atari で,実験的に良い性能を発揮した
• Future work
• Test-time adaptation: 訓練時に見たことのないdistractorが来たときに,それを分離したい
• ハイパラ頑健性(敵対学習など使っているので)
• スパース報酬への対応
• タスク関連・非関連というbinaryの帰納バイアスではなく,よりソフトな制約を課す
参考文献
• Hafner, Danijar, et al. "Dream to Control: Learning Behaviors by Latent Imagination."
International Conference on Learning Representations. 2020.
• Gelada, C., Kumar, S., Buckman, J., Nachum, O., and Belle- mare, M. G. Deepmdp:
Learning continuous latent space models for representation learning., International
Conference on Machine Learning, 2019.
• Zhang, A., Lyle, C., Sodhani, S., Filos, A., Kwiatkowska, M., Pineau, J., Gal, Y., and Precup,
D. Invariant causal prediction for block mdps. In International Conference on Machine
Learning, pp. 11214‒11224. PMLR, 2020
• Zhang, A., McAllister, R. T., Calandra, R., Gal, Y., and Levine, S. Learning invariant
representations for reinforcement learning without reconstruction. International
Conference on Learning Representations, 2021.

[DL輪読会]Learning Task Informed Abstractions