1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Learning Latent Dynamics for Planning from Pixels
ShoheiTaniguchi, Matsuo Lab
書誌情報
Learning Latent Dynamics for Planning from Pixels
Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David
Ha, Honglak Lee, James Davidson
• 2018年11月12日にarXivに投稿された論文
• 著者はGoogle Brain, DeepMind, Google Research
選定理由
• 状態表現学習への興味
• 最近自分が考えていたことに近い気がした
• (hardmaruがツイートしていて気になった)
2
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
3
状態表現学習
• 強化学習においてエージェントの観測と行動の系列から、各タイムステップ
におけるエージェントの状態の抽象表現(状態表現)を学習する枠組みのこ
と
• モデルベース強化学習の文脈で用いられる用語
• 詳しくはこのレビュー論文と解説スライドを参照
State Representation Learning for Control: An Overview
https://arxiv.org/abs/1802.04181
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の
獲得に向けて-
https://www.slideshare.net/DeepLearningJP2016/dl-124128933
4
状態表現学習
なぜ状態表現学習が大事なのか
• モデルフリーの深層強化学習は多くの分野で成功
e.g. 囲碁, 将棋, ゲームAI (Atariなど), etc.
• 実世界に適応可能なエージェントの実現には未だ多くの課題
① サンプル効率
• 学習に膨大なサンプルを要するが実世界で集められるサンプルには限りがある
② 汎化
• 別のタスクへの転移ができない(タスクへの汎化)
• 環境が変化すると全く機能しない(環境への汎化)
• 環境のダイナミクスを含んだ状態表現学習とプランニングを分けて考える
モデルベースが今後重要
– 状態表現は他タスクにおいても有用な表現であるため、容易に転移可能
– 状態表現をメタ学習できれば環境の変化にもfew shotに適応できるはず 5
状態表現学習
いい状態表現とは ([Böhmer et al., 2015] の定義)
① マルコフ性
– 現在の状態と行動のみから次の状態が予測できるほど圧縮された表現
– マルコフ決定過程を仮定したRLアルゴリズムとの相性が良い
② 方策 (policy) の改善に使える
③ 未知だが似た特徴をもつ状態に対して汎化する
④ 低次元
6
モデルベースの難点
1. モデルの学習のミスがプランニングに大きな影響を及ぼす
– 基本的にモデルが環境の全てを学習しきることは不可能
– しかし、プランニング側はモデルがミスをしていたら対処する術がない
2. モデルの学習のためのデータをどう集めるか
– [Ha et al., 2018]のWorld modelsのようにランダムポリシーで環境を適当に探索させ
ることもできるが、効率的ではない
3. モデルの学習においてタスクを解くために必要な知識が状態表現から欠
落してしまう可能性がある
– これについては、モデルの学習に報酬情報を含めることで解決できるが、逆にその
場合は他タスクへの転移が難しくなる
7
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
8
提案手法
Deep Planning Network (PlaNet)
① 潜在空間上でのプランニング
– ダイナミクス(状態表現)のモデルの学習のためのデータの収集を潜在空間上での
プランニングを用いてオンラインで行なった
– 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し、D4PGとほぼ同
等のスコアを達成
② 再帰的な状態空間モデル
– 状態表現の不確実性を考慮しつつ、長い系列情報を失うことなく良い表現を獲得す
るためのモデルを提案
③ 複数ステップ先の予測モデル
– 通常のダイナミクスモデルは1ステップ先の予測のみを考慮するが、任意ステップ先
の予測 (overshooting)を考慮した状態表現学習を行う
9
潜在空間上でのプランニング
• ダイナミクスモデルの学習とそのためのデータの収集を交互に行う
• データの収集の際、エージェントはモデルの潜在空間上でのプランニングで得られる方
策を用いて探索する
• プランニングの学習にはCross Entropy Method (CEM) を使用
10
モデルの学習
データの収集
プランニングの学習
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
11
再帰的な状態空間モデル
プランニングのための良い状態表現の要素として以下の2つを主張
① 不確実性を考慮している
– 完全観測でない限り、エージェントの状態は常に不確実性を含んでいる
– 決定論的なモデルでは不十分
② 長期の系列情報を保持している
– 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい
これらを包括したRecurrent state-space model (RSSM) を提案
12
再帰的な状態空間モデル
13
比較手法 提案手法
再帰的な状態空間モデル
RSSMのアーキテクチャ
• 細かいアーキテクチャについては論文内に記述がないが、おそらく以下の
ような形
• SSMではDeterministic RNNがなく、InferenceとPriorに𝑠𝑡−1と𝑎 𝑡−1が直接入
る
14
𝑠𝑡, ℎ 𝑡
𝑜𝑡, 𝑟𝑡𝑜𝑡, 𝑟𝑡, ℎ 𝑡 Generation
𝑝(𝑜𝑡|𝑠𝑡)
Inference
𝑞(𝑠𝑡|𝑜𝑡, ℎ 𝑡)
Prior
𝑞(𝑠𝑡|ℎ 𝑡) 𝑠𝑡
KL
ℎ 𝑡
Deterministic
RNN
𝑓(ℎ 𝑡−1, 𝑠𝑡−1, 𝑎 𝑡−1)
ℎ 𝑡−1
𝑠𝑡−1
𝑎 𝑡−1
再帰的な状態空間モデル
確率的な潜在表現のモデリングにはVAEを使用
15
SSMの変分下限
再帰的な状態空間モデル
疑問点
• 論文内では提案手法 (RSSM) も前頁の変分下限で学習できるとしているが、
明らかに違う気がする(なぜhを完全に無視しているのかわからない)
– おそらく正しい下限は↓
ln 𝑝(𝑜1:𝑇, |𝑎1:𝑇)
≥ E 𝑝 ℎ1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇
𝑡=1
𝑇
E 𝑞 𝑠 𝑡
ln 𝑝 𝑜𝑡, 𝑠𝑡, ℎ 𝑡 − DKL[𝑞(𝑠𝑡)||𝑝(𝑠𝑡|ℎ 𝑡)]
– 期待値はモンテカルロ近似するので実装上は確かに変わらない
• SSMのマルコフ性を壊しているのでそもそも良いモデルなのか疑問
ここでは一旦この辺りは気にしないことにして進めます
16
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
17
複数ステップ先の予測モデル
• p13の変分下限は1ステップ先の予測のみに基づいて導かれている
• もしモデルが完璧に学習できているとすれば、それを用いて複数ステップ先
の予測もできるので問題ない
e.g. 𝑝 𝑠𝑡+2 𝑠𝑡, 𝑎 𝑡, 𝑎 𝑡+1 = 𝑝 𝑠𝑡+2 𝑠𝑡+1, 𝑎 𝑡+1 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 𝑑𝑠𝑡+1
• しかし、現実にはモデルが環境を完全に学習しきることはあり得ない
• そこで以下のような下限を考えてdステップ先の予測 (overshooting) を学習
させる
18
複数ステップ先の予測モデル
• 前頁の下限はdステップ先のみを考えているが、これを任意のステップ先の
予測に拡張して、以下の下限を目的関数として採用する
(ただし、𝛽 𝑑 はハイパラ)
19
アウトライン
1. 背景知識
– 状態表現学習
– モデルベースの難点
2. 提案手法
– 潜在空間上でのプランニング
– 再帰的な状態空間モデル
– 複数ステップ先の予測モデル
3. 実験
4. まとめ
20
実験
DeepMind control suiteの4つのタスクで実験
• 結果はモデル間 (RNN, SSM, RSSM) の比較と、overshootingの有無での比
較を行なっている
• 2つのモデルフリーの手法 (A3C, D4PG) との比較も行なっている
21
実験結果
22
https://www.youtube.com/watch?v=TeUceNCmq34
実験結果
Overshootingの有無
長期の予測が重要なWalker Walkで顕著な差がついている
23
実験結果
モデル比較
Cheetah Runでは提案手法がD4PGを上回る結果に
24
まとめ
• モデルベース強化学習のフレームワークとして3つの新規性を持つ手法を
提案
① モデルの学習とデータ収集・プランニングをオンラインで行う手法を提案し、サンプ
ル効率を向上
② 状態表現の不確実性を考慮し、かつ長い系列情報をうまく圧縮するためのVAE
ベースのダイナミクスモデルを提案
③ モデルの学習において複数ステップ先の予測モデルを考慮させることで、モデルの
不完全性による長期の予測での誤差の蓄積を避けることを実現
• 提案手法は強力なモデルフリーの手法に匹敵するスコアを記録
感想
• overshootingは面白いがハイパラ増えるしどうなんだろうという感想
• モデルが完全に学習しきらないことをどう考慮するかは今後のトピックの1
つになりそう
25

[DL輪読会]Learning Latent Dynamics for Planning from Pixels