[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Solar: Deep structured latent representations for
model-based reinforcement learning
Presentater: Kei Akuzawa, Matsuo Lab. D1

AGENDA
• 書誌情報
• 発表のモチベーション
• 背景
• Deep State Space Models
• LQR
• 手法
• 全体像
• 環境モデルの学習
• 環境モデルを用いたLQR
• 関連研究
• 実験
• まとめ

書誌情報
• タイトル
• SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
• 著者
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin
• UC Berkeleyが中心
• ICML2019
• 一言まとめ
• 強化学習において，潜在変数の遷移が線形となるような深層状態空間モデル（Deep
State Space Model, DSSM）を採用することにより，複雑な環境（観測が画像）におい
てもLinnear-Quadratic Regulator（LQR）でコントローラーを学習できるようにした

発表のモチベーション
• 近年モデルベース強化学習（RL）の進展が目覚ましい．進展の背景：
• 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように
• Deep State Space Models (DSSM) に関する知見が整ってきた
• 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス
• 前回の発表では，DSSMの進展を中心に扱った．しかしDSSMをどうRLに組み入れ
るかは以前発展途上
• https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics-
modelplanet-vaerl
• 今回発表する論文は，DSSMをRLに組み合わせる新しいアプローチを提案
• 制御理論で目にするLinnear-Quadratic Regulator（LQR）と組み合わせたい
• （制御アルゴリズムの詳細わかってないです……orz）
• 組み合わせるために，新たなDSSMを提案

背景 Deep State Space Models
• Notation:
• 𝑜𝑡: 観測（画像など）
• 𝑎 𝑡: アクション
• 𝑠𝑡: 潜在変数（状態）
• State Space Models (SSM): 状態と観測が異なる系
• 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため，予測
が高速（観測の逐次的な生成が必要ない）
• 状態𝑠𝑡がマルコフ性を満たす（POMDPへの自然
な拡張になっている）
• ただし𝑠𝑡は観測できないので推論を行う
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡

[余談] DSSMとそのRLにおける用途
DSSMのRLにおける用途 DSSM自体の工夫
Solar 最適制御（潜在変数の遷移が線形
となるようなDSSMを採用すること
により，画像観測においても
Linnear-Quadratic Regulator（LQR）
でコントローラーを学習）
潜在空間上の遷移が線形になるよ
うに設計
PlaNet [Hafner+ 2019] プランニング（DSSMの潜在空間上
で高速なプランニングを行う）
長期の予測が行えるような補助タ
スク（overshooting）
SLAC [Lee+2019] 表現学習（DSSMで推論した潜在変
数がマルコフ性を満たすことを利
用して，𝑠𝑡を入力にとるactorを用い
たsoft actor-criticを提案）
方策自体もグラフィカルモデルで
書く（Control as Inference）

背景 Linear Quadratic Regulator
• 線形の時変環境モデル，二次形式のコスト関数が与えられている状況を想定
• for 𝑡 ∈ {1, … , 𝑇}
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮 𝑡
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コストが最小かつエントロピーが最大になる方策を陽に求めることができる（制
御理論のアルゴリズムが使えて嬉しい）
• 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい
• （GPSのようにNeural Network PolicyにFittingしているわけではない？？？）

手法全体像
• 線形の環境モデルがあれば，制御理論のアルゴリズムが使える
• Q. 観測が画像のとき，線形の環境モデルを立てることができるか…？
• A. DNNで観測を写像した先の潜在空間上なら，
遷移を線形にしても良さそう！
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑭, 𝜮
𝑡 = 2, … , 𝑇

手法全体像
(1) 現在の方策で
rollouts（訓練
データ）を収集
(2) 環境モデルの
学習
(3) LQRに必要な
パラメーター
𝑭, 𝒕 𝜮 𝒕 𝒕を推論
(4) LQRで方策を
訓練

手法環境モデルの学習
• LQRを使うために遷移モデルを線形に設計
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉
• 𝑀𝑁𝐼𝑊: ガウスの共役事前分布
(Matrix Normal inverse-Wishart distribution)
• つまり，事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で
嬉しい
• LQRを使うためコスト関数も二次形式で設計し学習
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑭, 𝜮
𝑡 = 2, … , 𝑇

• 特に関心のある分布
• 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要)
• 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要)
• どちらも解析的にわからないので近似する
• 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′)
• 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝
𝑝(𝑠1) 𝑡=1
𝑇
𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙)
• Product of Experts(PoE) を利用している
• 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ
• うまいパラメータ共有
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑭, 𝜮
𝑡 = 2, … , 𝑇

• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 −
𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ]
• （基本的にVAEのELBOと同じ）
• あとは， 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習
• とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′) に関しては自然勾配が計算できる
• 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference
• 詳細はJohnson+2016
再構成誤差
近似分布と事前分布のKL項

手法環境モデルを用いたLQR
• 環境モデルを学習し以下が得られたと想定
• 𝑞∗ 𝑭, 𝜮
• 𝜓∗
𝑠𝑡; 𝑜𝑡, 𝜙
• 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コスト関数𝑝∗
𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので，あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要
• ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする．𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も
よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい
• 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて（経験ベイズ），ELBOについて
𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる
• （最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける）

関連研究
• DSSMの遷移モデルの設計が大事
• 特に線形だと制御理論の知見を活かせる，遷移行列のスペクトルが意味を持
つ[Johnson+2016]など，メリットがある
• 他に，線形の遷移モデルを組んでいる研究はあるだろうか？どんな生成/推論モ
デルが好ましいだろうか
• （論文自体で紹介されている関連研究ではなく，発表者から見た関連研究です）

関連研究 E2C
• 「潜在空間上で線形の遷移モデルを学習し，それをLQRに利用する」というコン
セプトの初出
• 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない
[PlaNetで指摘]
• 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)で求める
• ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので，実用
上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡
𝑇
)と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める

関連研究 Deep Variational Bayes Filters
• Amortized Inferenceで線形の遷移を作る方法の提案
• 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒
• where 𝐴 𝑡 = 𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 ,
• データ非依存の行列𝐴(𝑖)をM個用意しておいて，そのM個の行列に対する重み
をデータ点依存でInferenceしている
• （おそらく）ナイーブにAmortized Inferenceを行って（𝑞(𝐴 𝑡|𝑜1:𝑇)のように
設計して），データ点ごとに遷移行列を計算するのは難しいから

関連研究遷移行列へのInferenceまとめ
直感的数式的
Solar Stochastic Variational Inference 𝑞∗
𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′
, 𝜈′
, 𝑀0
′
, 𝑉′
事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析
的に求まる
E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓
(𝑧𝑡)として，パラメー
タ𝜓を学習
𝐴 𝑡 = ℎ 𝜓
(𝑧𝑡)
DVBF[Karl+2017] Amortized Inference (データ点非
依存なM個の遷移行列と，デー
タ点依存の重みの線形和)
𝐴 𝑡 =
𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖)
,
𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡
結局どれが良いのかは良くわからないが，なんとなくSolarが使い回しやすそう

実験
• 比較手法
• PPO: モデルフリーのベースライン
• LQR-FLM from pixels: 表現学習なし
• （当然）全く学習できず
• Deep Visual Foresight(DVF): SOTAモデルベースRL
• pixel空間でMPCをやらせる．
• RCE: E2Cの改善版
• VAE ablation: Inferenceモデルの学習に系列情報を考慮しない
• 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして，遷移モデルを後から学習している
• MPC baseline: 環境のモデルをPlanningに用いる
• おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる

実験
• モデルベースはサンプル効率が良い
• 環境モデルの事前訓練を行うためMPC
baselineは序盤強いが，訓練が進むにつれ
SOLARが優位
• RCEが全然動いてないのはなぜ…？
• RCEの論文と解いてるタスクは違うらしい

実験 Sawyer Block Stacking
• 初期位置が違う3つのタスク（右上）
• 特に難しいタスク3ではMPCベースライ
ンより提案手法の方が良い
• 長期の予測を行うのが難しいので，
環境モデルをPlanningに使うより
policy improvementに使う方が良い？

感想
• DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究
• 線形の遷移を作る方法はいくつかあるので，そのあたりの検証も欲しい
• また線形の遷移を作った時に，非線形の遷移モデルを持つDSSMと比べて尤度が
どうなるか等も知りたい
• 制御説明できなくてすみません

References
• D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent
dynamics for planning from pixels. In International Conference on Machine Learning
(ICML), 2019.
• A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep
Reinforcement Learning with a Latent Variable Model, arxiv, 2019.
• Levine, S. and Abbeel, P. Learning neural network policies with guided policy search
under unknown dynamics. In NIPS, 2014.
• Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical
models with neural networks for structured representations and fast inference. In NIPS,
2016.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally
linear latent dynamics model for control from raw images. In NIPS, 2015
• M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper-
vised learning of state space models from raw data. In Proceedings of ICLR, 2017.

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

More Related Content

What's hot

Similar to [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

More from Deep Learning JP

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning