SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Solar: Deep structured latent representations for
model-based reinforcement learning
Presentater: Kei Akuzawa, Matsuo Lab. D1
AGENDA
• 書誌情報
• 発表のモチベーション
• 背景
• Deep State Space Models
• LQR
• 手法
• 全体像
• 環境モデルの学習
• 環境モデルを用いたLQR
• 関連研究
• 実験
• まとめ
書誌情報
• タイトル
• SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
• 著者
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin
• UC Berkeleyが中心
• ICML2019
• 一言まとめ
• 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep
State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい
てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
発表のモチベーション
• 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景:
• 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように
• Deep State Space Models (DSSM) に関する知見が整ってきた
• 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス
• 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ
るかは以前発展途上
• https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics-
modelplanet-vaerl
• 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案
• 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい
• (制御アルゴリズムの詳細わかってないです……orz)
• 組み合わせるために,新たなDSSMを提案
背景 Deep State Space Models
• Notation:
• 𝑜𝑡: 観測(画像など)
• 𝑎 𝑡: アクション
• 𝑠𝑡: 潜在変数(状態)
• State Space Models (SSM): 状態と観測が異なる系
• 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測
が高速(観測の逐次的な生成が必要ない)
• 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然
な拡張になっている)
• ただし𝑠𝑡は観測できないので推論を行う
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
背景 Deep State Space Models
• 学習:
• Amortized Inference (VAEと同様入力データで条件づけられた推論モデル)
を用いることが多い
• 生成モデル:
• 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1
𝑇
𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇
• 推論モデル:
• 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1
𝑇
𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ]
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
[余談] DSSMとそのRLにおける用途
DSSMのRLにおける用途 DSSM自体の工夫
Solar 最適制御(潜在変数の遷移が線形
となるようなDSSMを採用すること
により,画像観測においても
Linnear-Quadratic Regulator(LQR)
でコントローラーを学習)
潜在空間上の遷移が線形になるよ
うに設計
PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上
で高速なプランニングを行う)
長期の予測が行えるような補助タ
スク(overshooting)
SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変
数がマルコフ性を満たすことを利
用して,𝑠𝑡を入力にとるactorを用い
たsoft actor-criticを提案)
方策自体もグラフィカルモデルで
書く(Control as Inference)
背景 Linear Quadratic Regulator
• 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定
• for 𝑡 ∈ {1, … , 𝑇}
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮 𝑡
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制
御理論のアルゴリズムが使えて嬉しい)
• 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい
• (GPSのようにNeural Network PolicyにFittingしているわけではない???)
手法 全体像
• 線形の環境モデルがあれば,制御理論のアルゴリズムが使える
• Q. 観測が画像のとき,線形の環境モデルを立てることができるか…?
• A. DNNで観測を写像した先の潜在空間上なら,
遷移を線形にしても良さそう!
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 全体像
(1) 現在の方策で
rollouts(訓練
データ)を収集
(2) 環境モデルの
学習
(3) LQRに必要な
パラメーター
𝑭, 𝒕 𝜮 𝒕 𝒕を推論
(4) LQRで方策を
訓練
手法 環境モデルの学習
• LQRを使うために遷移モデルを線形に設計
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉
• 𝑀𝑁𝐼𝑊: ガウスの共役事前分布
(Matrix Normal inverse-Wishart distribution)
• つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で
嬉しい
• LQRを使うためコスト関数も二次形式で設計し学習
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• 特に関心のある分布
• 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要)
• 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要)
• どちらも解析的にわからないので近似する
• 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′)
• 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝
𝑝(𝑠1) 𝑡=1
𝑇
𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙)
• Product of Experts(PoE) を利用している
• 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ
• うまいパラメータ共有
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 −
𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ]
• (基本的にVAEのELBOと同じ)
• あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習
• とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′) に関しては自然勾配が計算できる
• 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference
• 詳細はJohnson+2016
再構成誤差
近似分布と事前分布のKL項
手法 環境モデルを用いたLQR
• 環境モデルを学習し以下が得られたと想定
• 𝑞∗ 𝑭, 𝜮
• 𝜓∗
𝑠𝑡; 𝑜𝑡, 𝜙
• 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コスト関数𝑝∗
𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要
• ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も
よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい
• 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて
𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる
• ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
関連研究
• DSSMの遷移モデルの設計が大事
• 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持
つ[Johnson+2016]など,メリットがある
• 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ
デルが好ましいだろうか
• (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
関連研究 E2C
• 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン
セプトの初出
• 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない
[PlaNetで指摘]
• 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)で求める
• ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用
上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡
𝑇
)と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
関連研究 Deep Variational Bayes Filters
• Amortized Inferenceで線形の遷移を作る方法の提案
• 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒
• where 𝐴 𝑡 = 𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 ,
• データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み
をデータ点依存でInferenceしている
• (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように
設計して),データ点ごとに遷移行列を計算するのは難しいから
関連研究 遷移行列へのInferenceまとめ
直感的 数式的
Solar Stochastic Variational Inference 𝑞∗
𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′
, 𝜈′
, 𝑀0
′
, 𝑉′
事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析
的に求まる
E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)として,パラメー
タ𝜓を学習
𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)
DVBF[Karl+2017] Amortized Inference (データ点非
依存なM個の遷移行列と,デー
タ点依存の重みの線形和)
𝐴 𝑡 =
𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖)
,
𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡
結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
実験
• 比較手法
• PPO: モデルフリーのベースライン
• LQR-FLM from pixels: 表現学習なし
• (当然)全く学習できず
• Deep Visual Foresight(DVF): SOTAモデルベースRL
• pixel空間でMPCをやらせる.
• RCE: E2Cの改善版
• VAE ablation: Inferenceモデルの学習に系列情報を考慮しない
• 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している
• MPC baseline: 環境のモデルをPlanningに用いる
• おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
実験
• モデルベースはサンプル効率が良い
• 環境モデルの事前訓練を行うためMPC
baselineは序盤強いが,訓練が進むにつれ
SOLARが優位
• RCEが全然動いてないのはなぜ…?
• RCEの論文と解いてるタスクは違うらしい
実験 Sawyer Block Stacking
• 初期位置が違う3つのタスク(右上)
• 特に難しいタスク3ではMPCベースライ
ンより提案手法の方が良い
• 長期の予測を行うのが難しいので,
環境モデルをPlanningに使うより
policy improvementに使う方が良い?
感想
• DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究
• 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい
• また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が
どうなるか等も知りたい
• 制御説明できなくてすみません
References
• D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent
dynamics for planning from pixels. In International Conference on Machine Learning
(ICML), 2019.
• A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep
Reinforcement Learning with a Latent Variable Model, arxiv, 2019.
• Levine, S. and Abbeel, P. Learning neural network policies with guided policy search
under unknown dynamics. In NIPS, 2014.
• Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical
models with neural networks for structured representations and fast inference. In NIPS,
2016.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally
linear latent dynamics model for control from raw images. In NIPS, 2015
• M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper-
vised learning of state space models from raw data. In Proceedings of ICLR, 2017.

More Related Content

What's hot

【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
Deep Learning JP
 
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
 
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
Deep Learning JP
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 

What's hot (20)

【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models【DL輪読会】Mastering Diverse Domains through World Models
【DL輪読会】Mastering Diverse Domains through World Models
 
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
【DL輪読会】Domain Generalization by Learning and Removing Domainspecific Features
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
 
【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models【DL輪読会】Reward Design with Language Models
【DL輪読会】Reward Design with Language Models
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
[DL輪読会]物理学による帰納バイアスを組み込んだダイナミクスモデル作成に関する論文まとめ
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 

Similar to [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Deep Learning JP
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
Shohei Taniguchi
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
EndoYuuki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
Sho Kagami
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics
yoko meip
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Yoshitaka Ushiku
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
Car rmodel
Car rmodelCar rmodel
Car rmodel
Akichika Miyamoto
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
 
Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用
Shohei Kumagai
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtractionDaichi Suzuo
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Kento Doi
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
Deep Learning JP
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
 

Similar to [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning (20)

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Car rmodel
Car rmodelCar rmodel
Car rmodel
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用Partial least squares回帰と画像認識への応用
Partial least squares回帰と画像認識への応用
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 

Recently uploaded (14)

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1
  • 2. AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ
  • 3. 書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
  • 4. 発表のモチベーション • 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景: • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ るかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics- modelplanet-vaerl • 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい • (制御アルゴリズムの詳細わかってないです……orz) • 組み合わせるために,新たなDSSMを提案
  • 5. 背景 Deep State Space Models • Notation: • 𝑜𝑡: 観測(画像など) • 𝑎 𝑡: アクション • 𝑠𝑡: 潜在変数(状態) • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測 が高速(観測の逐次的な生成が必要ない) • 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然 な拡張になっている) • ただし𝑠𝑡は観測できないので推論を行う 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 6. 背景 Deep State Space Models • 学習: • Amortized Inference (VAEと同様入力データで条件づけられた推論モデル) を用いることが多い • 生成モデル: • 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1 𝑇 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇 • 推論モデル: • 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1 𝑇 𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ] 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 7. [余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御(潜在変数の遷移が線形 となるようなDSSMを採用すること により,画像観測においても Linnear-Quadratic Regulator(LQR) でコントローラーを学習) 潜在空間上の遷移が線形になるよ うに設計 PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上 で高速なプランニングを行う) 長期の予測が行えるような補助タ スク(overshooting) SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変 数がマルコフ性を満たすことを利 用して,𝑠𝑡を入力にとるactorを用い たsoft actor-criticを提案) 方策自体もグラフィカルモデルで 書く(Control as Inference)
  • 8. 背景 Linear Quadratic Regulator • 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮 𝑡 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制 御理論のアルゴリズムが使えて嬉しい) • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • (GPSのようにNeural Network PolicyにFittingしているわけではない???)
  • 9. 手法 全体像 • 線形の環境モデルがあれば,制御理論のアルゴリズムが使える • Q. 観測が画像のとき,線形の環境モデルを立てることができるか…? • A. DNNで観測を写像した先の潜在空間上なら, 遷移を線形にしても良さそう! • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 10. 手法 全体像 (1) 現在の方策で rollouts(訓練 データ)を収集 (2) 環境モデルの 学習 (3) LQRに必要な パラメーター 𝑭, 𝒕 𝜮 𝒕 𝒕を推論 (4) LQRで方策を 訓練
  • 11. 手法 環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 (Matrix Normal inverse-Wishart distribution) • つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で 嬉しい • LQRを使うためコスト関数も二次形式で設計し学習 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 12. 手法 環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) • 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝ 𝑝(𝑠1) 𝑡=1 𝑇 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ • うまいパラメータ共有 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 13. 手法 環境モデルの学習 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] • (基本的にVAEのELBOと同じ) • あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016 再構成誤差 近似分布と事前分布のKL項
  • 14. 手法 環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓∗ 𝑠𝑡; 𝑜𝑡, 𝜙 • 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コスト関数𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要 • ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて 𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる • ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
  • 15. 関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持 つ[Johnson+2016]など,メリットがある • 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ デルが好ましいだろうか • (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
  • 16. 関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン セプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] • 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)で求める • ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用 上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡 𝑇 )と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
  • 17. 関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒 • where 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 , • データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み をデータ点依存でInferenceしている • (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように 設計して),データ点ごとに遷移行列を計算するのは難しいから
  • 18. 関連研究 遷移行列へのInferenceまとめ 直感的 数式的 Solar Stochastic Variational Inference 𝑞∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′ , 𝜈′ , 𝑀0 ′ , 𝑉′ 事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析 的に求まる E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)として,パラメー タ𝜓を学習 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡) DVBF[Karl+2017] Amortized Inference (データ点非 依存なM個の遷移行列と,デー タ点依存の重みの線形和) 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , 𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
  • 19. 実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • (当然)全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる. • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
  • 21. 実験 Sawyer Block Stacking • 初期位置が違う3つのタスク(右上) • 特に難しいタスク3ではMPCベースライ ンより提案手法の方が良い • 長期の予測を行うのが難しいので, 環境モデルをPlanningに使うより policy improvementに使う方が良い?
  • 22. 感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい • また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が どうなるか等も知りたい • 制御説明できなくてすみません
  • 23. References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper- vised learning of state space models from raw data. In Proceedings of ICLR, 2017.