Successfully reported this slideshow.
Your SlideShare is downloading. ×

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

Ad

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Solar: Deep structured latent representations for
model-based reinf...

Ad

AGENDA
• 書誌情報
• 発表のモチベーション
• 背景
• Deep State Space Models
• LQR
• 手法
• 全体像
• 環境モデルの学習
• 環境モデルを用いたLQR
• 関連研究
• 実験
• まとめ

Ad

書誌情報
• タイトル
• SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
• 著者
• Marvin Zhang, Sharad Vi...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 23 Ad
1 of 23 Ad

More Related Content

Slideshows for you (19)

More from Deep Learning JP (20)

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1
  2. 2. AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ
  3. 3. 書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
  4. 4. 発表のモチベーション • 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景: • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ るかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics- modelplanet-vaerl • 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい • (制御アルゴリズムの詳細わかってないです……orz) • 組み合わせるために,新たなDSSMを提案
  5. 5. 背景 Deep State Space Models • Notation: • 𝑜𝑡: 観測(画像など) • 𝑎 𝑡: アクション • 𝑠𝑡: 潜在変数(状態) • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測 が高速(観測の逐次的な生成が必要ない) • 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然 な拡張になっている) • ただし𝑠𝑡は観測できないので推論を行う 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  6. 6. 背景 Deep State Space Models • 学習: • Amortized Inference (VAEと同様入力データで条件づけられた推論モデル) を用いることが多い • 生成モデル: • 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1 𝑇 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇 • 推論モデル: • 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1 𝑇 𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ] 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  7. 7. [余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御(潜在変数の遷移が線形 となるようなDSSMを採用すること により,画像観測においても Linnear-Quadratic Regulator(LQR) でコントローラーを学習) 潜在空間上の遷移が線形になるよ うに設計 PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上 で高速なプランニングを行う) 長期の予測が行えるような補助タ スク(overshooting) SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変 数がマルコフ性を満たすことを利 用して,𝑠𝑡を入力にとるactorを用い たsoft actor-criticを提案) 方策自体もグラフィカルモデルで 書く(Control as Inference)
  8. 8. 背景 Linear Quadratic Regulator • 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮 𝑡 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制 御理論のアルゴリズムが使えて嬉しい) • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • (GPSのようにNeural Network PolicyにFittingしているわけではない???)
  9. 9. 手法 全体像 • 線形の環境モデルがあれば,制御理論のアルゴリズムが使える • Q. 観測が画像のとき,線形の環境モデルを立てることができるか…? • A. DNNで観測を写像した先の潜在空間上なら, 遷移を線形にしても良さそう! • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  10. 10. 手法 全体像 (1) 現在の方策で rollouts(訓練 データ)を収集 (2) 環境モデルの 学習 (3) LQRに必要な パラメーター 𝑭, 𝒕 𝜮 𝒕 𝒕を推論 (4) LQRで方策を 訓練
  11. 11. 手法 環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 (Matrix Normal inverse-Wishart distribution) • つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で 嬉しい • LQRを使うためコスト関数も二次形式で設計し学習 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  12. 12. 手法 環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) • 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝ 𝑝(𝑠1) 𝑡=1 𝑇 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ • うまいパラメータ共有 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  13. 13. 手法 環境モデルの学習 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] • (基本的にVAEのELBOと同じ) • あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016 再構成誤差 近似分布と事前分布のKL項
  14. 14. 手法 環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓∗ 𝑠𝑡; 𝑜𝑡, 𝜙 • 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コスト関数𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要 • ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて 𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる • ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
  15. 15. 関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持 つ[Johnson+2016]など,メリットがある • 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ デルが好ましいだろうか • (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
  16. 16. 関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン セプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] • 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)で求める • ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用 上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡 𝑇 )と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
  17. 17. 関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒 • where 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 , • データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み をデータ点依存でInferenceしている • (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように 設計して),データ点ごとに遷移行列を計算するのは難しいから
  18. 18. 関連研究 遷移行列へのInferenceまとめ 直感的 数式的 Solar Stochastic Variational Inference 𝑞∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′ , 𝜈′ , 𝑀0 ′ , 𝑉′ 事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析 的に求まる E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)として,パラメー タ𝜓を学習 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡) DVBF[Karl+2017] Amortized Inference (データ点非 依存なM個の遷移行列と,デー タ点依存の重みの線形和) 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , 𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
  19. 19. 実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • (当然)全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる. • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
  20. 20. 実験 • モデルベースはサンプル効率が良い • 環境モデルの事前訓練を行うためMPC baselineは序盤強いが,訓練が進むにつれ SOLARが優位 • RCEが全然動いてないのはなぜ…? • RCEの論文と解いてるタスクは違うらしい
  21. 21. 実験 Sawyer Block Stacking • 初期位置が違う3つのタスク(右上) • 特に難しいタスク3ではMPCベースライ ンより提案手法の方が良い • 長期の予測を行うのが難しいので, 環境モデルをPlanningに使うより policy improvementに使う方が良い?
  22. 22. 感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい • また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が どうなるか等も知りたい • 制御説明できなくてすみません
  23. 23. References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper- vised learning of state space models from raw data. In Proceedings of ICLR, 2017.

×