DEEP LEARNING JP
[DL Papers]
Dream to Control: Learning Behaviors by Latent
Imagination
Hiroki Furuta
http://deeplearning.jp/
書誌情報
• タイトル: Dream to Control: Learning Behaviors by Latent Imagination
• 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2
• 所属: 1University of Toronto, 2Google Brain, 3DeepMind
• 会議: ICLR2020, Spotlight
• URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603
• 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent
imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを
提案
2
研究背景
• 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミクス
モデルを学習することが可能になった
• ダイナミクスモデルから制御方策を獲得する方法はいくつか存在
 予測される報酬を最大化するようにパラメタ化した方策を学習
• Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など
 Online planning
• PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など
• Neural Networkによるダイナミクスモデルでは勾配が計算できることを利用して
long-horizonなタスクを解きたい
 固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬の最大
化を図ると近視眼的な方策に陥りがちなため
3
貢献
• 潜在空間での想像(latent imagination)のみにより, long-
horizonなタスクの方策を学習
 潜在変数(state)から長期的な価値を推定し, 方策の更新にダイナミ
クスモデルを通した価値関数の勾配を直接利用する(後述)
• DeepMind Control Suiteの画像入力のControl タスクでサン
プル効率, 計算時間, 性能の面で, 既存のモデルベース/モ
デルフリーのべンチマークを上回った
• 状態表現学習(Representation Learning)というよりは, モデ
ルベース強化学習の新たなアルゴリズムついての論文
4(本資料の図は断りがない限り論文より引用)
先行研究(PlaNet)
とほぼ同じ
新規性
準備: 問題設定
• 画像入力なので部分観測Markov Decision Process(POMDP)を仮定
離散 time step 𝑡 ∈ 1; 𝑇
エージェントの出力する連続値action(ベクトル) 𝑎 𝑡 ~ 𝑝 𝑎 𝑡 𝑜≤𝑡, 𝑎<𝑡
観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡)
• 今回は環境は未知
目標は期待報酬の和を最大化する方策を学習すること Ε 𝑝(∑ 𝑡=1
𝑇
𝑟𝑡)
5
DeepMindControl Suitから20
タスクを実験に使用(図はそのう
ちの5つの例)
準備: エージェント
• モデルベース強化学習でimaginationから学習するエージェントは以下の3
つの要素を繰り返すことで学習する[Sutton, 1991]
ダイナミクスモデルの学習
• 今回はlatent dynamics
方策の学習
• 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用
環境との相互作用
• ダイナミクスモデルのデータセットを拡張するため
6
アルゴリズム
7
ダイナミクスモデルの学習: Latent dynamics
Dreamerで用いるLatent dynamicsは3つのモデルからなる
• Representation model 𝑝(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1, 𝑜𝑡)
観測𝑜𝑡とaction 𝑎 𝑡−1からマルコフ性を仮定した連続値ベクトルのstate(潜在変数) 𝑠𝑡
をエンコード
• Transition model 𝑞(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1)
観測𝑜𝑡によらない潜在空間上の遷移のモデル (latent imaginationに使用)
• Reward model 𝑞(𝑟𝑡|𝑠𝑡)
state 𝑠𝑡における報酬𝑟𝑡の予測モデル (latent imaginationに使用)
8
ダイナミクスモデルの学習: Reward Prediction
ダイナミクスモデルの学習には代表的な3つのアプローチがある
• Reward Prediction
前ページで説明したRepresentation model, Transition model, Reward modelを, 行動
と過去の観測で条件づけられた将来の報酬の予測から学習する方法
大量で多様なデータがあればControl taskを解くのに十分なモデルが学習できる(ら
しい)
• Reconstruction
• Contrastive estimation
9
ダイナミクスモデルの学習: Reconstruction
Reconstruction
• PlaNet[Hafner et al. 2018]同様, 観測の画像の再構成によって学習
Observation modelは学習時のみ使用
Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で
実装
10
※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください
https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics-
for-planning-from-pixels
ダイナミクスモデルの学習: Latent dynamics
Contrastive estimation
• 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)による
学習がある
ReconstructionのObservation modelをState modelに置き換える
実験では3つの性能を比較
11
Constructive Estimation
Reconstruction
Latent Imaginationによる方策の学習
• State 𝑠𝑡(潜在空間)にはMDPを仮定
• 過去の経験の観測𝑜𝑡からエンコードされた𝑠𝑡をスタートとして, Transition
model 𝑠𝜏 ~ 𝑞(𝑠𝜏|𝑠𝜏, 𝑎 𝜏), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏|𝑠𝜏), 方策 𝑎 𝜏 ~ 𝑞 𝑎 𝜏 𝑠𝜏 を
順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力
12
Latent Imaginationによる方策の学習
• Value model 𝑣 𝜓(𝑠𝜏)で, 現在のstate 𝑠𝜏以降のエージェントの期待報酬を推
定する
• Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで学習
を進める
• 方策の学習時にはReparameterization trickを使う
13
Long Horizonな価値の推定
• Value model 𝑣 𝜓(𝑠𝜏)を用いて, k-step先まで考慮した価値関数𝑉𝑁
𝑘
と,異なる
長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆の値の推定を
行う(本論文の要点1)
 𝑉𝑅はValue modelを持たない価値関数(実験で𝑉𝜆の効果を比較)
(今回の実験では𝐻 = 15ぐらいでいいらしい)
14
学習の目的関数
• 方策(Action model)と価値関数(Value model)の更新のために, imagined
trajectory中の全てのstate 𝑠𝜏について価値関数𝑉𝜆(𝑠𝜏)を計算
• Actor-Criticのようにそれぞれの目的関数について交互に更新
• 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本論
文の要点2)
 𝑉𝜆は報酬𝑟𝜏 とValue model 𝑣 𝜓から求まり, 報酬とValueはimagined state 𝑠𝜏とimagined
action 𝑎 𝜏から求まるため(全てNNでモデル化)
15
既存研究との差分
• DDPG, SAC: 方策の目的関数にQ-valueを用いている点で異なる
• A3C, PPO: これらは方策勾配のvarianceを下げるためにベースラインとして
価値関数を用いるが, Dreamerは直接価値関数を微分する
• MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮したQ-
learningをダイナミクスモデルを用いて行うが, ダイミクスモデルを通した微
分を行わない点と, Dreamerは価値関数𝑉のみで学習する点で異なる
16
実験: ベースライン手法との比較
• 画像入力のPlaNet, D4PG, MDPで学習させたA3Cと比較
Dreamerはサンプル効率よくモデルフリーの手法に近い性能
20taskの平均で823(PlaNetは332, D4PGは109stepで786)
17
実験: 価値関数𝑉𝜆の検証
• Dreamerはlong-horizonの信用割り当てが必要なAcrobotやHopperでもうま
くいっている
長期性を考慮した価値関数𝑉𝜆が効果的(Horizon 𝐻に対してもロバスト)
18
実験: ダイナミクスモデルの比較
• 異なるダイナミクスモデルの目的関数について性能を比較
Reconstructionが最も良く, Contrastive estimationでも半分のタスクは解けるが
Reward predictionでは不十分
19
まとめ
• 潜在空間での想像(latent imagination)のみにより, long-horizonなタスクの
方策を学習する手法 Dreamerを提案
• ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値関数に
関する勾配を直接計算
感想
ダイナミクスモデルや学習方法についての拡張性が高い
画像入力のロボットアームのタスクでも解けるのか気になる
20

[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination

  • 1.
    DEEP LEARNING JP [DLPapers] Dream to Control: Learning Behaviors by Latent Imagination Hiroki Furuta http://deeplearning.jp/
  • 2.
    書誌情報 • タイトル: Dreamto Control: Learning Behaviors by Latent Imagination • 著者: Danijar Hafner12, Timothy Lillicrap3, Jimmy Ba1, Mohammad Norouzi2 • 所属: 1University of Toronto, 2Google Brain, 3DeepMind • 会議: ICLR2020, Spotlight • URL: https://openreview.net/forum?id=S1lOTC4tDS, https://arxiv.org/abs/1912.01603 • 概要: 画像入力でlong-horizonなタスクを潜在空間における想像(latent imagination)のみによって解く, モデルベース強化学習のアルゴリズム, Dreamerを 提案 2
  • 3.
    研究背景 • 深層学習によって, 画像入力から将来の予測が可能な潜在空間のダイナミクス モデルを学習することが可能になった •ダイナミクスモデルから制御方策を獲得する方法はいくつか存在  予測される報酬を最大化するようにパラメタ化した方策を学習 • Dyna[Sutton 1991], World models[Ha and Schmidhuber 2018], SOLAR[Zhang et al. 2018]など  Online planning • PETS[Chua et al. 2018], PlaNet[Hafner et al. 2018]など • Neural Networkによるダイナミクスモデルでは勾配が計算できることを利用して long-horizonなタスクを解きたい  固定長のimagination horizon(ダイナミクズモデルから生成される軌道)における報酬の最大 化を図ると近視眼的な方策に陥りがちなため 3
  • 4.
    貢献 • 潜在空間での想像(latent imagination)のみにより,long- horizonなタスクの方策を学習  潜在変数(state)から長期的な価値を推定し, 方策の更新にダイナミ クスモデルを通した価値関数の勾配を直接利用する(後述) • DeepMind Control Suiteの画像入力のControl タスクでサン プル効率, 計算時間, 性能の面で, 既存のモデルベース/モ デルフリーのべンチマークを上回った • 状態表現学習(Representation Learning)というよりは, モデ ルベース強化学習の新たなアルゴリズムついての論文 4(本資料の図は断りがない限り論文より引用) 先行研究(PlaNet) とほぼ同じ 新規性
  • 5.
    準備: 問題設定 • 画像入力なので部分観測MarkovDecision Process(POMDP)を仮定 離散 time step 𝑡 ∈ 1; 𝑇 エージェントの出力する連続値action(ベクトル) 𝑎 𝑡 ~ 𝑝 𝑎 𝑡 𝑜≤𝑡, 𝑎<𝑡 観測(今回は画像)と報酬(スカラー) 𝑜𝑡, 𝑟𝑡 ~ 𝑝 𝑜𝑡, 𝑟𝑡 𝑜<𝑡, 𝑎<𝑡) • 今回は環境は未知 目標は期待報酬の和を最大化する方策を学習すること Ε 𝑝(∑ 𝑡=1 𝑇 𝑟𝑡) 5 DeepMindControl Suitから20 タスクを実験に使用(図はそのう ちの5つの例)
  • 6.
    準備: エージェント • モデルベース強化学習でimaginationから学習するエージェントは以下の3 つの要素を繰り返すことで学習する[Sutton,1991] ダイナミクスモデルの学習 • 今回はlatent dynamics 方策の学習 • 今回は方策の更新にダイナミクスモデルを通した価値関数の勾配を直接利用 環境との相互作用 • ダイナミクスモデルのデータセットを拡張するため 6
  • 7.
  • 8.
    ダイナミクスモデルの学習: Latent dynamics Dreamerで用いるLatentdynamicsは3つのモデルからなる • Representation model 𝑝(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1, 𝑜𝑡) 観測𝑜𝑡とaction 𝑎 𝑡−1からマルコフ性を仮定した連続値ベクトルのstate(潜在変数) 𝑠𝑡 をエンコード • Transition model 𝑞(𝑠𝑡|𝑠𝑡−1, 𝑎 𝑡−1) 観測𝑜𝑡によらない潜在空間上の遷移のモデル (latent imaginationに使用) • Reward model 𝑞(𝑟𝑡|𝑠𝑡) state 𝑠𝑡における報酬𝑟𝑡の予測モデル (latent imaginationに使用) 8
  • 9.
    ダイナミクスモデルの学習: Reward Prediction ダイナミクスモデルの学習には代表的な3つのアプローチがある •Reward Prediction 前ページで説明したRepresentation model, Transition model, Reward modelを, 行動 と過去の観測で条件づけられた将来の報酬の予測から学習する方法 大量で多様なデータがあればControl taskを解くのに十分なモデルが学習できる(ら しい) • Reconstruction • Contrastive estimation 9
  • 10.
    ダイナミクスモデルの学習: Reconstruction Reconstruction • PlaNet[Hafneret al. 2018]同様, 観測の画像の再構成によって学習 Observation modelは学習時のみ使用 Transition modelとRepresentation modelはRecurrent State Space Model(RSSM)で 実装 10 ※PlaNetについて詳しくは谷口さんの過去の輪読資料を参照してください https://www.slideshare.net/DeepLearningJP2016/dllearning-latent-dynamics- for-planning-from-pixels
  • 11.
    ダイナミクスモデルの学習: Latent dynamics Contrastiveestimation • 画像の再構成以外の方法としてNoise Contrastive Estimation(NCE)による 学習がある ReconstructionのObservation modelをState modelに置き換える 実験では3つの性能を比較 11 Constructive Estimation Reconstruction
  • 12.
    Latent Imaginationによる方策の学習 • State𝑠𝑡(潜在空間)にはMDPを仮定 • 過去の経験の観測𝑜𝑡からエンコードされた𝑠𝑡をスタートとして, Transition model 𝑠𝜏 ~ 𝑞(𝑠𝜏|𝑠𝜏, 𝑎 𝜏), Reward model 𝑟𝜏 ~ 𝑞(𝑟𝜏|𝑠𝜏), 方策 𝑎 𝜏 ~ 𝑞 𝑎 𝜏 𝑠𝜏 を 順番に予測することで有限のhorizon 𝐻のimagined trajectoryを出力 12
  • 13.
    Latent Imaginationによる方策の学習 • Valuemodel 𝑣 𝜓(𝑠𝜏)で, 現在のstate 𝑠𝜏以降のエージェントの期待報酬を推 定する • Neural Netで方策と価値関数を近似し, Actor Criticのような枠組みで学習 を進める • 方策の学習時にはReparameterization trickを使う 13
  • 14.
    Long Horizonな価値の推定 • Valuemodel 𝑣 𝜓(𝑠𝜏)を用いて, k-step先まで考慮した価値関数𝑉𝑁 𝑘 と,異なる 長さ𝑘について指数的に重み付けして平均された価値関数𝑉𝜆の値の推定を 行う(本論文の要点1)  𝑉𝑅はValue modelを持たない価値関数(実験で𝑉𝜆の効果を比較) (今回の実験では𝐻 = 15ぐらいでいいらしい) 14
  • 15.
    学習の目的関数 • 方策(Action model)と価値関数(Valuemodel)の更新のために, imagined trajectory中の全てのstate 𝑠𝜏について価値関数𝑉𝜆(𝑠𝜏)を計算 • Actor-Criticのようにそれぞれの目的関数について交互に更新 • 価値関数の方策のパラメータ𝜙に関する解析的な勾配が計算できる(本論 文の要点2)  𝑉𝜆は報酬𝑟𝜏 とValue model 𝑣 𝜓から求まり, 報酬とValueはimagined state 𝑠𝜏とimagined action 𝑎 𝜏から求まるため(全てNNでモデル化) 15
  • 16.
    既存研究との差分 • DDPG, SAC:方策の目的関数にQ-valueを用いている点で異なる • A3C, PPO: これらは方策勾配のvarianceを下げるためにベースラインとして 価値関数を用いるが, Dreamerは直接価値関数を微分する • MVE[Feinberg et al. 2018] , STEVE[Buckman et al. 2018] : 複数ステップ先を考慮したQ- learningをダイナミクスモデルを用いて行うが, ダイミクスモデルを通した微 分を行わない点と, Dreamerは価値関数𝑉のみで学習する点で異なる 16
  • 17.
    実験: ベースライン手法との比較 • 画像入力のPlaNet,D4PG, MDPで学習させたA3Cと比較 Dreamerはサンプル効率よくモデルフリーの手法に近い性能 20taskの平均で823(PlaNetは332, D4PGは109stepで786) 17
  • 18.
  • 19.
  • 20.
    まとめ • 潜在空間での想像(latent imagination)のみにより,long-horizonなタスクの 方策を学習する手法 Dreamerを提案 • ダイナミクスモデルとimagined trajectory全体を通して, 方策の価値関数に 関する勾配を直接計算 感想 ダイナミクスモデルや学習方法についての拡張性が高い 画像入力のロボットアームのタスクでも解けるのか気になる 20