SlideShare a Scribd company logo
Temporal Difference Models: Model-Free
Deep RL for Model-Based Control
V. Pong*, S. Gu*, M. Dalal, and S. Levine
ICLR 2018
Eiji Uchibe
Dept. of Brain Robot Interface, ATR Computational Neuroscience Labs.
論文の概要と選択理由
• モデルフリーRLとモデルベースRLの共同
• モデルベースの利点は仮想経験の生成だけでなく
プランニングが利用できる点
• Monte Carlo Tree Searchなどの方法がロボット制御
問題では長期予測の点から役に立たない
• モデル予測制御における制約条件の工夫により解決
[O'Doherty et al., 2017]
モデルベース強化学習
• 狭義には状態遷移確率𝑃(𝑠′ ∣ 𝑠, 𝑎)が既知、もしくは推定した
モデルを用いた強化学習アルゴリズム
– 価値反復法や方策反復法、
PILCO [Deisenroth et al., 2014], MCTSなど
環境𝑃 𝑠′ 𝑠, 𝑎
観測𝑜
行動𝑎
報酬𝑟内部状態𝑠
学習率 𝛼
逆温度 𝛽
割引率 𝛾
最近のモデルベース・モデルフリー強化学習
S. GuのICLR2017のスライドから引用
𝑠 𝑔
目標条件付き価値関数 (Goal-conditioned value function)
• 価値関数を目標状態𝑠 𝑔 ∈ 𝒢にも依存するように拡張
マルチタスク強化学習
• 基本的には通常の状態行動価値関数を
と拡張するだけ
• タスクを失敗しても𝑠 𝑔を失敗した軌道の中から選び直すことで
非零の報酬を生成し学習する [Andrychowicz et al., 2017]
𝑄(𝑠, 𝑎, 𝑠 𝑔)
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
𝑠 𝑔
𝑠 𝑔
モデル予測制御 (Model Predictive Control)
• 状態のダイナミクスは既知
• モデルベース強化学習とみなせる
• 目的
制約条件
• 各時間で制約付き最適化問題
を解くので、計算コストは高い
𝑎 𝑡 = argmax
𝑎 𝑡:𝑡+𝑇
෍
𝑖=𝑡
𝑡+𝑇
𝑟𝑐(𝑠𝑖, 𝑎𝑖)
𝑠𝑖+1 = 𝑓 𝑠𝑖, 𝑎𝑖 , ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1
[山田2006]から引用
目標条件付き価値関数からモデルへ
• 目標集合𝒢が状態集合𝒮と同じ場合(𝒢 = 𝒮)を考える
• 距離ベース報酬関数を導入する
• 割引率𝛾 = 0のとき価値関数は即時報酬に収束
– 𝐷は距離関数なので、𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔 = 0なら𝑠𝑡+1 = 𝑠𝑔を意味する
• モデル予測制御の制約条件を変更
𝑟𝑑 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1, 𝑠 𝑔 = −𝐷 𝑠𝑡+1, 𝑠 𝑔
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔 = −𝐷 𝑠𝑡+1, 𝑠 𝑔
𝑎 𝑡 = argmax
𝑎 𝑡:𝑡+𝑇
෍
𝑖=𝑡
𝑡+𝑇
𝑟𝑐(𝑠𝑖, 𝑎𝑖)
𝑠𝑖+1 = 𝑓 𝑠𝑖, 𝑎𝑖 , ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1
𝑎 𝑡 = argmax
𝑎 𝑡:𝑡+𝑇,𝑠 𝑡+1:𝑡+𝑇
෍
𝑖=𝑡
𝑡+𝑇
𝑟𝑐(𝑠𝑖, 𝑎𝑖)
𝑄 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1 = 0, ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1
この段階では、表現方法が
違うだけで同じことを計算
Temporal Difference Modelによる長期予測学習
• 𝛾 > 0の場合、𝑄(𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔) が何を意味するか明確でない
• infinite horizon discount rewardではなく、finite horizon total reward
で定式化すれば良さそう
• 決定論的な状態遷移の場合
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = ቐ
−𝐷(𝑠𝑡+1, 𝑠 𝑔) 𝜏 = 0
max
𝑎
𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1 𝜏 ≠ 0
𝑠𝑡
𝑎 𝑡
𝑠𝑡+1
𝑠 𝑔
𝑠𝑡+𝜏+1
∗
𝜋∗
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏
状態𝑠𝑡で行動𝑎 𝑡を実行し
状態𝑠𝑡+1に遷移し、以降
𝜏ステップ最適方策𝜋∗
に
従って行動して、𝑠𝑡+𝜏+1
∗
に遷移する
TDMと通常のfinite horizon total rewardの比較
• TDM
• Finite horizon total reward
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡
ൣ−𝐷 𝑠𝑡+1, 𝑠 𝑔 𝕀 𝜏 = 0
቉+ max
𝑎
𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1 𝕀 𝜏 ≠ 0
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑡 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡
𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + max
𝑎
𝑄 𝑠𝑡+1, 𝑎, 𝑡 + 1
行動の決定 (Model Predictive Control)
• 各時刻で以下の制約付き最適化問題を解く
– 計算を簡略化するために𝐾ステップごとの評価を用いる
– さらに𝐾 = 𝑇として簡略化した場合
𝑎 𝑡 = argmax
𝑎 𝑡:𝐾:𝑡+𝑇,𝑠 𝑡+𝐾:𝐾:𝑡+𝑇
෍
𝑖=𝑡,𝑡+𝐾,…,𝑡+𝑇
𝑟𝑐(𝑠𝑖, 𝑎𝑖)
s.t. 𝑄 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+𝐾, 𝐾 − 1 = 0 ∀ 𝑖 ∈ 𝑡, 𝑡 + 𝐾, … , 𝑡 + 𝑇 − 𝐾
𝑎 𝑡 = argmax
𝑎 𝑡,𝑎 𝑡+𝑇,𝑠 𝑡+𝑇
𝑟𝑐 𝑠𝑡+𝑇, 𝑎 𝑡+𝑇 s.t. 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+𝑇, 𝑇 − 1 = 0
価値関数を構造化した場合の行動の決定
• 前述の制約付き最適化問題を各時刻で解くのは大変
• 価値関数の表現を限定
– 𝑓をニューラルネットなどで近似する
• 制約付き最適化が制約なし最適化問題に帰着
– タスクが目標状態𝑠𝑔に到達するようなケースの場合
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = −𝐷 𝑓 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 , 𝑠 𝑔 𝑄が非負であることを保証
𝑎 𝑡 = argmax
𝑎 𝑡,𝑎 𝑡+𝑇,𝑠 𝑡+𝑇
𝑟𝑐 𝑓 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+𝑇, 𝑇 − 1 , 𝑎 𝑡+𝑇
𝑎 𝑡 = argmax
𝑎
𝑄 𝑠𝑡, 𝑎, 𝑠 𝑔, 𝑇
リーチング課題におけるTDM方策と学習曲線
BAIR Blogから引用
リーチング課題におけるTDM方策と学習曲線
BAIR Blogから引用
• ニューラルネットの出力をスカラ(𝑄)から𝑓𝑗にベクトル化すること
で性能をさらに改善
個人的な意見
• モデルを使ったプランニングを制約条件の形でMPCに導入するの
は興味深い
• 𝑄(𝑠, 𝑎, 𝑠 𝑔, 𝜏)の学習は大変そうで、結果として正しく学習できてい
るのか確認したい
• 状態空間上での距離関数𝐷(𝑠, 𝑠 𝑔)と𝑠から𝑠 𝑔に遷移するのに必要な
ステップ数は異なるので、最小ステップを学習するような定式化
はどうか
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡
1 + min
𝑎
𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1
𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 0 = 𝐷 𝑠𝑡+1, 𝑠 𝑔 or +∞
個人的な意見(続き)
• 𝑄(𝑠, 𝑎, 𝑠 𝑔, 𝜏)を学習するネットワークに
Dueling構造を導入すればアドバンテージ
関数を使って同じことができそう
• 遠い昔に聞いたA*などのプランニングと
強化学習の関連付けとの対応は?
𝑠 𝑞 𝜋(𝑠, 𝑎)
𝑎1 𝑎2 𝑎3
𝑞𝜋(𝑠,𝑎)
𝑠 𝑞 𝜋(𝑠, 𝑎)
𝑣 𝜋(𝑠)
𝐴 𝜋(𝑠, 𝑎)
𝑎1
𝑎2
𝑎3
𝐴𝜋(𝑠,𝑎)
𝑣𝜋(𝑠)
References
• Andrychowicz, M., …, Abbeel, P., and Zaremba, W. (2017). Hindsight experience replay. NIPS 30.
• O'Doherty, J.P., Cockburn, J., and Pauli, W. M. (2017). Learning, Reward, and Decision Making. Annual
Review of Psychology, 68:73-100.
• Pong*, V., Gu*, S., Dalal, M., and Levine, S. (2018). Temporal Difference Models: Model-Free Deep RL
for Model-Based Control. In Proc. of ICLR 2018.
• Pong, V. TDM: From Model-Free to Model-Based Deep Reinforcement Learning. BAIR Blog.
• 山田照樹. モデル予測制御理論の紹介. SICEセミナー, 2006.

More Related Content

What's hot

「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
Chihiro Kusunoki
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
Deep Learning JP
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
 
「これからの強化学習」勉強会#2
「これからの強化学習」勉強会#2「これからの強化学習」勉強会#2
「これからの強化学習」勉強会#2
Chihiro Kusunoki
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
Deep Learning JP
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
Kenshi Abe
 
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Shota Imai
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
Takashi YAMAMURA
 

What's hot (20)

「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎[DL輪読会]Deep Learning 第5章 機械学習の基礎
[DL輪読会]Deep Learning 第5章 機械学習の基礎
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
「これからの強化学習」勉強会#2
「これからの強化学習」勉強会#2「これからの強化学習」勉強会#2
「これからの強化学習」勉強会#2
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
 

Similar to NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL for Model-based Control

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
hirokazutanaka
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
 
MIRU MIRU わかる GAN
MIRU MIRU わかる GANMIRU MIRU わかる GAN
MIRU MIRU わかる GAN
Tomohiro Takahashi
 
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-(改訂版)数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-(改訂版)
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
MIKIOKUBO3
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
Kenta Ishii
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
kenyanonaka
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
Hirotaka Hachiya
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
 
第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
RCCSRENKEI
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
Kei Nakagawa
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
Ryoma Nakagawa
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
T T
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Masaya Kaneko
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
Morpho, Inc.
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
TakaakiYonekura
 

Similar to NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL for Model-based Control (20)

[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
MIRU MIRU わかる GAN
MIRU MIRU わかる GANMIRU MIRU わかる GAN
MIRU MIRU わかる GAN
 
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-(改訂版)数理最適化と機械学習の融合アプローチ-分類と新しい枠組み-(改訂版)
数理最適化と機械学習の 融合アプローチ -分類と新しい枠組み-(改訂版)
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
 
効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習効用最大化理論の観点から見る強化学習
効用最大化理論の観点から見る強化学習
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)第15回 配信講義 計算科学技術特論B(2022)
第15回 配信講義 計算科学技術特論B(2022)
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
AI2: Safety and Robustness Certification of Neural Networks with Abstract Int...
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
 

Recently uploaded

「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
Yuuitirou528 default
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Toru Miyahara
 
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
Toru Miyahara
 
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHubCompute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
K Kinzal
 
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
Toru Miyahara
 
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
miyp
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
Masatsugu Matsushita
 

Recently uploaded (7)

「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
 
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
 
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHubCompute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
 
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
 
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
 

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL for Model-based Control

  • 1. Temporal Difference Models: Model-Free Deep RL for Model-Based Control V. Pong*, S. Gu*, M. Dalal, and S. Levine ICLR 2018 Eiji Uchibe Dept. of Brain Robot Interface, ATR Computational Neuroscience Labs.
  • 2. 論文の概要と選択理由 • モデルフリーRLとモデルベースRLの共同 • モデルベースの利点は仮想経験の生成だけでなく プランニングが利用できる点 • Monte Carlo Tree Searchなどの方法がロボット制御 問題では長期予測の点から役に立たない • モデル予測制御における制約条件の工夫により解決 [O'Doherty et al., 2017]
  • 3. モデルベース強化学習 • 狭義には状態遷移確率𝑃(𝑠′ ∣ 𝑠, 𝑎)が既知、もしくは推定した モデルを用いた強化学習アルゴリズム – 価値反復法や方策反復法、 PILCO [Deisenroth et al., 2014], MCTSなど 環境𝑃 𝑠′ 𝑠, 𝑎 観測𝑜 行動𝑎 報酬𝑟内部状態𝑠 学習率 𝛼 逆温度 𝛽 割引率 𝛾
  • 5. 𝑠 𝑔 目標条件付き価値関数 (Goal-conditioned value function) • 価値関数を目標状態𝑠 𝑔 ∈ 𝒢にも依存するように拡張 マルチタスク強化学習 • 基本的には通常の状態行動価値関数を と拡張するだけ • タスクを失敗しても𝑠 𝑔を失敗した軌道の中から選び直すことで 非零の報酬を生成し学習する [Andrychowicz et al., 2017] 𝑄(𝑠, 𝑎, 𝑠 𝑔) 𝑠𝑡 𝑎 𝑡 𝑠𝑡+1 𝑠 𝑔 𝑠 𝑔
  • 6. モデル予測制御 (Model Predictive Control) • 状態のダイナミクスは既知 • モデルベース強化学習とみなせる • 目的 制約条件 • 各時間で制約付き最適化問題 を解くので、計算コストは高い 𝑎 𝑡 = argmax 𝑎 𝑡:𝑡+𝑇 ෍ 𝑖=𝑡 𝑡+𝑇 𝑟𝑐(𝑠𝑖, 𝑎𝑖) 𝑠𝑖+1 = 𝑓 𝑠𝑖, 𝑎𝑖 , ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1 [山田2006]から引用
  • 7. 目標条件付き価値関数からモデルへ • 目標集合𝒢が状態集合𝒮と同じ場合(𝒢 = 𝒮)を考える • 距離ベース報酬関数を導入する • 割引率𝛾 = 0のとき価値関数は即時報酬に収束 – 𝐷は距離関数なので、𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔 = 0なら𝑠𝑡+1 = 𝑠𝑔を意味する • モデル予測制御の制約条件を変更 𝑟𝑑 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1, 𝑠 𝑔 = −𝐷 𝑠𝑡+1, 𝑠 𝑔 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔 = −𝐷 𝑠𝑡+1, 𝑠 𝑔 𝑎 𝑡 = argmax 𝑎 𝑡:𝑡+𝑇 ෍ 𝑖=𝑡 𝑡+𝑇 𝑟𝑐(𝑠𝑖, 𝑎𝑖) 𝑠𝑖+1 = 𝑓 𝑠𝑖, 𝑎𝑖 , ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1 𝑎 𝑡 = argmax 𝑎 𝑡:𝑡+𝑇,𝑠 𝑡+1:𝑡+𝑇 ෍ 𝑖=𝑡 𝑡+𝑇 𝑟𝑐(𝑠𝑖, 𝑎𝑖) 𝑄 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1 = 0, ∀𝑖 ∈ 𝑡, … , 𝑡 + 𝑇 − 1 この段階では、表現方法が 違うだけで同じことを計算
  • 8. Temporal Difference Modelによる長期予測学習 • 𝛾 > 0の場合、𝑄(𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔) が何を意味するか明確でない • infinite horizon discount rewardではなく、finite horizon total reward で定式化すれば良さそう • 決定論的な状態遷移の場合 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = ቐ −𝐷(𝑠𝑡+1, 𝑠 𝑔) 𝜏 = 0 max 𝑎 𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1 𝜏 ≠ 0 𝑠𝑡 𝑎 𝑡 𝑠𝑡+1 𝑠 𝑔 𝑠𝑡+𝜏+1 ∗ 𝜋∗ 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 状態𝑠𝑡で行動𝑎 𝑡を実行し 状態𝑠𝑡+1に遷移し、以降 𝜏ステップ最適方策𝜋∗ に 従って行動して、𝑠𝑡+𝜏+1 ∗ に遷移する
  • 9. TDMと通常のfinite horizon total rewardの比較 • TDM • Finite horizon total reward 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 ൣ−𝐷 𝑠𝑡+1, 𝑠 𝑔 𝕀 𝜏 = 0 ቉+ max 𝑎 𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1 𝕀 𝜏 ≠ 0 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑡 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 𝑟 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1 + max 𝑎 𝑄 𝑠𝑡+1, 𝑎, 𝑡 + 1
  • 10. 行動の決定 (Model Predictive Control) • 各時刻で以下の制約付き最適化問題を解く – 計算を簡略化するために𝐾ステップごとの評価を用いる – さらに𝐾 = 𝑇として簡略化した場合 𝑎 𝑡 = argmax 𝑎 𝑡:𝐾:𝑡+𝑇,𝑠 𝑡+𝐾:𝐾:𝑡+𝑇 ෍ 𝑖=𝑡,𝑡+𝐾,…,𝑡+𝑇 𝑟𝑐(𝑠𝑖, 𝑎𝑖) s.t. 𝑄 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+𝐾, 𝐾 − 1 = 0 ∀ 𝑖 ∈ 𝑡, 𝑡 + 𝐾, … , 𝑡 + 𝑇 − 𝐾 𝑎 𝑡 = argmax 𝑎 𝑡,𝑎 𝑡+𝑇,𝑠 𝑡+𝑇 𝑟𝑐 𝑠𝑡+𝑇, 𝑎 𝑡+𝑇 s.t. 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+𝑇, 𝑇 − 1 = 0
  • 11. 価値関数を構造化した場合の行動の決定 • 前述の制約付き最適化問題を各時刻で解くのは大変 • 価値関数の表現を限定 – 𝑓をニューラルネットなどで近似する • 制約付き最適化が制約なし最適化問題に帰着 – タスクが目標状態𝑠𝑔に到達するようなケースの場合 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = −𝐷 𝑓 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 , 𝑠 𝑔 𝑄が非負であることを保証 𝑎 𝑡 = argmax 𝑎 𝑡,𝑎 𝑡+𝑇,𝑠 𝑡+𝑇 𝑟𝑐 𝑓 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+𝑇, 𝑇 − 1 , 𝑎 𝑡+𝑇 𝑎 𝑡 = argmax 𝑎 𝑄 𝑠𝑡, 𝑎, 𝑠 𝑔, 𝑇
  • 12.
  • 15.
  • 17. 個人的な意見 • モデルを使ったプランニングを制約条件の形でMPCに導入するの は興味深い • 𝑄(𝑠, 𝑎, 𝑠 𝑔, 𝜏)の学習は大変そうで、結果として正しく学習できてい るのか確認したい • 状態空間上での距離関数𝐷(𝑠, 𝑠 𝑔)と𝑠から𝑠 𝑔に遷移するのに必要な ステップ数は異なるので、最小ステップを学習するような定式化 はどうか 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 𝜏 = 𝔼 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 1 + min 𝑎 𝑄 𝑠𝑡+1, 𝑎, 𝑠 𝑔, 𝜏 − 1 𝑄 𝑠𝑡, 𝑎 𝑡, 𝑠 𝑔, 0 = 𝐷 𝑠𝑡+1, 𝑠 𝑔 or +∞
  • 18. 個人的な意見(続き) • 𝑄(𝑠, 𝑎, 𝑠 𝑔, 𝜏)を学習するネットワークに Dueling構造を導入すればアドバンテージ 関数を使って同じことができそう • 遠い昔に聞いたA*などのプランニングと 強化学習の関連付けとの対応は? 𝑠 𝑞 𝜋(𝑠, 𝑎) 𝑎1 𝑎2 𝑎3 𝑞𝜋(𝑠,𝑎) 𝑠 𝑞 𝜋(𝑠, 𝑎) 𝑣 𝜋(𝑠) 𝐴 𝜋(𝑠, 𝑎) 𝑎1 𝑎2 𝑎3 𝐴𝜋(𝑠,𝑎) 𝑣𝜋(𝑠)
  • 19. References • Andrychowicz, M., …, Abbeel, P., and Zaremba, W. (2017). Hindsight experience replay. NIPS 30. • O'Doherty, J.P., Cockburn, J., and Pauli, W. M. (2017). Learning, Reward, and Decision Making. Annual Review of Psychology, 68:73-100. • Pong*, V., Gu*, S., Dalal, M., and Levine, S. (2018). Temporal Difference Models: Model-Free Deep RL for Model-Based Control. In Proc. of ICLR 2018. • Pong, V. TDM: From Model-Free to Model-Based Deep Reinforcement Learning. BAIR Blog. • 山田照樹. モデル予測制御理論の紹介. SICEセミナー, 2006.