Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Deep Learning JP
PPTX, PDF
4,493 views
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
2018/12/21 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
◦
Related topics:
Deep Learning
•
Read more
16
Save
Share
Embed
Embed presentation
Download
Downloaded 73 times
1
/ 25
2
/ 25
3
/ 25
4
/ 25
5
/ 25
6
/ 25
7
/ 25
8
/ 25
9
/ 25
10
/ 25
11
/ 25
12
/ 25
13
/ 25
14
/ 25
Most read
15
/ 25
Most read
16
/ 25
Most read
17
/ 25
18
/ 25
19
/ 25
20
/ 25
21
/ 25
22
/ 25
23
/ 25
24
/ 25
25
/ 25
More Related Content
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
PPTX
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
by
Deep Learning JP
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
by
Deep Learning JP
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
PPTX
[DL輪読会]World Models
by
Deep Learning JP
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
by
Deep Learning JP
PDF
「世界モデル」と関連研究について
by
Masahiro Suzuki
PPTX
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
by
Shunichi Sekiguchi
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
by
Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について
by
Deep Learning JP
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
[DL輪読会]World Models
by
Deep Learning JP
【DL輪読会】A Path Towards Autonomous Machine Intelligence
by
Deep Learning JP
「世界モデル」と関連研究について
by
Masahiro Suzuki
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
by
Shunichi Sekiguchi
What's hot
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
by
Deep Learning JP
PPTX
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
by
Deep Learning JP
PPTX
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
by
Deep Learning JP
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
by
Deep Learning JP
PDF
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
PDF
自己教師学習(Self-Supervised Learning)
by
cvpaper. challenge
PDF
深層生成モデルと世界モデル
by
Masahiro Suzuki
PDF
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
PDF
強化学習その3
by
nishio
PPTX
[DL輪読会]When Does Label Smoothing Help?
by
Deep Learning JP
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
by
Deep Learning JP
PDF
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
PDF
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
by
Deep Learning JP
PDF
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
by
Deep Learning JP
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
by
Deep Learning JP
PDF
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
by
Deep Learning JP
PPTX
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
PDF
[DL輪読会]近年のエネルギーベースモデルの進展
by
Deep Learning JP
【DL輪読会】Transformers are Sample Efficient World Models
by
Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
by
Deep Learning JP
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
by
Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
by
Deep Learning JP
【メタサーベイ】数式ドリブン教師あり学習
by
cvpaper. challenge
自己教師学習(Self-Supervised Learning)
by
cvpaper. challenge
深層生成モデルと世界モデル
by
Masahiro Suzuki
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
強化学習その3
by
nishio
[DL輪読会]When Does Label Smoothing Help?
by
Deep Learning JP
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
by
Deep Learning JP
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
by
Deep Learning JP
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
by
Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
by
Deep Learning JP
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
by
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
by
Deep Learning JP
[DL輪読会]近年のエネルギーベースモデルの進展
by
Deep Learning JP
Similar to [DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
[DL輪読会]Temporal Abstraction in NeurIPS2019
by
Deep Learning JP
PPTX
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
by
Deep Learning JP
PPTX
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
PDF
生成モデルの Deep Learning
by
Seiya Tokui
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
by
Deep Learning JP
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
by
Deep Learning JP
PPTX
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
by
Deep Learning JP
PPTX
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
by
Deep Learning JP
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
by
Deep Learning JP
PDF
Deep learning勉強会20121214ochi
by
Ohsawa Goodfellow
PDF
[DL輪読会]AlphaStarとその関連技術
by
Deep Learning JP
PDF
RLアーキテクチャ勉強会 MERLIN
by
YumaKajihara
PDF
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
by
MILab
PDF
[DL輪読会]Learning to Act by Predicting the Future
by
Deep Learning JP
PDF
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
PDF
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
by
Takuya Minagawa
PDF
Deeplearning lt.pdf
by
Deep Learning JP
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
by
Yusuke Iwasawa
PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
by
Deep Learning JP
PPTX
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
by
Deep Learning JP
[DL輪読会]Temporal Abstraction in NeurIPS2019
by
Deep Learning JP
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
by
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
by
Deep Learning JP
生成モデルの Deep Learning
by
Seiya Tokui
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
by
Deep Learning JP
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
by
Deep Learning JP
[DL輪読会]Peeking into the Future: Predicting Future Person Activities and Locat...
by
Deep Learning JP
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
by
Deep Learning JP
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
by
Deep Learning JP
Deep learning勉強会20121214ochi
by
Ohsawa Goodfellow
[DL輪読会]AlphaStarとその関連技術
by
Deep Learning JP
RLアーキテクチャ勉強会 MERLIN
by
YumaKajihara
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
by
MILab
[DL輪読会]Learning to Act by Predicting the Future
by
Deep Learning JP
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
by
Takuya Minagawa
Deeplearning lt.pdf
by
Deep Learning JP
"Universal Planning Networks" and "Composable Planning with Attributes"
by
Yusuke Iwasawa
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
by
Deep Learning JP
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
by
Deep Learning JP
More from Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Learning Latent Dynamics for Planning from Pixels ShoheiTaniguchi, Matsuo Lab
2.
書誌情報 Learning Latent Dynamics
for Planning from Pixels Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, James Davidson • 2018年11月12日にarXivに投稿された論文 • 著者はGoogle Brain, DeepMind, Google Research 選定理由 • 状態表現学習への興味 • 最近自分が考えていたことに近い気がした • (hardmaruがツイートしていて気になった) 2
3.
アウトライン 1. 背景知識 – 状態表現学習 –
モデルベースの難点 2. 提案手法 – 潜在空間上でのプランニング – 再帰的な状態空間モデル – 複数ステップ先の予測モデル 3. 実験 4. まとめ 3
4.
状態表現学習 • 強化学習においてエージェントの観測と行動の系列から、各タイムステップ におけるエージェントの状態の抽象表現(状態表現)を学習する枠組みのこ と • モデルベース強化学習の文脈で用いられる用語 •
詳しくはこのレビュー論文と解説スライドを参照 State Representation Learning for Control: An Overview https://arxiv.org/abs/1802.04181 [DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の 獲得に向けて- https://www.slideshare.net/DeepLearningJP2016/dl-124128933 4
5.
状態表現学習 なぜ状態表現学習が大事なのか • モデルフリーの深層強化学習は多くの分野で成功 e.g. 囲碁,
将棋, ゲームAI (Atariなど), etc. • 実世界に適応可能なエージェントの実現には未だ多くの課題 ① サンプル効率 • 学習に膨大なサンプルを要するが実世界で集められるサンプルには限りがある ② 汎化 • 別のタスクへの転移ができない(タスクへの汎化) • 環境が変化すると全く機能しない(環境への汎化) • 環境のダイナミクスを含んだ状態表現学習とプランニングを分けて考える モデルベースが今後重要 – 状態表現は他タスクにおいても有用な表現であるため、容易に転移可能 – 状態表現をメタ学習できれば環境の変化にもfew shotに適応できるはず 5
6.
状態表現学習 いい状態表現とは ([Böhmer et
al., 2015] の定義) ① マルコフ性 – 現在の状態と行動のみから次の状態が予測できるほど圧縮された表現 – マルコフ決定過程を仮定したRLアルゴリズムとの相性が良い ② 方策 (policy) の改善に使える ③ 未知だが似た特徴をもつ状態に対して汎化する ④ 低次元 6
7.
モデルベースの難点 1. モデルの学習のミスがプランニングに大きな影響を及ぼす – 基本的にモデルが環境の全てを学習しきることは不可能 –
しかし、プランニング側はモデルがミスをしていたら対処する術がない 2. モデルの学習のためのデータをどう集めるか – [Ha et al., 2018]のWorld modelsのようにランダムポリシーで環境を適当に探索させ ることもできるが、効率的ではない 3. モデルの学習においてタスクを解くために必要な知識が状態表現から欠 落してしまう可能性がある – これについては、モデルの学習に報酬情報を含めることで解決できるが、逆にその 場合は他タスクへの転移が難しくなる 7
8.
アウトライン 1. 背景知識 – 状態表現学習 –
モデルベースの難点 2. 提案手法 – 潜在空間上でのプランニング – 再帰的な状態空間モデル – 複数ステップ先の予測モデル 3. 実験 4. まとめ 8
9.
提案手法 Deep Planning Network
(PlaNet) ① 潜在空間上でのプランニング – ダイナミクス(状態表現)のモデルの学習のためのデータの収集を潜在空間上での プランニングを用いてオンラインで行なった – 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し、D4PGとほぼ同 等のスコアを達成 ② 再帰的な状態空間モデル – 状態表現の不確実性を考慮しつつ、長い系列情報を失うことなく良い表現を獲得す るためのモデルを提案 ③ 複数ステップ先の予測モデル – 通常のダイナミクスモデルは1ステップ先の予測のみを考慮するが、任意ステップ先 の予測 (overshooting)を考慮した状態表現学習を行う 9
10.
潜在空間上でのプランニング • ダイナミクスモデルの学習とそのためのデータの収集を交互に行う • データの収集の際、エージェントはモデルの潜在空間上でのプランニングで得られる方 策を用いて探索する •
プランニングの学習にはCross Entropy Method (CEM) を使用 10 モデルの学習 データの収集 プランニングの学習
11.
アウトライン 1. 背景知識 – 状態表現学習 –
モデルベースの難点 2. 提案手法 – 潜在空間上でのプランニング – 再帰的な状態空間モデル – 複数ステップ先の予測モデル 3. 実験 4. まとめ 11
12.
再帰的な状態空間モデル プランニングのための良い状態表現の要素として以下の2つを主張 ① 不確実性を考慮している – 完全観測でない限り、エージェントの状態は常に不確実性を含んでいる –
決定論的なモデルでは不十分 ② 長期の系列情報を保持している – 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい これらを包括したRecurrent state-space model (RSSM) を提案 12
13.
再帰的な状態空間モデル 13 比較手法 提案手法
14.
再帰的な状態空間モデル RSSMのアーキテクチャ • 細かいアーキテクチャについては論文内に記述がないが、おそらく以下の ような形 • SSMではDeterministic
RNNがなく、InferenceとPriorに𝑠𝑡−1と𝑎 𝑡−1が直接入 る 14 𝑠𝑡, ℎ 𝑡 𝑜𝑡, 𝑟𝑡𝑜𝑡, 𝑟𝑡, ℎ 𝑡 Generation 𝑝(𝑜𝑡|𝑠𝑡) Inference 𝑞(𝑠𝑡|𝑜𝑡, ℎ 𝑡) Prior 𝑞(𝑠𝑡|ℎ 𝑡) 𝑠𝑡 KL ℎ 𝑡 Deterministic RNN 𝑓(ℎ 𝑡−1, 𝑠𝑡−1, 𝑎 𝑡−1) ℎ 𝑡−1 𝑠𝑡−1 𝑎 𝑡−1
15.
再帰的な状態空間モデル 確率的な潜在表現のモデリングにはVAEを使用 15 SSMの変分下限
16.
再帰的な状態空間モデル 疑問点 • 論文内では提案手法 (RSSM)
も前頁の変分下限で学習できるとしているが、 明らかに違う気がする(なぜhを完全に無視しているのかわからない) – おそらく正しい下限は↓ ln 𝑝(𝑜1:𝑇, |𝑎1:𝑇) ≥ E 𝑝 ℎ1:𝑇, 𝑠1:𝑇, 𝑎1:𝑇 𝑡=1 𝑇 E 𝑞 𝑠 𝑡 ln 𝑝 𝑜𝑡, 𝑠𝑡, ℎ 𝑡 − DKL[𝑞(𝑠𝑡)||𝑝(𝑠𝑡|ℎ 𝑡)] – 期待値はモンテカルロ近似するので実装上は確かに変わらない • SSMのマルコフ性を壊しているのでそもそも良いモデルなのか疑問 ここでは一旦この辺りは気にしないことにして進めます 16
17.
アウトライン 1. 背景知識 – 状態表現学習 –
モデルベースの難点 2. 提案手法 – 潜在空間上でのプランニング – 再帰的な状態空間モデル – 複数ステップ先の予測モデル 3. 実験 4. まとめ 17
18.
複数ステップ先の予測モデル • p13の変分下限は1ステップ先の予測のみに基づいて導かれている • もしモデルが完璧に学習できているとすれば、それを用いて複数ステップ先 の予測もできるので問題ない e.g.
𝑝 𝑠𝑡+2 𝑠𝑡, 𝑎 𝑡, 𝑎 𝑡+1 = 𝑝 𝑠𝑡+2 𝑠𝑡+1, 𝑎 𝑡+1 𝑝 𝑠𝑡+1 𝑠𝑡, 𝑎 𝑡 𝑑𝑠𝑡+1 • しかし、現実にはモデルが環境を完全に学習しきることはあり得ない • そこで以下のような下限を考えてdステップ先の予測 (overshooting) を学習 させる 18
19.
複数ステップ先の予測モデル • 前頁の下限はdステップ先のみを考えているが、これを任意のステップ先の 予測に拡張して、以下の下限を目的関数として採用する (ただし、𝛽 𝑑
はハイパラ) 19
20.
アウトライン 1. 背景知識 – 状態表現学習 –
モデルベースの難点 2. 提案手法 – 潜在空間上でのプランニング – 再帰的な状態空間モデル – 複数ステップ先の予測モデル 3. 実験 4. まとめ 20
21.
実験 DeepMind control suiteの4つのタスクで実験 •
結果はモデル間 (RNN, SSM, RSSM) の比較と、overshootingの有無での比 較を行なっている • 2つのモデルフリーの手法 (A3C, D4PG) との比較も行なっている 21
22.
実験結果 22 https://www.youtube.com/watch?v=TeUceNCmq34
23.
実験結果 Overshootingの有無 長期の予測が重要なWalker Walkで顕著な差がついている 23
24.
実験結果 モデル比較 Cheetah Runでは提案手法がD4PGを上回る結果に 24
25.
まとめ • モデルベース強化学習のフレームワークとして3つの新規性を持つ手法を 提案 ① モデルの学習とデータ収集・プランニングをオンラインで行う手法を提案し、サンプ ル効率を向上 ②
状態表現の不確実性を考慮し、かつ長い系列情報をうまく圧縮するためのVAE ベースのダイナミクスモデルを提案 ③ モデルの学習において複数ステップ先の予測モデルを考慮させることで、モデルの 不完全性による長期の予測での誤差の蓄積を避けることを実現 • 提案手法は強力なモデルフリーの手法に匹敵するスコアを記録 感想 • overshootingは面白いがハイパラ増えるしどうなんだろうという感想 • モデルが完全に学習しきらないことをどう考慮するかは今後のトピックの1 つになりそう 25
Download