SlideShare a Scribd company logo
1 of 15
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DayDreamer: World Models for Physical Robot Learning
Yuya Ikeda, MatsuoLab B4
書誌情報
 題名
 DayDreamer: World Models for Physical Robot Learning
 著者
 Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University
of California, Berkeley
 会議
 CoRL2022
 URL
 https://arxiv.org/pdf/2206.14176.pdf
2
概要
 実ロボットを用いたタスクをDreamerで直接学習
 実機・オンラインで数時間で学習
 4種類のタスク環境での検証を行なった
 一貫したハイパーパラメータを使用
 主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を検証
 実世界ロボット学習のための枠組みを示した
3
引用
https://danijar.com/project/
daydreamer/
背景
深層学習は大量のデータを用いることで高い精度を実現してきた
ロボット学習の課題・・・実機でのデータ収集コストが非常に高い
→ シミュレータの活用
高速・並列に動かせるのでデータを効率的に集められる
 シミュレータをどのように作成するか
 人が設計したシミュレータを用いる方針
 学習によって獲得したシミュレータを用いる方針
4
背景
 人が設計したシミュレータを利用したデータ収集
 環境・ロボットのモデルをシミュレータで再現しデータを集め学習
 シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real)
 人が設計したシミュレータの課題
 sim-to-realした際に性能が発揮できない場合がある
 realの環境やモデルがsimで正確に再現できていないことに起因
 この環境差はreality gapと呼ばれる
 reality gapに対処する主な工夫
 sim環境をランダム化する (domain randomization)
 汎化性能の向上が期待できる
5 引用 : https://openai.com/blog/solving-rubiks-cube/
背景
 学習によってシミュレータを獲得する方針
 モデルベースRL
 以下を繰り返し行う
・方策に基づき行動し、環境からデータを収集
・データから環境のモデルを学習する
・学習した環境のモデル(世界モデル)から方策を更新
 世界モデルをシミュレータとして利用できるためサンプル
効率が良い
 Model-Based Reinforcement Learning for Atari
 SimPLeと呼ばれるモデルベースRLでAtariをプレイ
 モデルフリーRLと比較して数倍のサンプル効率
6
引用 : Model-Based Reinforcement Learning for Atari
背景
sim-to-real vs モデルベースRL
 sim-to-real
 reality gapが課題
 domain randomizationなどによりある程度解ける
 実機を用いたロボット学習では主流
 モデルベースRL
 正確な世界モデルを学習することが難しい
 成果はAtariなどに限られており、実ロボットへの活用はあまりなかった
→ DayDreamerが登場
7
DayDreamer
 ネットワーク
 DreamerV2
 高いサンプル効率を発揮したモデルベースRLの一種
 アルゴリズムはそのまま使用している
 タスク
 各タスクで同一のパラメータを使用
 A1 Quadruped Walking
 UR5 Multi-Object Visual Pick and Place
 XArm Visual Pick and Place
 Sphero Navigation
8
引用 : https://arxiv.org/pdf/2206.14176.pdf
A1 Quadruped Walking
 タスク詳細
 12DOFの4脚ロボットで歩行を行うタスク
 入力はモータの角度、姿勢、角速度
 アクションは各モータの角度
 初期状態は仰向けになった状態
 報酬
9
Unitree A1
A1 Quadruped Walking
 実装上の工夫
 訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リ
セットを用いない)
 ロボットが転がりやすいようにシェルを3Dプリンタで作成
 結果
 1時間後には前進するように
 10分の追加学習で外乱に耐えるように
 SACは立ち上がることができなかった
10
引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs
引用 : https://arxiv.org/pdf/2206.14176.pdf
UR5 Multi-Object Visual Pick and Place
 タスク詳細
 5DOFのロボットアームで複数物体のpick and placeを行うタスク
 片方の容器からもう片方の容器へ移動させることが目標
 入力はロボットの位置、RGB画像
 アクションはグリッパのx, y, zの変位とグリッパの開閉
 報酬
 物体をつかむと+1
 つかんだ物体を同じ容器内で離してしまうと-1
 つかんだ物体を異なる容器内で離すと+10
 結果
 8時間後に人がテレオペした時に近い性能
 RainbowやPPOは物体をつかんでも同じ容器に落としてしまう
11
引用 : https://arxiv.org/pdf/2206.14176.pdf
XArm Visual Pick and Place
 タスク詳細
 7DOFのロボットアームで単一物体のpick and placeを行うタスク
 片方の容器からもう片方の容器へ移動させることが目標
 紐でロボットアームと物体を接続
 物体が角でスタックしないようにするための工夫
 入力はロボットの位置、RGB画像、Depth画像
 アクション、報酬はUR5の実験と同様
 結果
 10時間後に人がテレオペした時に近い性能
 Rainbowでは学習できなかった
12
引用 : https://arxiv.org/pdf/2206.14176.pdf
XArm Visual Pick and Place
 結果
 照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に
 Dreamerが適応的に学習していることを示している
 ここはあまり意義がわからなかった
 RGBに加えてDepthを入力している影響はどれくらいなのか
 Depthを使っていないUR5の方は照明条件に関する言及はない
13
引用 : https://arxiv.org/pdf/2206.14176.pdf
Sphero Navigation
 タスク詳細
 車輪付きロボットを目標位置までナビゲーションするタスク
 ロボットは左右対称なので観測履歴から方向を推定する必要がある
 入力はRGB画像
 アクションはロボットのトルク
 報酬
 ゴールとのL2距離を負にした値
 結果
 2時間でナビゲーションができるように
 DrQv2でも近い性能を達成
 DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム
14
引用 : https://arxiv.org/pdf/2206.14176.pdf
まとめ・感想
 実世界ロボットを用いたタスクをDreamerで直接学習
 モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能
 Dreamerをそのまま適用してきちんと動作しているのが驚き
 実世界ロボット学習のための枠組みを示した
 実機を使って世界モデルを学習する新しいアプローチ
 人が設計するシミュレータと世界モデルをうまく組み合わせることができるとより高度
なことができそう
 ハードウェアや設定に論文に明示されていないトリックがありそう
 コードが公開されている&A1が利用できるので動かしてみたい
 本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった
15

More Related Content

What's hot

【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action DiffusionDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

What's hot (20)

【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (7)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 

【DL輪読会】DayDreamer: World Models for Physical Robot Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ DayDreamer: World Models for Physical Robot Learning Yuya Ikeda, MatsuoLab B4
  • 2. 書誌情報  題名  DayDreamer: World Models for Physical Robot Learning  著者  Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel University of California, Berkeley  会議  CoRL2022  URL  https://arxiv.org/pdf/2206.14176.pdf 2
  • 3. 概要  実ロボットを用いたタスクをDreamerで直接学習  実機・オンラインで数時間で学習  4種類のタスク環境での検証を行なった  一貫したハイパーパラメータを使用  主要なモデルフリーRLアルゴリズムと比較実験を行い、Dreamerの有効性を検証  実世界ロボット学習のための枠組みを示した 3 引用 https://danijar.com/project/ daydreamer/
  • 5. 背景  人が設計したシミュレータを利用したデータ収集  環境・ロボットのモデルをシミュレータで再現しデータを集め学習  シミュレータ(sim)で学習した方策を実機(real)で利用(sim-to-real)  人が設計したシミュレータの課題  sim-to-realした際に性能が発揮できない場合がある  realの環境やモデルがsimで正確に再現できていないことに起因  この環境差はreality gapと呼ばれる  reality gapに対処する主な工夫  sim環境をランダム化する (domain randomization)  汎化性能の向上が期待できる 5 引用 : https://openai.com/blog/solving-rubiks-cube/
  • 6. 背景  学習によってシミュレータを獲得する方針  モデルベースRL  以下を繰り返し行う ・方策に基づき行動し、環境からデータを収集 ・データから環境のモデルを学習する ・学習した環境のモデル(世界モデル)から方策を更新  世界モデルをシミュレータとして利用できるためサンプル 効率が良い  Model-Based Reinforcement Learning for Atari  SimPLeと呼ばれるモデルベースRLでAtariをプレイ  モデルフリーRLと比較して数倍のサンプル効率 6 引用 : Model-Based Reinforcement Learning for Atari
  • 7. 背景 sim-to-real vs モデルベースRL  sim-to-real  reality gapが課題  domain randomizationなどによりある程度解ける  実機を用いたロボット学習では主流  モデルベースRL  正確な世界モデルを学習することが難しい  成果はAtariなどに限られており、実ロボットへの活用はあまりなかった → DayDreamerが登場 7
  • 8. DayDreamer  ネットワーク  DreamerV2  高いサンプル効率を発揮したモデルベースRLの一種  アルゴリズムはそのまま使用している  タスク  各タスクで同一のパラメータを使用  A1 Quadruped Walking  UR5 Multi-Object Visual Pick and Place  XArm Visual Pick and Place  Sphero Navigation 8 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 9. A1 Quadruped Walking  タスク詳細  12DOFの4脚ロボットで歩行を行うタスク  入力はモータの角度、姿勢、角速度  アクションは各モータの角度  初期状態は仰向けになった状態  報酬 9 Unitree A1
  • 10. A1 Quadruped Walking  実装上の工夫  訓練可能な領域の端に到達したら、ロボットの姿勢を変えず手動で位置を戻す (リ セットを用いない)  ロボットが転がりやすいようにシェルを3Dプリンタで作成  結果  1時間後には前進するように  10分の追加学習で外乱に耐えるように  SACは立ち上がることができなかった 10 引用 : https://www.youtube.com/watch?v=A6Rg0qRwTYs 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 11. UR5 Multi-Object Visual Pick and Place  タスク詳細  5DOFのロボットアームで複数物体のpick and placeを行うタスク  片方の容器からもう片方の容器へ移動させることが目標  入力はロボットの位置、RGB画像  アクションはグリッパのx, y, zの変位とグリッパの開閉  報酬  物体をつかむと+1  つかんだ物体を同じ容器内で離してしまうと-1  つかんだ物体を異なる容器内で離すと+10  結果  8時間後に人がテレオペした時に近い性能  RainbowやPPOは物体をつかんでも同じ容器に落としてしまう 11 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 12. XArm Visual Pick and Place  タスク詳細  7DOFのロボットアームで単一物体のpick and placeを行うタスク  片方の容器からもう片方の容器へ移動させることが目標  紐でロボットアームと物体を接続  物体が角でスタックしないようにするための工夫  入力はロボットの位置、RGB画像、Depth画像  アクション、報酬はUR5の実験と同様  結果  10時間後に人がテレオペした時に近い性能  Rainbowでは学習できなかった 12 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 13. XArm Visual Pick and Place  結果  照明条件が大きく変化した際性能が低下するが、5時間ほどで元の水準に  Dreamerが適応的に学習していることを示している  ここはあまり意義がわからなかった  RGBに加えてDepthを入力している影響はどれくらいなのか  Depthを使っていないUR5の方は照明条件に関する言及はない 13 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 14. Sphero Navigation  タスク詳細  車輪付きロボットを目標位置までナビゲーションするタスク  ロボットは左右対称なので観測履歴から方向を推定する必要がある  入力はRGB画像  アクションはロボットのトルク  報酬  ゴールとのL2距離を負にした値  結果  2時間でナビゲーションができるように  DrQv2でも近い性能を達成  DrQv2 : 画像ベース連続値制御モデルフリーRLアルゴリズム 14 引用 : https://arxiv.org/pdf/2206.14176.pdf
  • 15. まとめ・感想  実世界ロボットを用いたタスクをDreamerで直接学習  モデルベースRLを用いることで低時間(〜10h)で実機のみで学習が可能  Dreamerをそのまま適用してきちんと動作しているのが驚き  実世界ロボット学習のための枠組みを示した  実機を使って世界モデルを学習する新しいアプローチ  人が設計するシミュレータと世界モデルをうまく組み合わせることができるとより高度 なことができそう  ハードウェアや設定に論文に明示されていないトリックがありそう  コードが公開されている&A1が利用できるので動かしてみたい  本当は輪読会までに動かしたいと思っていたが準備が間に合わなかった 15