Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Deep Learning JP
PDF, PPTX
3,045 views
[DL輪読会]Hindsight Experience Replay
2018/1/5 Deep Learning JP: http://deeplearning.jp/seminar-2/
Technology
◦
Related topics:
Deep Learning
•
Read more
8
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 14
2
/ 14
3
/ 14
4
/ 14
5
/ 14
6
/ 14
7
/ 14
8
/ 14
9
/ 14
10
/ 14
11
/ 14
12
/ 14
13
/ 14
14
/ 14
More Related Content
PDF
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
PDF
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
PPTX
画像キャプションの自動生成
by
Yoshitaka Ushiku
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
PPTX
近年のHierarchical Vision Transformer
by
Yusuke Uchida
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
by
hoxo_m
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
by
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
by
Deep Learning JP
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
画像キャプションの自動生成
by
Yoshitaka Ushiku
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
by
Deep Learning JP
近年のHierarchical Vision Transformer
by
Yusuke Uchida
トピックモデルの評価指標 Perplexity とは何なのか?
by
hoxo_m
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
by
Deep Learning JP
What's hot
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
PPTX
2014 3 13(テンソル分解の基礎)
by
Tatsuya Yokota
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
PDF
Optimizer入門&最新動向
by
Motokawa Tetsuya
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
PPTX
[DL輪読会]MetaFormer is Actually What You Need for Vision
by
Deep Learning JP
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
PDF
Attentionの基礎からTransformerの入門まで
by
AGIRobots
PDF
点群SegmentationのためのTransformerサーベイ
by
Takuya Minagawa
PDF
PRML学習者から入る深層生成モデル入門
by
tmtm otm
PDF
coordinate descent 法について
by
京都大学大学院情報学研究科数理工学専攻
PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
by
Deep Learning JP
PDF
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
PDF
【メタサーベイ】Vision and Language のトップ研究室/研究者
by
cvpaper. challenge
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
by
Deep Learning JP
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
by
Deep Learning JP
2014 3 13(テンソル分解の基礎)
by
Tatsuya Yokota
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
by
SSII
Optimizer入門&最新動向
by
Motokawa Tetsuya
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
[DL輪読会]MetaFormer is Actually What You Need for Vision
by
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
by
Deep Learning JP
Attentionの基礎からTransformerの入門まで
by
AGIRobots
点群SegmentationのためのTransformerサーベイ
by
Takuya Minagawa
PRML学習者から入る深層生成モデル入門
by
tmtm otm
coordinate descent 法について
by
京都大学大学院情報学研究科数理工学専攻
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
by
SSII
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
by
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
by
Deep Learning JP
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
by
SSII
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
by
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
【メタサーベイ】Vision and Language のトップ研究室/研究者
by
cvpaper. challenge
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
by
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
by
tmtm otm
Similar to [DL輪読会]Hindsight Experience Replay
PDF
Hindsight experience replay
by
KCS Keio Computer Society
PDF
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
by
Jun Okumura
PDF
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
PDF
Learning to Navigate in Complex Environments 輪読
by
Tatsuya Matsushima
PDF
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
by
佑 甲野
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
by
Deep Learning JP
PDF
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
by
佑 甲野
PDF
Deeplearning lt.pdf
by
Deep Learning JP
PDF
dl-with-python01_handout
by
Shin Asakawa
PDF
【DL輪読会】GPT-4Technical Report
by
Deep Learning JP
PPTX
Start Deep Reinforcement Learning with RL4J
by
Yuki Tagami
PPTX
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
by
Yosuke Shinya
PPTX
Nvidia Inception Connect Tokyo - Manufacturing Visual Inspection and Deep Lea...
by
Rist Inc.
PDF
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
by
KIT Cognitive Interaction Design
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
by
Deep Learning JP
Hindsight experience replay
by
KCS Keio Computer Society
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
by
Jun Okumura
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
Learning to Navigate in Complex Environments 輪読
by
Tatsuya Matsushima
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
by
佑 甲野
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
by
Deep Learning JP
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
by
佑 甲野
Deeplearning lt.pdf
by
Deep Learning JP
dl-with-python01_handout
by
Shin Asakawa
【DL輪読会】GPT-4Technical Report
by
Deep Learning JP
Start Deep Reinforcement Learning with RL4J
by
Yuki Tagami
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
by
Yosuke Shinya
Nvidia Inception Connect Tokyo - Manufacturing Visual Inspection and Deep Lea...
by
Rist Inc.
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
by
KIT Cognitive Interaction Design
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
by
Deep Learning JP
More from Deep Learning JP
PPTX
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
by
Deep Learning JP
【DL輪読会】事前学習用データセットについて
by
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
by
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
by
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
by
Deep Learning JP
【DL輪読会】マルチモーダル LLM
by
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
by
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
by
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
by
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
by
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
by
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
by
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
by
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
by
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
by
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
by
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
by
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
by
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
by
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
by
Deep Learning JP
[DL輪読会]Hindsight Experience Replay
1.
1 DEEP LEARNING JP [DL
Papers] http://deeplearning.jp/ Hindsight Experience Replay Fujiki Nakamura
2.
書誌情報 • NIPS 2017 •
Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba – OpenAI • 強化学習 (RL) の大きな課題の1つ “疎な報酬” にいかに対処するかを扱った論文 • Pieter Abbeel 先生の NIPS 2017 Keynote で言及 – Keynote address by Pieter Abbeel "Deep Learning for Robotics” – Slides • 本スライドについて – 図表は特別な言及がない限りは本論文から引用 2
3.
TL;DR • 要するにこういうことです (Keynote
by Pieter Abbeel @ NIPS 2017) – チェリー (RL での教師信号) が少ないなら、増やせばいいのでは?🍰 3
4.
背景 • Neural Net
を使った Reinforcement Learning (RL) は Atari から 囲碁 さらには ロボット まで幅広い成功をおさめてきたが.. • 報酬関数をうまく設計することが課題 – ドメイン特有の知識が必要 → 作り込まれていない報酬でもうまく学習するアルゴリズムが望まれる (特に タスクの達成時に発生しそれ以外では発生しないような二値の報酬) • 人間の学習と現行の model-free RL アルゴリズムとの違い – 望ましい結果が得られなかった一連の行動からも、人間は学習することができる – 例えば、アイスホッケーの練習時、ゴールの右側にシュートを外した時 – 今回のゴールでは意味のなかった動きだった。でも、ゴールがもう少し右の方にあったら意 味があったかもしれない😌 → 初期のゴールとは異なるゴールを設定 4
5.
提案 Hindsight Experience
Replay • hindsight とは “あと知恵” のこと • 直感的には、特にタスクを達成しなかった場合において、一連の行動が有意味であり得 たゴールを後から設定し学習に含める – 例えば、最初に設定したゴールとは別に、各エピソードの最終状態を後からゴールだったことにしてし まう 5[source] Pieter Abbeel s keynote
6.
アルゴリズム 6
7.
実験 7 • Supplementary video
8.
実験 8 • Goal – オブジェクトが目的の位置から一定の範囲内にあること •
Reward – goal が達成されていなければ -1, 達成されていれば 0 • Observation – gripper の位置, オブジェクトの相対位置, ターゲットのオブジェクトの位置に対する相対位置, finger 間の距離, gripper/ finger の速度, オブジェクトの速度/角速度 (相対位置は基本的に gripper からの相対位置) • Action – 次タイムステップでの gripper の相対位置 + finger 間の距離 Pushing Sliding Pick-and-place
9.
実験結果 • HER はパフォーマンスを改善した –
hindsight replay のゴールには各エピソードの最終状態を採用 (final ストラテジー) 9
10.
実験結果 Reward shaping
するとどうなる? • オブジェクトとゴール位置の距離という形で報酬関数を設計 – 結果はむしろわるい – 考えられる理由としては、agent が不適切な行動をとる (e.g. オブジェクトを間違った方向に動かす等) ことを罰し、探索が妨げられたのではないか。 10
11.
実験結果 hindsight のゴールをどう決めるか? •
future – 同一エピソード内の将来の 状態からランダムな k 個の 状態を抽出し replay • episode – 同一エピソード内の k 個の ランダムな状態で replay • random – 過去の訓練全体の中の k 個のランダムな状態で replay 11
12.
実験結果 実ロボットへの応用 12 • シミュレータで訓練した
pick-and-place の policy を実ロボットに応用 – fine-tuning 等はなし – ボックスの位置は、別の CNN が生画像から予測した結果が渡される。 • 最初は 2/5 の成功率 – ボックスの位置推定での微小な誤差に対してロバストでなかった – ノイズを加えて再学習したら、5/5 で pick-and-place に成功した
13.
まとめ 13 • 疎な二値の報酬に対して RL
アルゴリズムがうまく適用できるような手法を提案 – Hindsight Experience Replay – 任意の off-policy RL アルゴリズムと組み合わせ可能 (DQN, DDPG, ..) • HER は push, slide, pick-and-place を首尾よく学習できた – vanilla RL アルゴリズムでは不可能 – pick-and-place では、実ロボットへも首尾よく応用できた • 疎な二値報酬で複雑な行動を学習できたのはこれが初 (筆者調べ)
14.
参考 14 • Pieter Abbeel
keynote @ NIPS 2017 – 動画 • https://www.facebook.com/nipsfoundation/videos/1554594181298482/ – スライド • https://www.dropbox.com/s/fdw7q8mx3x4wr0c/2017_12_xx_NIPS-keynote-final.pdf?dl=0 • Supplementary video – https://sites.google.com/site/hindsightexperiencereplay/
Download