1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Hindsight	Experience	Replay
Fujiki	Nakamura
書誌情報	
•  NIPS 2017
•  Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong,
Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba
–  OpenAI
•  強化学習 (RL) の大きな課題の1つ “疎な報酬” にいかに対処するかを扱った論文
•  Pieter Abbeel 先生の NIPS 2017 Keynote で言及
–  Keynote address by Pieter Abbeel "Deep Learning for Robotics”
–  Slides
•  本スライドについて
–  図表は特別な言及がない限りは本論文から引用
2
TL;DR	
•  要するにこういうことです (Keynote by Pieter Abbeel @ NIPS 2017)
–  チェリー (RL での教師信号) が少ないなら、増やせばいいのでは?🍰
3
背景	
•  Neural Net を使った Reinforcement Learning (RL) は Atari から 囲碁 さらには
ロボット まで幅広い成功をおさめてきたが..
•  報酬関数をうまく設計することが課題
–  ドメイン特有の知識が必要
→ 作り込まれていない報酬でもうまく学習するアルゴリズムが望まれる
(特に タスクの達成時に発生しそれ以外では発生しないような二値の報酬)
•  人間の学習と現行の model-free RL アルゴリズムとの違い
–  望ましい結果が得られなかった一連の行動からも、人間は学習することができる
–  例えば、アイスホッケーの練習時、ゴールの右側にシュートを外した時
–  今回のゴールでは意味のなかった動きだった。でも、ゴールがもう少し右の方にあったら意
味があったかもしれない😌
→ 初期のゴールとは異なるゴールを設定
4
提案 Hindsight Experience Replay	
•  hindsight とは “あと知恵” のこと
•  直感的には、特にタスクを達成しなかった場合において、一連の行動が有意味であり得
たゴールを後から設定し学習に含める
–  例えば、最初に設定したゴールとは別に、各エピソードの最終状態を後からゴールだったことにしてし
まう	
5[source]	Pieter	Abbeel s	keynote
アルゴリズム	
6
実験	
7
•  Supplementary video
実験	
8
•  Goal	
–  オブジェクトが目的の位置から一定の範囲内にあること	
•  Reward	
–  goal が達成されていなければ -1, 達成されていれば 0	
•  Observation	
–  gripper の位置, オブジェクトの相対位置, ターゲットのオブジェクトの位置に対する相対位置, finger 間の距離, gripper/
finger の速度, オブジェクトの速度/角速度 (相対位置は基本的に gripper からの相対位置)	
•  Action	
–  次タイムステップでの gripper の相対位置 + finger 間の距離	
Pushing
Sliding
Pick-and-place
実験結果	
•  HER はパフォーマンスを改善した
–  hindsight replay のゴールには各エピソードの最終状態を採用 (final ストラテジー)
9
実験結果 Reward shaping するとどうなる?	
•  オブジェクトとゴール位置の距離という形で報酬関数を設計
–  結果はむしろわるい
–  考えられる理由としては、agent が不適切な行動をとる (e.g. オブジェクトを間違った方向に動かす等)
ことを罰し、探索が妨げられたのではないか。
10
実験結果 hindsight のゴールをどう決めるか?	
•  future
–  同一エピソード内の将来の
状態からランダムな k 個の
状態を抽出し replay
•  episode
–  同一エピソード内の k 個の
ランダムな状態で replay
•  random
–  過去の訓練全体の中の k
個のランダムな状態で
replay
11
実験結果 実ロボットへの応用	
12
•  シミュレータで訓練した pick-and-place の policy を実ロボットに応用
–  fine-tuning 等はなし
–  ボックスの位置は、別の CNN が生画像から予測した結果が渡される。
•  最初は 2/5 の成功率
–  ボックスの位置推定での微小な誤差に対してロバストでなかった
–  ノイズを加えて再学習したら、5/5 で pick-and-place に成功した
まとめ	
13
•  疎な二値の報酬に対して RL アルゴリズムがうまく適用できるような手法を提案
–  Hindsight Experience Replay
–  任意の off-policy RL アルゴリズムと組み合わせ可能 (DQN, DDPG, ..)
•  HER は push, slide, pick-and-place を首尾よく学習できた
–  vanilla RL アルゴリズムでは不可能
–  pick-and-place では、実ロボットへも首尾よく応用できた
•  疎な二値報酬で複雑な行動を学習できたのはこれが初 (筆者調べ)
参考	
14
•  Pieter Abbeel keynote @ NIPS 2017
–  動画
•  https://www.facebook.com/nipsfoundation/videos/1554594181298482/
–  スライド
•  https://www.dropbox.com/s/fdw7q8mx3x4wr0c/2017_12_xx_NIPS-keynote-final.pdf?dl=0
•  Supplementary video
–  https://sites.google.com/site/hindsightexperiencereplay/

[DL輪読会]Hindsight Experience Replay

  • 1.
    1 DEEP LEARNING JP [DLPapers] http://deeplearning.jp/ Hindsight Experience Replay Fujiki Nakamura
  • 2.
    書誌情報 •  NIPS 2017 • Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba –  OpenAI •  強化学習 (RL) の大きな課題の1つ “疎な報酬” にいかに対処するかを扱った論文 •  Pieter Abbeel 先生の NIPS 2017 Keynote で言及 –  Keynote address by Pieter Abbeel "Deep Learning for Robotics” –  Slides •  本スライドについて –  図表は特別な言及がない限りは本論文から引用 2
  • 3.
    TL;DR •  要するにこういうことです (Keynoteby Pieter Abbeel @ NIPS 2017) –  チェリー (RL での教師信号) が少ないなら、増やせばいいのでは?🍰 3
  • 4.
    背景 •  Neural Netを使った Reinforcement Learning (RL) は Atari から 囲碁 さらには ロボット まで幅広い成功をおさめてきたが.. •  報酬関数をうまく設計することが課題 –  ドメイン特有の知識が必要 → 作り込まれていない報酬でもうまく学習するアルゴリズムが望まれる (特に タスクの達成時に発生しそれ以外では発生しないような二値の報酬) •  人間の学習と現行の model-free RL アルゴリズムとの違い –  望ましい結果が得られなかった一連の行動からも、人間は学習することができる –  例えば、アイスホッケーの練習時、ゴールの右側にシュートを外した時 –  今回のゴールでは意味のなかった動きだった。でも、ゴールがもう少し右の方にあったら意 味があったかもしれない😌 → 初期のゴールとは異なるゴールを設定 4
  • 5.
    提案 Hindsight ExperienceReplay •  hindsight とは “あと知恵” のこと •  直感的には、特にタスクを達成しなかった場合において、一連の行動が有意味であり得 たゴールを後から設定し学習に含める –  例えば、最初に設定したゴールとは別に、各エピソードの最終状態を後からゴールだったことにしてし まう 5[source] Pieter Abbeel s keynote
  • 6.
  • 7.
  • 8.
    実験 8 •  Goal –  オブジェクトが目的の位置から一定の範囲内にあること • Reward –  goal が達成されていなければ -1, 達成されていれば 0 •  Observation –  gripper の位置, オブジェクトの相対位置, ターゲットのオブジェクトの位置に対する相対位置, finger 間の距離, gripper/ finger の速度, オブジェクトの速度/角速度 (相対位置は基本的に gripper からの相対位置) •  Action –  次タイムステップでの gripper の相対位置 + finger 間の距離 Pushing Sliding Pick-and-place
  • 9.
    実験結果 •  HER はパフォーマンスを改善した – hindsight replay のゴールには各エピソードの最終状態を採用 (final ストラテジー) 9
  • 10.
    実験結果 Reward shapingするとどうなる? •  オブジェクトとゴール位置の距離という形で報酬関数を設計 –  結果はむしろわるい –  考えられる理由としては、agent が不適切な行動をとる (e.g. オブジェクトを間違った方向に動かす等) ことを罰し、探索が妨げられたのではないか。 10
  • 11.
    実験結果 hindsight のゴールをどう決めるか? • future –  同一エピソード内の将来の 状態からランダムな k 個の 状態を抽出し replay •  episode –  同一エピソード内の k 個の ランダムな状態で replay •  random –  過去の訓練全体の中の k 個のランダムな状態で replay 11
  • 12.
    実験結果 実ロボットへの応用 12 •  シミュレータで訓練したpick-and-place の policy を実ロボットに応用 –  fine-tuning 等はなし –  ボックスの位置は、別の CNN が生画像から予測した結果が渡される。 •  最初は 2/5 の成功率 –  ボックスの位置推定での微小な誤差に対してロバストでなかった –  ノイズを加えて再学習したら、5/5 で pick-and-place に成功した
  • 13.
    まとめ 13 •  疎な二値の報酬に対して RLアルゴリズムがうまく適用できるような手法を提案 –  Hindsight Experience Replay –  任意の off-policy RL アルゴリズムと組み合わせ可能 (DQN, DDPG, ..) •  HER は push, slide, pick-and-place を首尾よく学習できた –  vanilla RL アルゴリズムでは不可能 –  pick-and-place では、実ロボットへも首尾よく応用できた •  疎な二値報酬で複雑な行動を学習できたのはこれが初 (筆者調べ)
  • 14.
    参考 14 •  Pieter Abbeelkeynote @ NIPS 2017 –  動画 •  https://www.facebook.com/nipsfoundation/videos/1554594181298482/ –  スライド •  https://www.dropbox.com/s/fdw7q8mx3x4wr0c/2017_12_xx_NIPS-keynote-final.pdf?dl=0 •  Supplementary video –  https://sites.google.com/site/hindsightexperiencereplay/