SlideShare a Scribd company logo
1 of 56
Tomoaki Ando
Learning Dexterity
目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
2
手の領域の現状
他領域と比べると、手の領域の進展・実用化はこれから
3手の領域の現状とタスク概要
歩行・ダッシュ 画像認識 手の操作
本論文のタスク
現実のロボットで、
指定された向きにキューブを回転させるタスク
終了条件
・50回成功
・途中で落とす
・1回に80秒かかる
4手の領域の現状とタスク概要
目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
5
現状の課題
現実のロボットで機能するためには、
以下を考慮したシミュレーション学習が必要である
1. 高次元制御
2. 断片的な情報下での操作
3. 物理的性質
6現状の課題
高次元制御
「手」は自由度が他より高いため制御が複雑
7現状の課題
24 自由度( Shadow Dexterous Hand ) 7 自由度( Sawyer Robot )
断片的な情報下での操作
以下の制約により、断片情報での操作が求められる
・タッチセンサーのノイズや遅延
・他の指やキューブが重なることによるセンサーの遮り
8現状の課題
物理的性質
物理的性質は直接観測ができないため、推論の必要がある
9現状の課題
減衰摩擦
目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
10
本論文のアプローチ
現状の課題に対し、以下のアプローチを用いている
1. Domain Randomization(DR)の使用
2. カメラとCNN(Vision)による向きの推定
3. LSTMによるメモリー保持
11本論文のアプローチ
Domain Randomizationの使用
物理パラメータ・見た目をランダムにサンプリングすることで、
汎化性を高める
12本論文のアプローチ
Visionによる向きの推定 (1/2)
3つのカメラで撮影し、CNNでキューブの向きを推定する
性能比較として、Motion trackingのセンサーを用いる
13本論文のアプローチ
VisionPhaseSpace Motion Capture
Visionによる向きの推定 (2/2)
手のタッチセンサーを使用せず、Motion Trackingを使用
14本論文のアプローチ
×
Shadow Dexterous Hand
LSTMによるメモリー保持
時系列データに強いLSTMを使用することで、
過去の状態を考慮した推論・対応が可能
15本論文のアプローチ
全体図
3つのアプローチをまとめると以下になる
16本論文のアプローチ
目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
17
本論文のアプローチ(再掲)
現状の課題に対し、以下のアプローチを用いている
1. Domain Randomization(DR)の使用
2. カメラとCNN(Vision)による向きの推定
3. LSTMによるメモリー保持
18アプローチ結果
Domain Randomizationの使用 (1/2)
DRありの方が、キューブの回転数が圧倒的に多く、
VisionとMotion tracking双方で回転数の最大が45を超えている
19アプローチ結果
Domain Randomizationの使用 (2/2)
ロボットの手の特性を自ら発見している
・人が自然に行う挙動
・人の小指より高い自由度による、新たな挙動
20アプローチ結果
LITTLE FINGER PIVOTING
Visionによる向きの推定
Motion TrackingとVisionの回転数はほぼ同じで、
Visionの方が汎化性が高い
21アプローチ結果
LSTMによるメモリー保持
FeedForwardと比較すると、LSTMの方が学習が速く、回転数が多い
→ シミュレーション環境を把握する上でメモリーが重要
22アプローチ結果
課題をどのように解決したのか
1. 高次元制御
2. 断片的な情報下での操作
3. 物理的性質
23アプローチ結果
課題をどのように解決したのか
1. 高次元制御
→ DRを用い、多様な環境で学習することにより、
高い自由度の制御を可能にした
2. 断片的な情報下での操作
3. 物理的性質
24アプローチ結果
課題をどのように解決したのか
1. 高次元制御
→ DRを用い、多様な環境で学習することにより、
高い自由度の制御を可能にした
2. 断片的な情報下での操作
→ Visionにより断片情報を抑え、
Motion trackingとほぼ同等の性能を可能にした
3. 物理的性質
25アプローチ結果
課題をどのように解決したのか
1. 高次元制御
→ DRで、多様な環境で学習することにより、
高い自由度の制御を可能にした
2. 断片的な情報下での操作
→ Visionにより断片情報を抑え、
Motion trackingとほぼ同等の性能を可能にした
3. 物理的性質
→ DRで多様な環境での学習を行い、
LSTMで適応力を高めることで現実の物理状態に対応した
26アプローチ結果
目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
27
本論文の意義
以下2点の有用性を今後の研究に提供している
1. 「再現」ではなく、DRによる「カバー」
2. 「センサー」ではなく、Visionによる「視る」
28本論文の意義
「再現」ではなく、DRによる「カバー」
以下の2点がカバーの有用性である
1. モデル化が容易
2. 他の物体への応用が可能
29本論文の意義
「再現」ではなく、DRによる「カバー」
以下の2点がカバーの有用性である
1. モデル化が容易
2. 他の物体への応用が可能
30本論文の意義
「センサー」ではなく、Visionによる「視る」
以下の2点が視ることの有用性である
1. センサー取付コストの回避
2. センサー取付が難しい物体にも有効
31本論文の意義
本論文の意義(再掲)
以下2点の有用性を今後の研究に提供している
1. 「再現」ではなく、DRによる「カバー」
2. 「センサー」ではなく、Visionによる「視る」
32本論文の意義
参考文献
・Learning Dexterous In-Hand Manipulation
https://arxiv.org/abs/1808.00177
・Learning Dexterity
https://openai.com/blog/learning-dexterity/
・OpenAI - Learning Dexterous In-Hand Manipulation
https://www.youtube.com/watch?v=6fo5NhnyR8I
・Parkour Atlas
https://www.youtube.com/watch?v=LikxFZZO2sk
・China’s people surveillance AI startup tops $4.5B valuation
https://www.teslarati.com/china-surveillance-ai-startup-4-5b-valuation/
・Learning In-Hand Manipulation
https://www.youtube.com/watch?v=wkCXy5ywkVE&list=PLOXw6I10VTv_CcTXlvHmGbWH-_wUOoRoO&index=5
33
参考文献
・Shadow Dexterous Hand™ – Now available for purchase!
https://www.shadowrobot.com/products/dexterous-hand/
・The shadow dexterous hand.
https://www.researchgate.net/figure/The-shadow-dexterous-hand_fig1_312082386
・Kinematics and Statics Analysis of Dexterous Hand
https://download.atlantis-press.com/article/25866110.pdf
・Sawyer Robot - Precision Using 7 Degrees of Freedom
https://www.youtube.com/watch?v=KBrR6tr_b_4
・What is rolling friction?
https://byjus.com/physics/rolling-friction/
・Damping
https://simple.wikipedia.org/wiki/Damping
34
参考文献
・How to build a Recurrent Neural Network in TensorFlow (1/7)
https://medium.com/@erikhallstrm/hello-world-rnn-83cd7105b767
・Domain Randomization for Sim2Real Transfer
https://lilianweng.github.io/lil-log/2019/05/05/domain-randomization.html
・PANDAN TREE タイの織物
https://www.pandantree.com/textile/thailand.html
・Building an LSTM from Scratch in PyTorch (LSTMs in Depth Part 1)
https://mlexplained.com/2019/02/15/building-an-lstm-from-scratch-in-pytorch-lstms-in-depth-part-1/
・PhaseSpace
http://www.phasespace.com/companyMain.html
・Proximal Policy Optimization Algorithms
https://arxiv.org/abs/1707.06347
35
参考文献
・High-Dimensional Continuous Control Using Generalized Advantage Estimation
https://arxiv.org/abs/1506.02438
・A (Long) Peek into Reinforcement Learning
https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html#value-estimation
・Reinforcement Learning: Eligibility Traces and TD(lambda)
https://amreis.github.io/ml/reinf-learn/2017/11/02/reinforcement-learning-eligibility-traces.html
・Bias-variance Tradeoff in Reinforcement Learning
https://www.endtoend.ai/blog/bias-variance-tradeoff-in-reinforcement-learning/
・符号関数
https://ja.wikipedia.org/wiki/%E7%AC%A6%E5%8F%B7%E9%96%A2%E6%95%B0
・学問 図鑑 - Kei-Net
https://www.keinet.ne.jp/gl/10/04/zukan_1004.pdf
36
ご清聴ありがとうございました
Appendix
報酬設計は以下となっている
・
= 「期待された回転角」-「実際に動かした回転角」
・指定された向き先に回転した場合、+5点
・キューブを落とした場合、-20点
報酬設計
39Appendix
Proximal Policy Optimization (PPO)
40Appendix
old policyとの極端な乖離をclippingで抑え、学習を安定させる
Generalized Advantage Estimator (1/4)
41Appendix
Advantageの汎化性を高めることが目的
Generalized Advantage Estimator (2/4)
42Appendix
Advantage
K-step Advantage:最適なkを選択する必要性がある
1-λ:合計を1にするための正規化
Generalized Advantage Estimator (3/4)
43Appendix
GAE:あらゆるk-stepにおいて、λ∈[0,1] を用いた加重平均を行う
λ = 0 or 1の場合
Generalized Advantage Estimator (4/4)
44Appendix
GAE:あらゆるk-stepにおいて、λ∈[0,1] を用いた加重平均を行う
PPOのHyperparameters
45Appendix
学習したNetworkとInput
46Appendix
Policy Network Value Network
ノイズと遅延
47Appendix
Reality gapの対策として、ノイズや遅延を入れている
Shadow Dexterous Handは関節に腱があり、
それによる反発(Backlash)をシミュレーションで考慮する必要がある
: Backlash量
: 腱の緩み度合い
: Policy action(-1~1)
( ) ( )
( )
Backlash Model (1/2)
48Appendix
y = sgn(x)
: Backlash量
: 腱の緩み度合い
: Policy action(-1~1)
SlackによるScalingとAction
Backlash Model (2/2)
49Appendix
Vision Performance
50Appendix
UnityとMuJoCoとの間ではエラーに大きな差はない
シミュレーションと現実を比較すると、エラーに差がある
Rapid
51Appendix
学習する上でのアーキテクチャ
Optimizer
Experienceを基に、
新たなParameterを算出する
Workers
Parametersを基に、
新たなExperienceを算出する
Vision Randomization
52Appendix
Vision Model (1/2)
53Appendix
Vision Model (2/2)
54Appendix
LSTMの内部構造
55Appendix
DRの有無による学習時間の差
56Appendix
Randomization
100年分の学習が必要
セットアップ上では50時間
No Randomization
3年分の学習が必要
セットアップ上では1.5時間
シミュレーション上で50回達成するまでにかかる時間

More Related Content

Featured

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

Learning dexterity assignment

Editor's Notes

  1. 手の領域は、他の領域(locomotion、画像認識)と比較すると進展の余地はまだまだあるといわれている 例えば、  ・locomotion:boston dynamicsのatlasなどはバク中など  ・画像認識:中国では監視社会と言われるが、それほど画像認識が浸透している。 それに比べ指を持つ手は研究段階と言える。
  2. 現状の課題を説明する上で、タスク概要をここで説明
  3. 現実のロボットで機能するためには、前提としてシミュレーション学習が必要となってくる (実際のロボットを用いた学習では、時間がかかりすぎる)
  4. 今回扱うロボットの手は、右画像にあるShadow Dexterous Handだが、 自由度と呼ばれるものが24度ある。 自由度:互いに独立して動作する連結部分の数。自由度が多いほど、柔軟かつ多様な動作を実現 一般的なロボットは6~7 DoFだが、今回扱うHandは24 DoFであるため非常に難易度が高い。 (親指 :5DoF * 1) (他の指:3DoF * 4) 自由度  動きのパターンの数。それぞれ独立した動きを1自由度と考える。  例えば、3D空間におかれた物体には、前後、左右、上下に移動できるので移動で3自由度、  さらに物体自身が3方向に移転できるので回転で3自由度、合わせて6自由度がある
  5. Shadow Dexterous Handには、タッチセンサーがある。 これは、物体の圧力や、空気の圧力や気温などを感知しているが、  ノイズや遅延、また重なりによってセンサーにさえぎりが生じるなどで情報が断片的になることがある。  その制約下で操作する必要がある。 (様々なphysicalの情報を考慮に入れているためsim上でのモデル化が非常に難しい)
  6. Sim学習では、physicalな環境でのふるまいを想定して行う必要があるが、 摩擦や減衰など実際に起こる物理的現象は直接観測ができないため、推論を行う必要がある。 (摩擦:地面など物体が表面に接しているとき、物体の運動を妨げる) (減衰:空気抵抗や摩擦などの影響をうけることで、物体の振動が徐々に小さくなる)
  7. Domainというのは範囲という意味のため、ある指定の範囲内(= Domain)でランダムにサンプリングして、大量にシミュレーション学習を行う。 現状の課題で述べたような、「推論」とは異なる手法と言える。 例えば、  右画像で言えば、物理性質(摩擦、減衰など)をDomainからランダムサンプリングしている。  左画像の見た目であれば、シミュレーション上の明るさや、背景、手、物体(Cube)の色をランダムにしている これによって汎化性を高める目的がある
  8. 右画像にあるように、3つのカメラで撮影して、CNNでCubeの向きを推定する。 カメラを3つ使用する理由は、カメラを1つしか使わないときに生じる物体同士の重なりによる曖昧さを回避するため Visionの性能を調べるために、左画像にあるようなMotion trackingのセンサー(PhaseSpace)も別で使用している。 センサーは3Dで対象を捉えることで向きや位置を推定するというもの
  9. 実際のロボットの手に関しては、Shadow Dexterous handを使うが、タッチセンサーを使用せず、3DのMotion tracking(PhaseSpace)のみを使用 まとめると 物体(Cube):Vision(性能比較としてMotion traking) 手         :Motion Tracking
  10. LSTMは時系列を考慮したNNの手法で、過去の情報をより保持できる。(テキストや音声などsequentialなタスクでよく利用される。) 物理的性質含め、過去の情報も考慮に踏まえた推論・行動の策定が可能  例えば、最初のコンタクトで物体の重さや、どの指がどこまで動いたなどが観測できたとして、  その次のtime stepでは前time stepを前提とした上でアクションをとることができる。
  11. 3つのアプローチをまとめると図のようになる。 sim上で、DRによる様々な条件下での大量の学習を行う 3つのカメラでレンダリング画像を取得し、キューブの向きや位置を推定 LSTMで過去の情報も考慮した行動の策定
  12. 当然ながら、現実での回転成功数が多いということは、現実への適応度が高いということなので、良い結果と言える。 それを考慮するとDomain Randomizationは必須ということがわかる。
  13. DRで”様々な環境で大量に学習すること”で、ロボット自ら特性を発見した。  人が行う挙動では、2本指で物体を回したり、slidingさせるなど 新たな挙動に関しては、高次元のシステムを人の介入なく自ら使いこなしたということになる (自然に行う挙動) ( 1. スライドにあるような動き) ( 2. ヒトの成長段階の模倣(幼児は指の先端を上手に使用できない。大人になると指の先端を利用して物体を操る))
  14. Motion TrackingとVisionの比較 sim上ではMotion trackingのほうが良い結果となっている 一方、Physical上ではほぼ同等の結果となっている Simとphysicalで比較すると、motion trakingは50→13に対し、visionは33→11と、Visionのほうがsimとphysicalで差が小さい。 つまり、少ない回転数で良い成果を出せるため、motion trackingより汎化性が高いといえる。
  15. LSTMの方がsim学習が早く、現実での回転数も多くなった。  左画像は学習時間を示しているが、LSTMの使用有無で明らかに差がある 判明したこととして、DRによって多様な環境で学習を行うことになるが、 それぞれの環境を把握・適応する上で、メモリーが有効であったのではないかという示唆が論文で述べられていた。
  16. 断片的な情報化については、 「タッチセンサー」をそもそも使わずVisionを使うことで、タッチセンサーがもたらすノイズや遅延を抑えることができ、 Motion trackingとほぼ同等の性能結果、なおかつ「汎化性の高さ」を可能にした。
  17. 推論など再現の場合、ある1点を目指すが、DR(domainからランダムにパラメータをサンプリングする)で大量学習することで、現実をカバーする(「図」のようにカバー)ことが強み 点と面の違い 1つ目  ある1点を推論するため、sim2realへのモデルのtransferが難しいといわれていた。  DRを用いることで、simからrealのロボットへのモデル化がうまくいくようになった。 2つ目  八角柱でも実験を行っていて、Cubeとまったく同じDomainで行っていたがある程度sim上で回転させることができていた。  ただ、physicalでの回転数は低かったため、八角柱に合わせたdomainでrandomizationを行えば、精度は上がるとのこと。
  18. 推論など再現の場合、ある1点を目指すが、DR(domainからランダムにパラメータをサンプリングする)で大量学習することで、現実をカバーする(「図」のようにカバー)ことが強み 点と面の違い 1つ目  ある1点を推論するため、sim2realへのモデルのtransferが難しいといわれていた。  DRを用いることで、simからrealのロボットへのモデル化がうまくいくようになった。 2つ目  八角柱でも実験を行っていて、Cubeとまったく同じDomainで行っていたがある程度sim上で回転させることができていた。  ただ、physicalでの回転数は低かったため、八角柱に合わせたdomainでrandomizationを行えば、精度は上がるとのこと。
  19. 1つ目に関して、  あらゆる物体にMotion Trackingのセンサーを付けるのは、   手間、面倒くささという意味でコスト   金銭面の費用の意味でもコスト  反面、カメラは程度にもよるが、Motion trackingセンサーほどコストではない 2つ目に関して、Motion trackingセンサーは形がある程度固定化されているものには有効だが、形が変化するものには限界がある。           一方、Visionは柔らかい物体でも適用できる。
  20. 以上2点の有用性によって、  キューブ限らず様々な物体への応用が可能で、  Motion Trackingセンサーだけでなく、Visionも十分有効な手法であるという事実を提供しているという意味で、貢献している
  21. より少ない回転角 rotate(~労力)で、指定された向き先に回転するほうが報酬が高くなる仕組み
  22. Policy gradient methodsでは、rewardが高くなるactionの確率を高めることを目的としている 最適解を得るためには、安定した学習が必要 今のpolicyと前のpolicyが離れすぎると更新の幅が大きく、収束せず安定した学習とは言えない Policy同士の差分がが一定の範囲内にとどまるような仕組みを設けることで、更新の幅を抑えるのがPPOアルゴリズムのねらい Advantageが0以上つまり、良いActionであった場合、それが多くなるように更新をかけるが、PPOで制限(1+ε)をかけている。
  23. GAEは、Advantage funcの汎化性(generalization)を高めることが目的 Bias-varianceを調整する1手法 (他のMLと異なり、RLの学習はfixed datasetではなく、environmentを用いて行う) (×のplotはdataというよりexperienceということになる)
  24. Advantageには様々な種類が存在する 1式目(後の式を理解する上での、前提の式)  action-value funcとstate-value funcの差分をσで表し、それの期待値がAdvantage func 2式目  k-stepを用いたadvantage func(γはdiscount rate(割引率):将来の不確実性考慮)  (advantage = σ と簡略化している。)   kの値が小さいほど high bias, low variance(underfitting)(Temporal Difference(0)など)     = TD(0)はrtとst+1は実際の経験に基づくためunbiasedだが、V(st+1)はestimationであるためhigh bias       一方、variableが少ないため、low variance   kの値が大きいほど low bias, high variance(overfitting) (Monte Carlo)    = MCはエピソードが終わり、報酬が確定した状態から学習を行う、つまり実際の報酬を基にするためlow bias       一方、エピソード内のすべてのrandomなaction, state, rewardを使用するためhigh variance       (明らかにどうでもいいようなactionすら拾い上げてしまうため、overfittingとなりやすい。)    → trade-offに対し、最適なkの値を選ぶ必要がある。
  25. 1式目  Weighted average(加重平均)の考えを適用することで、kのうちどれか1つを選ばなくてはならない、という問題が解消される。  Weight decayとして、あらゆるk-stepでhyper parameterの λ∈[0,1]を掛ける 2式目  Stepを重ねるごとに、λ、λ^2、λ^3…となるが、加重平均のため、これらの合計が1になる必要がある  Normalizationとして1-λを掛けている
  26. 1式目  Weighted average(加重平均)の考えを適用することで、kのうちどれか1つを選ばなくてはならない、という問題が解消される。  Weight decayとして、あらゆるk-stepでhyper parameterの λ∈[0,1]を掛ける 2式目  λ=0: low variance, high bias  λ=1: high variance, low bias  → λとγを調整して、より高いgeneralizationを探ることとなる
  27. Policy network: observationから実際のactionを策定 Value network: 現状から将来受け取る報酬の総計を割り引いたものを予測 (discounted sum of future rewards starting from a given state)             policyと異なり、シミュレーションのTrainingのみに使用
  28. Reality gap:Networkの遅延やNNの計算時間などのズレにより、observationの認識や、actionの遅れなどがある           そのため、noiseや遅延を意図的に入れる必要がある。 物理性質と異なり、regularizationとして用いられているため、DRとは分けて考える 詳細には、物理性質は現実で適応する値を見つけ出すものであるのに対し、regularizationは多いか少ないか 相関ノイズと無相関ノイズと呼ばれるものを使用 Observation noiseはPolicy networkのみ使用(value networkはdeploy時においては使用されないため) 他にも、handに使用されたPhaseSpaceにはサービスそのものの不安定さなどが存在するため、それを考慮するために Fingertipが受け取る情報にノイズを加え、断片的な情報下に晒すなどを行っている。
  29. δ(デルタ):どちらもbacklash量だが、-1と+1で方向(direction)が異なる          normal distributionに従うが、現実のHandに合わせて中心がcalibrateされている。Stdは0.1 s : 現状の腱の緩み度合い(slack)   (論文には記載されていないが、どれだけ緩いかの問題であるため、0<sであり、sが大きいほど緩みが強いはず) s’について(新たなslack)  policyがとる何かしらのaction、backlash、時間の変化分を掛け合わせたものを、現状のslackに加えている  a_inに対する積分区間のため、展開していくと、それぞれ方向の違うbacklashを足し合わせたものに、時間変化分を加えている。  signumはactivation funcの一種
  30. 2式目について  a_outはpolicyによるactionにどれだけslackの要素(α)が影響を受けるかを表す。  (論文には記載されていないが、どれだけ緩みを持たせるかの問題であるため、0<αとなるはず)  α=1: slackの影響を全く受けない状態を意味し、a_outとa_inが等しくなる  (つまり、αが0に近づくほど緩みが強く、αが1に近づくほど緩みが弱い) αの式について(1式目)   分母の|s’-s|はslackの変化量を指しており、小さな変化であるほど、第2項全体の変化は大きくなる   第2項の分子が大きいほど、αが小さくなり、a_outは緩みに大きな影響を受ける。   第2項の分子が小さいほど、αは大きく、a_outは緩みにあまり影響を受けない   ε(イプシロン)は変化量が0だった場合を考慮し入れている(10^-12)         
  31. この性能比較の結論は、sim2realがあまりうまくいかず、意図的にいれたpositionのノイズ(5~6mm)よりも大きなエラーとなってしまったが、ロボットの性能としては良いものだった(?)というもの。 Unity: ゲームエンジンで学習用にimg renderingをする MuJoCo: 物理エンジンで、unity環境で学習したpose estimatorのevaluationとして利用(Sim2Sim)        (MuJoCoで使用されるparameterは、Unity同様ランダムにサンプリングされているが、そのランダムのmeanは、RealのPhysical valuesに対応するようcalibrateされている) Real:sim2realにあたる。Simである上記2つと異なり、label集めが非常に大変だったとのこと。      PhaseSpaceでlabelを取得したものの、ノイズやセンサーの遅延などにより、まともなlabelを集めるのに苦労したとのこと Real imagesでのエラーが大きいのは、Reality gapだけでなく、上記にあるように適切なlabelを収集するのが難しかったため
  32. Workers:Redis serverからparameterを受け取り、experienceを返す Pullers:RedisからExperienceを受け取り、buffer(RAM)にExperienceをあげる Stager:GPUにExperienceをminibatch取得してGPUにステージングする Optimizer:スレッド毎にminibatch学習を行い、gradient算出、平均化する。そして、それを基に更新をかけ、新たなpolicy parametersをRedisに送る
  33. 色相(hue)、saturation(彩度) カメラの位置や向きも若干変えている。 (パワポスライドに記載はないが)CNNでの処理上、rendering imgをnormalize(zero mean, std one)している
  34. ResNet: Skip connectionにより、表現力を増しつつも、Layerが深すぎることで生じるGradient vanishingを抑える SSM: Softmax Shared weights
  35. Cellが重要な働きを持っており、Long-term dependenciesの役割を担う Forget gate: 過去情報の保持具合を調整 Input gate:現在情報の反映具合を調整 Output gate:次のtime stepへどれだけ情報を渡すかを調整
  36. Randomizationによって、学習に負荷をかけているためより多くの時間がかかる それもあり、Randomizationなしと比べて、汎化性が高く、現実のロボットでもうまく機能する