Learning dexterity assignment

Tomoaki Ando
Learning Dexterity

目次
・手の領域の現状とタスク概要
・現状の課題
・本論文のアプローチ
・アプローチ結果
・本論文の意義
2

手の領域の現状
他領域と比べると、手の領域の進展・実用化はこれから
3手の領域の現状とタスク概要
歩行・ダッシュ画像認識手の操作

本論文のタスク
現実のロボットで、
指定された向きにキューブを回転させるタスク
終了条件
・50回成功
・途中で落とす
・1回に80秒かかる
4手の領域の現状とタスク概要

目次
・現状の課題
5

現状の課題
現実のロボットで機能するためには、
以下を考慮したシミュレーション学習が必要である
1. 高次元制御
2. 断片的な情報下での操作
3. 物理的性質
6現状の課題

高次元制御
「手」は自由度が他より高いため制御が複雑
7現状の課題
24 自由度（ Shadow Dexterous Hand ） 7 自由度（ Sawyer Robot ）

断片的な情報下での操作
以下の制約により、断片情報での操作が求められる
・タッチセンサーのノイズや遅延
・他の指やキューブが重なることによるセンサーの遮り
8現状の課題

物理的性質
物理的性質は直接観測ができないため、推論の必要がある
9現状の課題
減衰摩擦

目次
・現状の課題
10

本論文のアプローチ
現状の課題に対し、以下のアプローチを用いている
1. Domain Randomization（DR）の使用
2. カメラとCNN（Vision）による向きの推定
3. LSTMによるメモリー保持
11本論文のアプローチ

Domain Randomizationの使用
物理パラメータ・見た目をランダムにサンプリングすることで、
汎化性を高める

Visionによる向きの推定 (1/2)
3つのカメラで撮影し、CNNでキューブの向きを推定する
性能比較として、Motion trackingのセンサーを用いる
VisionPhaseSpace Motion Capture

Visionによる向きの推定 (2/2)
手のタッチセンサーを使用せず、Motion Trackingを使用
×
Shadow Dexterous Hand

LSTMによるメモリー保持
時系列データに強いLSTMを使用することで、
過去の状態を考慮した推論・対応が可能

全体図
3つのアプローチをまとめると以下になる

目次
・現状の課題
17

本論文のアプローチ（再掲）
現状の課題に対し、以下のアプローチを用いている
1. Domain Randomization（DR）の使用
2. カメラとCNN（Vision）による向きの推定
3. LSTMによるメモリー保持
18アプローチ結果

Domain Randomizationの使用 (1/2)
DRありの方が、キューブの回転数が圧倒的に多く、
VisionとMotion tracking双方で回転数の最大が45を超えている

Domain Randomizationの使用 (2/2)
ロボットの手の特性を自ら発見している
・人が自然に行う挙動
・人の小指より高い自由度による、新たな挙動
LITTLE FINGER PIVOTING

Visionによる向きの推定
Motion TrackingとVisionの回転数はほぼ同じで、
Visionの方が汎化性が高い

LSTMによるメモリー保持
FeedForwardと比較すると、LSTMの方が学習が速く、回転数が多い
→ シミュレーション環境を把握する上でメモリーが重要

課題をどのように解決したのか
1. 高次元制御
3. 物理的性質

1. 高次元制御
→ DRを用い、多様な環境で学習することにより、
高い自由度の制御を可能にした
3. 物理的性質

1. 高次元制御
→ DRを用い、多様な環境で学習することにより、
→ Visionにより断片情報を抑え、
Motion trackingとほぼ同等の性能を可能にした
3. 物理的性質

1. 高次元制御
→ DRで、多様な環境で学習することにより、
→ Visionにより断片情報を抑え、
Motion trackingとほぼ同等の性能を可能にした
3. 物理的性質
→ DRで多様な環境での学習を行い、
LSTMで適応力を高めることで現実の物理状態に対応した

目次
・現状の課題
27

本論文の意義
以下2点の有用性を今後の研究に提供している
1. 「再現」ではなく、DRによる「カバー」
2. 「センサー」ではなく、Visionによる「視る」
28本論文の意義

「再現」ではなく、DRによる「カバー」
以下の2点がカバーの有用性である
1. モデル化が容易
2. 他の物体への応用が可能

「センサー」ではなく、Visionによる「視る」
以下の2点が視ることの有用性である
1. センサー取付コストの回避
2. センサー取付が難しい物体にも有効

本論文の意義（再掲）
以下2点の有用性を今後の研究に提供している
1. 「再現」ではなく、DRによる「カバー」
2. 「センサー」ではなく、Visionによる「視る」

参考文献
・Learning Dexterous In-Hand Manipulation
https://arxiv.org/abs/1808.00177
・Learning Dexterity
https://openai.com/blog/learning-dexterity/
・OpenAI - Learning Dexterous In-Hand Manipulation
https://www.youtube.com/watch?v=6fo5NhnyR8I
・Parkour Atlas
https://www.youtube.com/watch?v=LikxFZZO2sk
・China’s people surveillance AI startup tops $4.5B valuation
https://www.teslarati.com/china-surveillance-ai-startup-4-5b-valuation/
・Learning In-Hand Manipulation
https://www.youtube.com/watch?v=wkCXy5ywkVE&list=PLOXw6I10VTv_CcTXlvHmGbWH-_wUOoRoO&index=5
33

参考文献
・Shadow Dexterous Hand™ – Now available for purchase!
https://www.shadowrobot.com/products/dexterous-hand/
・The shadow dexterous hand.
https://www.researchgate.net/figure/The-shadow-dexterous-hand_fig1_312082386
・Kinematics and Statics Analysis of Dexterous Hand
https://download.atlantis-press.com/article/25866110.pdf
・Sawyer Robot - Precision Using 7 Degrees of Freedom
https://www.youtube.com/watch?v=KBrR6tr_b_4
・What is rolling friction?
https://byjus.com/physics/rolling-friction/
・Damping
https://simple.wikipedia.org/wiki/Damping
34

参考文献
・How to build a Recurrent Neural Network in TensorFlow (1/7)
https://medium.com/@erikhallstrm/hello-world-rnn-83cd7105b767
・Domain Randomization for Sim2Real Transfer
https://lilianweng.github.io/lil-log/2019/05/05/domain-randomization.html
・PANDAN TREE タイの織物
https://www.pandantree.com/textile/thailand.html
・Building an LSTM from Scratch in PyTorch (LSTMs in Depth Part 1)
https://mlexplained.com/2019/02/15/building-an-lstm-from-scratch-in-pytorch-lstms-in-depth-part-1/
・PhaseSpace
http://www.phasespace.com/companyMain.html
・Proximal Policy Optimization Algorithms
35

参考文献
・High-Dimensional Continuous Control Using Generalized Advantage Estimation
・A (Long) Peek into Reinforcement Learning
https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html#value-estimation
・Reinforcement Learning: Eligibility Traces and TD(lambda)
https://amreis.github.io/ml/reinf-learn/2017/11/02/reinforcement-learning-eligibility-traces.html
・Bias-variance Tradeoff in Reinforcement Learning
https://www.endtoend.ai/blog/bias-variance-tradeoff-in-reinforcement-learning/
・符号関数
https://ja.wikipedia.org/wiki/%E7%AC%A6%E5%8F%B7%E9%96%A2%E6%95%B0
・学問図鑑 - Kei-Net
https://www.keinet.ne.jp/gl/10/04/zukan_1004.pdf
36

ご清聴ありがとうございました

報酬設計は以下となっている
・
＝「期待された回転角」－「実際に動かした回転角」
・指定された向き先に回転した場合、+5点
・キューブを落とした場合、-20点
報酬設計
39Appendix

Proximal Policy Optimization (PPO)
40Appendix
old policyとの極端な乖離をclippingで抑え、学習を安定させる

Generalized Advantage Estimator (1/4)
41Appendix
Advantageの汎化性を高めることが目的

42Appendix
Advantage
K-step Advantage：最適なkを選択する必要性がある

1-λ：合計を1にするための正規化
43Appendix
GAE：あらゆるk-stepにおいて、λ∈[0,1] を用いた加重平均を行う

λ = 0 or 1の場合
44Appendix
GAE：あらゆるk-stepにおいて、λ∈[0,1] を用いた加重平均を行う

PPOのHyperparameters
45Appendix

学習したNetworkとInput
46Appendix
Policy Network Value Network

ノイズと遅延
47Appendix
Reality gapの対策として、ノイズや遅延を入れている

Shadow Dexterous Handは関節に腱があり、
それによる反発（Backlash）をシミュレーションで考慮する必要がある
: Backlash量
: 腱の緩み度合い
: Policy action（-1～1）
( ) ( )
( )
Backlash Model (1/2)
48Appendix
y = sgn(x)

: Backlash量
: 腱の緩み度合い
: Policy action（-1～1）
SlackによるScalingとAction
Backlash Model (2/2)
49Appendix

Vision Performance
50Appendix
UnityとMuJoCoとの間ではエラーに大きな差はない
シミュレーションと現実を比較すると、エラーに差がある

Rapid
51Appendix
学習する上でのアーキテクチャ
Optimizer
Experienceを基に、
新たなParameterを算出する
Workers
Parametersを基に、
新たなExperienceを算出する

Vision Randomization
52Appendix

LSTMの内部構造
55Appendix

DRの有無による学習時間の差
56Appendix
Randomization
100年分の学習が必要
セットアップ上では50時間
No Randomization
3年分の学習が必要
セットアップ上では1.5時間
シミュレーション上で50回達成するまでにかかる時間

Learning dexterity assignment

Recommended

Recommended

More Related Content

Featured

Featured (20)

Learning dexterity assignment

Editor's Notes