DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Language Conditioned Imitation Learning over
Unstructured Data
Koki Ishimoto
1
書誌情報
• Title: Language Conditioned Imitation Learning over Unstructured
Data
• Author: Corey Lynch* and Pierre Sermanet*
• *Robotics at Google
• Conference: Robotics: Science and Systems 2021(Held Virtually: July
12-16, 2021)
• Project page: https://language-play.github.io/
2
概要
• Generalist robotを作るためにどうするか
• 人間は幼児が行動、保護者が言語を与え、それを関連づけて学
習を進めることが一般的
• ロボットの場合にも同じようなことができないか
3
研究の概要
• Cover the space with teleoperational play(Learning from Play)
• テレオペでstate-action logを取る
• Pair play with human language
• 行動を後付けで言語にペアリングする
• Multicontext imitation learning
• 自己教師あり模倣学習により、行動と言語のペアリング数を減らせる(全デー
タ中1%程度)
• Condition on human language at test time
• テスト時に言語指示で複数のスキルを連続実行
• Transfer learning from unlabeled text corpora to robotic manipulation
• ラベル付されてないテキストコーパスからロボットマニピュレーションへの
転移学習
4
研究の概要
• Open-endedなロボットマニピュレーション
• 狭い観測空間(ゲーム、2D grid)
• 簡略化されたシミュレータ(binary pick&placeなど)
• 合成言語データ
• サブタスクの任意の組み合わせができる
• ロボットのもつセンサからの学習
• General task specification
• これらについてテスト
5
関連研究
• Learning from Play(LfP)
• テレオペレーションのデータで状態空間をカバーし、relabeled
imitation learningを使って行動をgoal-directed policyに再利用する
• LfPはgoal画像を用いてタスク指定する必要があるが、オープンワール
ドでは非実用的
6
Relabeled Imitation Learning
• GCBC
• Learning from Play(LfP)
• Teleopeによる状態空間の確保
8
Learning to Follow Human Language
Instructons
• Pairing robot experience with human language
• Hindsight Instruction Pairingを導入
• ロボットセンサデータと関連する言語をペアリングする手法
• Multicontext Imitation Learning
• LangLfP: Following image and Language Goals
9
Multicontext Imitation Learning
• 各トレーニングステップにおいて、各
データセットについて軌道とコンテキ
ストのペミニバッチをサンプリングし
、潜在目標空間でエンコード、最尤コ
ンテキスト模倣目標を計算
10
LangLfP: Following image and Language Goals
11
LangLfP
• Hindsight goal image tasksとHindsight instruction tasksからなるデ
ータセットに対して、multicontext policyを学習させる。
• Perception module
• Language module
• テキストをサブワードにトークン化し、ルックアップテーブルからサ
ブワード embeddingを取得し、空間上の点に関連付ける。
• Control module
• Latent Motor Plansを利用
• Seq2seq CVAE
12
Transferring knowledge from generic text
corpora
• 大規模自然言語コーパスの知
識をロボットマニミュレーシ
ョンに転用できるか?
• 本研究では、ラベル化されて
いないテキストコーパスで事
前学習された言語モデルを
semantic vector spaceにマッピ
ングできると仮定。
TransferLangLfPを導入
13
Experimental Setup
• ”Ask me anything”シナリオ
• 言語指示によるマニピュレー
ションタスクを連続で行う
• Transfer from unlabeled text
corpora
• 新規のテキストによる指示へ
のzero-shotでのmanipulation
14
Appendix: Environment
• Observation space
• 200*200 RGB画像+8-DoFのロボッ
ト関節・位置センサ
• ドア開閉量、可動ブロックの姿
勢、ボタンの押し具合、引き出
し開閉量
• 30Hz
• Action space
• Actionは256binに量子化
15
Methods
• LangBC: 18個のタスク x 100 expert demonstrations
• LfP: ベースラインLfPモデル
• LangLfP(proposed): test時は言語指示
• Restricted LangLfP: データサイズを制限したモデル
• TransferLangLfP(proposed): LangLfPの転移学習
• 観測は、画像(pixels) or object位置のground truth(states)のどちら
かを使用
16
“Ask Me Anything” Experiments
• Long-Horizon Evaluation
• 複数のサブタスクを連続して指示
• 例:「棚からブロックを取ってきて、引き出しを開けて、ブロックを引
き出しの中に入れて、引き出しを閉めてください。」
17
Long Horizon Results
• Goal image conditioned comparison
• LfPとLangLfPが誤差の範囲内で一致
• LangLfPは制御の大部分を自己教師あり模倣学習で学習(言語ペアリング
は0.1%)
18
Long Horizon Results
• Conventional multitask imitation comparison
• 手法ごとの比較
• LangLfPがLangBCを上回った。
• Playデータセットを従来のデモデータセットと同じ数にしてもLanbBCを上回った
。
19
Play scales with model capacity
• モデルを大きくすると、
• LangLfPでは順調に性能が向上
• LangBCではスケールアップしない
20
Knowledge Transfer Expriments
• LangLfPに転移学習を行った。
• 目的
• 一般的なテキストコーパスから言語指示ロボットマニピュレーション
への転移は可能か?
• 事前学習させたembeddingsを用いて学習させることで、学習させたこ
とのない命令にも対応できるようになるか?
21
Knowledge transfer results
• Positive transfer to robotic manipulation
• TransferLangLfPがLangLfPよりも良い性能
を示した
• 大量のテキストに反映された世界の知
識が、言語指示ロボット操作の改善に
活用されたと考えられる
• Following out of distribution “synonym
instructions”
• 同義語の指示に関して、TransferLanngLfP
の方が優位な性能を示した
• 例:「ブロックを拾う」と「レンガを拾
う」などの同じような指示に対する汎化
性の高い対応
22
Knowledge transfer results
• Following out of distribution instructions in 16 different Languages
23
Limitations and Future Work
• LfPのデータセットの範囲が広いため、従来のBCに比べて失敗確
率は下がるが、腕が複雑な姿勢に遷移するなどのエラーが発生
する
• LangLfPは基本的には goal-oriented bcであり、自律的にpolicyの改
善できない
• RLなどを組み合わせた自律的な改善、新しい環境への汎化など
が今後の方向性
24
Conclusion
• 言語ペアリングのコスト削減のためのマルチコンテキスト模倣
学習
• 一つのpolicyw、ゴール画像と言語タスクの両方で学習させ、テ
スト時には言語指示だけを使用
• 言語ペアリングを1%未満に抑えることに成功
• 大規模なテキストコーパスをロボットマニピュレーションへの
指示に転移学習させることができた。
25
Appendix : Relabeling play
26
Appendix: LangLfP Implementation Details
• Perception module
• Image goal encoder
• Language understanding module
27
Appendix: LangLfP Implementation Details
• Control module
• Multicontext LMP
• Training details
28
Appendix: Datasets
• Play dataset: ~10M個 x 1-2秒, ~7h relabeled デ
ータ
• (Play, Language) dataset:
• (Demo, Lanuage) dataset
• Restricted play dataset
29
30
Appendix: Models
31
Appendix: Long Horizon Evaluation
• Task construction
• Eval walkthrough
• Neutrality in multitask evaluation
32
Appendix: Qualitative Examples
33
Appendix: Ablation: How much language is
neccesary_?
34
Appendix: Knowledge transfer with language
pretraining
35

【DL輪読会】Language Conditioned Imitation Learning over Unstructured Data

  • 1.
    DEEP LEARNING JP [DLPapers] http://deeplearning.jp/ Language Conditioned Imitation Learning over Unstructured Data Koki Ishimoto 1
  • 2.
    書誌情報 • Title: LanguageConditioned Imitation Learning over Unstructured Data • Author: Corey Lynch* and Pierre Sermanet* • *Robotics at Google • Conference: Robotics: Science and Systems 2021(Held Virtually: July 12-16, 2021) • Project page: https://language-play.github.io/ 2
  • 3.
    概要 • Generalist robotを作るためにどうするか •人間は幼児が行動、保護者が言語を与え、それを関連づけて学 習を進めることが一般的 • ロボットの場合にも同じようなことができないか 3
  • 4.
    研究の概要 • Cover thespace with teleoperational play(Learning from Play) • テレオペでstate-action logを取る • Pair play with human language • 行動を後付けで言語にペアリングする • Multicontext imitation learning • 自己教師あり模倣学習により、行動と言語のペアリング数を減らせる(全デー タ中1%程度) • Condition on human language at test time • テスト時に言語指示で複数のスキルを連続実行 • Transfer learning from unlabeled text corpora to robotic manipulation • ラベル付されてないテキストコーパスからロボットマニピュレーションへの 転移学習 4
  • 5.
    研究の概要 • Open-endedなロボットマニピュレーション • 狭い観測空間(ゲーム、2Dgrid) • 簡略化されたシミュレータ(binary pick&placeなど) • 合成言語データ • サブタスクの任意の組み合わせができる • ロボットのもつセンサからの学習 • General task specification • これらについてテスト 5
  • 6.
    関連研究 • Learning fromPlay(LfP) • テレオペレーションのデータで状態空間をカバーし、relabeled imitation learningを使って行動をgoal-directed policyに再利用する • LfPはgoal画像を用いてタスク指定する必要があるが、オープンワール ドでは非実用的 6
  • 7.
    Relabeled Imitation Learning •GCBC • Learning from Play(LfP) • Teleopeによる状態空間の確保 8
  • 8.
    Learning to FollowHuman Language Instructons • Pairing robot experience with human language • Hindsight Instruction Pairingを導入 • ロボットセンサデータと関連する言語をペアリングする手法 • Multicontext Imitation Learning • LangLfP: Following image and Language Goals 9
  • 9.
    Multicontext Imitation Learning •各トレーニングステップにおいて、各 データセットについて軌道とコンテキ ストのペミニバッチをサンプリングし 、潜在目標空間でエンコード、最尤コ ンテキスト模倣目標を計算 10
  • 10.
    LangLfP: Following imageand Language Goals 11
  • 11.
    LangLfP • Hindsight goalimage tasksとHindsight instruction tasksからなるデ ータセットに対して、multicontext policyを学習させる。 • Perception module • Language module • テキストをサブワードにトークン化し、ルックアップテーブルからサ ブワード embeddingを取得し、空間上の点に関連付ける。 • Control module • Latent Motor Plansを利用 • Seq2seq CVAE 12
  • 12.
    Transferring knowledge fromgeneric text corpora • 大規模自然言語コーパスの知 識をロボットマニミュレーシ ョンに転用できるか? • 本研究では、ラベル化されて いないテキストコーパスで事 前学習された言語モデルを semantic vector spaceにマッピ ングできると仮定。 TransferLangLfPを導入 13
  • 13.
    Experimental Setup • ”Askme anything”シナリオ • 言語指示によるマニピュレー ションタスクを連続で行う • Transfer from unlabeled text corpora • 新規のテキストによる指示へ のzero-shotでのmanipulation 14
  • 14.
    Appendix: Environment • Observationspace • 200*200 RGB画像+8-DoFのロボッ ト関節・位置センサ • ドア開閉量、可動ブロックの姿 勢、ボタンの押し具合、引き出 し開閉量 • 30Hz • Action space • Actionは256binに量子化 15
  • 15.
    Methods • LangBC: 18個のタスクx 100 expert demonstrations • LfP: ベースラインLfPモデル • LangLfP(proposed): test時は言語指示 • Restricted LangLfP: データサイズを制限したモデル • TransferLangLfP(proposed): LangLfPの転移学習 • 観測は、画像(pixels) or object位置のground truth(states)のどちら かを使用 16
  • 16.
    “Ask Me Anything”Experiments • Long-Horizon Evaluation • 複数のサブタスクを連続して指示 • 例:「棚からブロックを取ってきて、引き出しを開けて、ブロックを引 き出しの中に入れて、引き出しを閉めてください。」 17
  • 17.
    Long Horizon Results •Goal image conditioned comparison • LfPとLangLfPが誤差の範囲内で一致 • LangLfPは制御の大部分を自己教師あり模倣学習で学習(言語ペアリング は0.1%) 18
  • 18.
    Long Horizon Results •Conventional multitask imitation comparison • 手法ごとの比較 • LangLfPがLangBCを上回った。 • Playデータセットを従来のデモデータセットと同じ数にしてもLanbBCを上回った 。 19
  • 19.
    Play scales withmodel capacity • モデルを大きくすると、 • LangLfPでは順調に性能が向上 • LangBCではスケールアップしない 20
  • 20.
    Knowledge Transfer Expriments •LangLfPに転移学習を行った。 • 目的 • 一般的なテキストコーパスから言語指示ロボットマニピュレーション への転移は可能か? • 事前学習させたembeddingsを用いて学習させることで、学習させたこ とのない命令にも対応できるようになるか? 21
  • 21.
    Knowledge transfer results •Positive transfer to robotic manipulation • TransferLangLfPがLangLfPよりも良い性能 を示した • 大量のテキストに反映された世界の知 識が、言語指示ロボット操作の改善に 活用されたと考えられる • Following out of distribution “synonym instructions” • 同義語の指示に関して、TransferLanngLfP の方が優位な性能を示した • 例:「ブロックを拾う」と「レンガを拾 う」などの同じような指示に対する汎化 性の高い対応 22
  • 22.
    Knowledge transfer results •Following out of distribution instructions in 16 different Languages 23
  • 23.
    Limitations and FutureWork • LfPのデータセットの範囲が広いため、従来のBCに比べて失敗確 率は下がるが、腕が複雑な姿勢に遷移するなどのエラーが発生 する • LangLfPは基本的には goal-oriented bcであり、自律的にpolicyの改 善できない • RLなどを組み合わせた自律的な改善、新しい環境への汎化など が今後の方向性 24
  • 24.
    Conclusion • 言語ペアリングのコスト削減のためのマルチコンテキスト模倣 学習 • 一つのpolicyw、ゴール画像と言語タスクの両方で学習させ、テ スト時には言語指示だけを使用 •言語ペアリングを1%未満に抑えることに成功 • 大規模なテキストコーパスをロボットマニピュレーションへの 指示に転移学習させることができた。 25
  • 25.
  • 26.
    Appendix: LangLfP ImplementationDetails • Perception module • Image goal encoder • Language understanding module 27
  • 27.
    Appendix: LangLfP ImplementationDetails • Control module • Multicontext LMP • Training details 28
  • 28.
    Appendix: Datasets • Playdataset: ~10M個 x 1-2秒, ~7h relabeled デ ータ • (Play, Language) dataset: • (Demo, Lanuage) dataset • Restricted play dataset 29
  • 29.
  • 30.
  • 31.
    Appendix: Long HorizonEvaluation • Task construction • Eval walkthrough • Neutrality in multitask evaluation 32
  • 32.
  • 33.
    Appendix: Ablation: Howmuch language is neccesary_? 34
  • 34.
    Appendix: Knowledge transferwith language pretraining 35

Editor's Notes

  • #15 8DoF
  • #20 大量のタスクや、タスクに依存しない遷移などの状態空間をカバーする学習データの重要性が明らかになった。