SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて

スケーラブルなロボット学習システムに向けて
2022.6.10 11:00-12:30 (メイン会場)
東京大学大学院工学系研究科松尾研究室博士課程
松嶋達也
matsushima@weblab.t.u-tokyo.ac.jp @__tmats__
SSII2022 OS3 深層学習のための効率的なデータ収集と活用
DNNを用いたロボット学習アルゴリズムを用いて、動画のような高次元の入力からロボットの制御方策を学習することが可能に
なった。これらの手法はサービスロボット領域での応用が期待されているが、タスクや環境の多様性への対処が課題となってい
る。本講演では、強化学習のようなロボットの制御方策を直接学習する手法において、ロボットシステムから収集し蓄積した「オ
フライン」のデータを活用する方法について紹介するほか、実際に家庭内のサービスロボットシステム構築の事例紹介を通じ
て、実世界のロボットシステムの特徴やデータドリブンな手法を取り入れて汎化性・柔軟性を高めるための方法に関して解説す
る。

自己紹介
松嶋達也 (Tatsuya Matsushima)
技術経営戦略学専攻松尾豊研究室博士課程3年
● ロボット学習・サービスロボティクス
● 深層学習を利用した模倣学習・強化学習手法の開発
● 人間と共生できるような適応的なロボットの開発と，
そのようなロボットを作ることによる生命性や知能の
構成的な理解に興味があります
とくに現在は，多様な環境・タスクに適応できるサービス
ロボットの実現に向け，ロボットが実世界で行動して収集・
蓄積したログデータ（オフラインデータ）を利用して制御の
改善に役立てる枠組みの研究をしています 2

研究活動の概観
サービスロボットへの利用を意識したロボット学習手法の開発・実システム構築を通じた
実証（データ）・研究を促進するエコシステム構築の3方向に取り組む
3
コアな手法の開発
研究を加速させる
エコシステムの構築
実証
（データ・実応用）
・メタ模倣学習　2020/10：英文誌Frontiers in Robotics & AI採録
・オフライン強化学習　2021/1：国際会議ICLR2021採録
・家庭内ロボットシステムの構築・検証
　2020/12：RCJ2020テクニカルチャレンジ優勝・総合準優勝
　2021/9 ：WRS2020 Partner Robot Challenge準優勝
・サービスロボットの共同研究
・教育活動を通じた人材育成（仲間を増やす）
　2020年度：強化学習に関する自主講義を夏冬2回開始(約300名/年)
　2021年度：工学部・工学系でロボット学習系のPBLを開講
・ロボット学習分野コミュニティ形成　2020/8：TRAILとして組織化

研究活動の目的・背景
サービスロボットの活用により，インクルーシブな社会を創る
● ロボットを使ってできることが増えると，社会との関わり方が変化
サービスロボット
● 人々の生活に密接に関わる領域での自動化を目的としたロボット
● 例）医療・福祉・介護領域，家庭内，小売店舗
…での利用
● 少子化・労働力不足への懸念を背景に活用が期待される
● しかし，産業用ロボットに比べて実社会での導入が進んでいない
➡汎用性・安全性の観点から要求が大きく異なるため
4
図出典: http://rtc.nagoya.riken.jp/RIBA/, https://www.toyota.co.jp/jpn/tech/partner_robot/robot/#link02, https://orylab.com/product/orihime-d/

サービスロボットシステムの課題
環境・タスクが構造化されていない（unstructured）
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家の中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように，
ありうる全ての制御を（がんばって）設計するのは非現実的
5

サービスロボットシステムの課題
環境・タスクが構造化されていない（unstructured）
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家の中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように，
ありうる全ての制御を（がんばって）設計するのは非現実的
その逆に，何らかの方法でロボットが動いてしまえば
データを使って制御を学習できるのでは？ 6

ロボット学習でのオフラインデータの活用
ロボットが実世界で行動して収集・蓄積したログデータ
（オフラインデータ）を利用して制御の改善に役立てる
● ロボットがなんらかの形で動けば，データが蓄積され
ロボットのソフトウェアが改善される世界観
● 近年のスマホアプリのようなイメージ
7

研究の全体像
ロボットが動作することで蓄積されるオフラインデータから，
多様な環境・タスクに適応できる制御方策の学習手法を開発し，
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
8

VR機器を使ってロボットの遠隔操作
遠隔操作によるデータ収集
9
Robot arm (xArm7) HSR (beta-version)

本日の発表内容
1. “Deployment-efficiency” in learning controls (algorithm view)
● Show model-learning can benefit in reinforcement learning from offline
data
● Propose an algorithm interleaving model/policy learning and batched data
collection
2. Development of real service robot systems (system view)
● Building baseline systems of service robots in the house
● Study how learning modules can be integrated into robot systems
10

Deployment-Efficient Reinforcement Learning
via Model-Based Offline Optimization
Tatsuya Matsushima1
*, Hiroki Furuta1
*, Yutaka Matsuo1
,
Ofir Nachum2
, Shixiang Shane Gu2
1
The University of Tokyo, 2
Google Brain (*Contributed Equally)
Contact: matsushima@weblab.t.u-tokyo.ac.jp
ICLR2021

概要：オフラインデータからの方策改善
● これまでに何らかの方法で集められたデータセット（オフラインデータ）
からデータセット以上の性能を達成する方策を求めることを目指す
● 実応用上のコストとリスクを意識して，方策がデプロイされた回数に
関するRLの性能指標（デプロイ効率)を提案
● 高デプロイ効率を達成するための手法として，オフラインRLの設定で
ダイナミクスモデルを学習しながら方策改善するBREMENを提案
● 物理シミュレーション（locomotion/manipulation）を用いた
多様なベンチマークで高サンプル効率と高デプロイ効率を確認
12

研究の位置付け
ある環境・タスクに関する動作のデータ（オフラインデータ）を蓄積することで
その環境・タスクに関する制御方策を（実応用を想定した形で）効率よく
改善する方法に関する研究
13

背景：強化学習の実応用時のコストとリスクの削減
連続的な意思決定問題において（深層）強化学習（RL）の有効性が示されてきた
● 超高頻度なデータ収集と方策の改善に依存
しかし，新たな探索的な方策のデプロイには潜在的なリスクとコストがあり，
（ある種の）実応用では好ましくない
● e.g. ロボット制御，医療，教育
14

関連する枠組み: オフラインRL
オフラインRLでは固定のデータセットから方策を学習する
● 何らかのsuboptimalな性能のデータセットがすでに入手できている仮定
● 通常は1から学習を行わない
15

貢献①：RLアルゴリズムの新しい指標を提案
方策がデプロイされた回数に関する指標（デプロイ効率，deployment-eﬃciency)
を提案
● サンプル効率（何個のデータを使うか）が高いアルゴリズムでも，
deployment-eﬃciencyは非常に低くなりうる e.g. SAC
● オンラインRL・オフラインRLの手法が直接比較可能になった
16

デプロイ効率を高めるための課題と解決策
課題：既存のオフラインRL手法のサンプル効率が低いため，デプロイ効率も低い
● オフラインRL手法を単純に繰り返し適用するだけではうまく学習が進まない
解決策：モデルベースのオフラインRL手法を開発して，繰り返し最適化する
● モデルベースRL手法はオンラインRLではサンプル効率が高いことが知られている
17

貢献②：デプロイ効率の高い手法BREMENを提案
BREMEN(Behaviour-Regularized Model Ensemble)を提案
● モデルベースのオフラインRL手法
● 高いサンプル効率・デプロイ効率を達成
効率的で安定的な方策学習（改善）のための工夫を組み込む
1. ダイナミクスモデルのアンサンブルを利用した方策の学習
2. デモデータから推定した挙動方策によるconservativeな方策改善
18

工夫1. ダイナミクスモデルのアンサンブル
アンサンブルされたダイナミクスモデルから仮想的な状態遷移データを生成して方策の
学習に利用
● 方策がダイナミクスモデルの推定誤差（モデルバイアス）をexploitするのを防ぐ（特
定のダイナミクスモデルへの過剰適合を防ぐ）
● 具体的には，初期化の異なるK個のダイナミクスモデルをデータセットとのMSEを指
標として学習
● 方策の学習中は，アンサンブルからランダムに1つのダイナミクスモデルをピック
アップして，次のステップの状態を予測
19

工夫2. 方策の制約によるconservativeな改善
データセットから挙動方策を推定(BC)
推定したBC方策との信頼領域(KL trust-region)の制約をかけた方策の更新
20

提案手法BREMENの全体像
デプロイ数が制約された条件下では，
オフラインのBREMENの最適化手順を繰り返し適用
21
Trick 1. Rollout from ensembles
Trick 2. Initialization w/ BC policy

オフラインRL手法としての比較
1Mステップの固定データセットから方策の学習
● 既存手法と同じ実験プロトコルを採用[Wu+19]
シミュレータのlocomotionタスクで既存の優れたモデルフリー手法と同等の性能
22

オフラインRL手法としての比較 (D4RL)
より最新のオフラインRLベンチマークD4RL[Fu+20]でも
既存のモデルフリー・モデルベース手法と同等の性能を確認
● 注：スコアは各データセットのエキスパートのスコアで正規化済
23

オフラインRL手法としてのサンプル効率の検証
既存のデータセットを10-20倍小さいデータセットにしても方策を改善可能
● 既存手法は不安定で，データセットのスコアより悪化するさえある
BREMENはオフラインRLの設定で安定していてサンプル効率が高いことを確認
24

デプロイ効率の検証(locomotion)
オフラインRL手法を繰り返し適用して検証
● デプロイ回数を制約した上でランダムなデータセットからオンラインの学習
BREMEN (purple)はデプロイ回数の制約下で顕著な性能向上を示した
25

デプロイ効率の検証(manipulation)
より難しいmanipulationタスクでもBREMENは安定して方策改善可能
● サンプル効率・デプロイ効率の両方で，
ロボットの学習された制御方策の実応用上の必要要件を満たす
26

シミュレーションでの定性的な結果
Locomotion (HalfCheetah)
27
Initial policy 3rd deployment 5th
Manipulation (FetchReach)
Initial policy 6th deployment 10th

Follow-up paper
DE-RLのサンプル効率やリスク解析をlinear MDPの設定で分析した論文がICLR2022に
投稿された
● Towards Deployment-Eﬃcient Reinforcement Learning: Lower Bound and
Optimality
○ https://openreview.net/forum?id=ccWaPGl9Hq
● Nan Jiangのチーム
● 8,8,8,8 -> accept (spotlight)
28

まとめ
BREMENを提案
● 高いサンプル効率を達成するモデルベースオフラインRL手法を提案
● 高いデプロイ効率も達成
将来の展望
● 方策の安全性の検証・効率的なデータ収集
● 実ロボットへの適用
29
Code & pretrained-model

Development of Partner Robot System
Using Toyota HSR
Team Weblab
Team Leader: Tatsuya Matsushima
Advisor: Yusuke Iwasawa & Yutaka Matsuo
Team Contact: robocup@weblab.t.u-tokyo.ac.jp

概要
ロボット学習を用いた家庭内サービスロボットシステム構築の
可能性と課題を洗い出すため，実システムを構築し検証（約2年間）
● トヨタ自動車社製HSR (Human Support Robot)を利用
○ モバイルマニピュレータ（自律移動台車＋ロボットアーム）
● 家庭内での「お片付け」と「取ってきて」タスクを行う
● 世界大会World Robot Summit (WRS) 2020競技会出場を目指す
○ 2021/9/6-12に開催
31
9/6-12@中部国際空港部屋の片付けタスク指定された物体を棚から取ってくる

松尾研ロボットチームの歴史
● 2018/7 HSRが松尾研に到着
○ 初めての実機＆メンバーが3人しかおらず開発が進まない時代が続く
● 2019/6 立命館大谷口研訪問・SDEを利用開始
● 2019/8 WRS2020にエントリ
○ 松尾研のロボティクスでの技術力向上を目指す
○ 学部生などを募集してサークル的に開発を開始（
8名規模）
● 2020秋システムV1が完成
● 2020/12 RCJ2020に参加
○ 総合準優勝．テクニカルチャレンジ優勝
● 2020冬システムV2の開発開始
○ V1の反省を生かし高速化を目指す．開発体制の改善
● 2021/4 東大の正規のプロジェクト演習型講義として導入
○ 工学部・工学系研究科「人工知能応用プロジェクト」（
15名規模）
● 2021/6 松尾研下ロボットサブグループ「TRAIL」を組織
● 2021/9 WRS2020参加・準優勝 32

松尾研ロボットチームの活動体制
TRAILのウェブサイトを参照
● https://trail.t.u-tokyo.ac.jp/ja/
33

WRS2020に参加したチームメンバー
研究室内外から10名（博士課程から学部生・社会人）のチームを構成
34
https://trail.t.u-tokyo.ac.jp/ja/people/
博士課程修士課程学部生社会人
情理稲見研シス創PSI3年シス創PSI3年航空宇宙3年明治大→TMC
（自動運転）
情理システム5研
松尾研M2
松尾研D2 松尾研D1

WRS2020パートナーロボットチャレンジのタスク
35
Task1: 部屋のお片付け
● 15分間で30個の物体を正しい場所に
片付ける
○ 25個の既知の物体(YCB)と
5個の未知物体が出現
● 物体のカテゴリに応じて片付ける先
の場所が決まる
○ e.g. 食品はトレーの上
● 出現する物体とその配置は
毎回ランダムに変化
Task2: 障害物回避・棚から指示されたも
のをとってくる
● 通路にある小さい物体に衝突せずに
自律移動
● 指示された物体をocclusionが
激しい棚から取り出して，
家具や物体に衝突せずに持って指示
した人に手渡す
● 物体の配置や指示は毎回ランダム

WRS2020の結果
WRS2020パートナーロボットチャレンジ準優勝
● 予選総当たりで
1位の九工大チームに僅差
(652points vs 630 points)
● 動画は準決勝（vs 玉川大）
○ 我々のチームは左側
36
https://youtu.be/H96I4mRltbg?t=16905
8倍速

プロジェクトで注力した点
我々の狙い
深層学習を用いたモジュールを使い，できるだけシステム内のヒューリスティク
スやハードコーディングを削減し，エッジケースに汎化させる
● 深層学習を用いた物体検出
● 最新のアーキテクチャを用いた物体認識
○ 強力な事前学習済みモデルの利用と現場での軽量な再学習
● シミュレータを用いた家具や把持姿勢予測の学習
○ シミュレータを用いて大量のデータを生成させ実世界での汎化を目指す
● データを用いて把持判定する柔らかい触覚センサを開発
37

開発体制の工夫
● Dockerを利用した開発環境の仮想化
○ HostのUbuntuやCUDAのバージョンに依存しない
○ 簡単に新しいマシンを導入できる（環境構築が非常に楽）
■ WRS大会1ヶ月前に背中PC2台を調達，余裕で間に合う
● Github actionsを用いたCI/CD
○ pushするとDocker imageが自動でビルドされ利用可能に
○ シミュレータを使ったCI/CDもやりかけたが間に合わなかった
● データセットや重みのバージョニング
○ DVCを利用，データはAWS s3で保管
○ 会場でも集めたデータをpush/pullして
複数のマシンの間の同期をとっていた
● （割と）アジャイルに開発
毎週土曜日に集まってRCJのルール・設定で
結合テスト・スコアのトラック・開発内容の評価
39

Object Detection
RGBカメラ・深度カメラを用いる複
数のDNNベースの物体検出器を
利用
※本番は計算量削減のために
　一部を利用してない
見落としを防ぐ

Object Detection
検出結果を以下の6つの条件でフィルタリング
● 画素面積が小さすぎる・大きすぎる 
● (UOIS結果の場合) PSPNetが家具・背景だと認識している 
● 予測ラベルがvalid listに入っていない 
● 他の検出結果とかぶっている（Mask RCNNの場合大きい検出を優先，UOISは逆） 
● search areaに入っていない 
● 画像の枠に近い

最新のDLアーキテクチャを用いた物体認識
事前学習済みのCLIP (vision transformer, ViT)を用いて特徴量抽出
● 下流の全結合層のみを再学習
○ 現場で軽量に再学習可能
● Prompt-engineering（言語補助情報のチューニング）も有効
42

認識のSimulator-to-Real(sim2real)転移
43
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習

認識のSimulator-to-Real(sim2real)転移
44
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習
● 実世界での家具の形状・配置にロバスト

Simulator-to-Real (Sim2Real) Transfer in Recognition
45
Sim2Real of grasp pose prediction
● Generated dataset with simulator (PyBullet) with randomized objects
○ Using ShapeNet Objects (7000+) instead of YCB objects (70+)
● Learn FCN model with depth image (grasp pose regression)

自作触覚センサによる高速で正確な把持判定
高速（かつ非常に安価）な把持判定のための触覚センサを自作
● 小さく軽量な物体を把持できたかを判定する目的
○ HSRの手首のトルクセンサやグリッパの幅では判定できない物体が存在していた
○ 把持判定に失敗すると時間を大きくロスしてしまう
● 最初はレジン硬化させて作っていたが，
最終的に，100均の地震対策のジェル＋手袋+鉛玉&180度広角webcam(数千円)
● 把持できた・できてない画像を集めてパターンマッチさせる
46

得られた考察①
開発した深層学習モジュールによって認識のロバスト性が担保され，ハード
コードや正確な家庭環境のモデルへの依存が激減した
● e.g. 各チームの準備日の活動
○ 我々のチームは大体の地図をSLAMで作れば良いので
3分程度で準備が終了した
○ 我々のチームは毎回姿勢を推定していたため
位置が固定されてなくても動いた
■ 極端には競技中に動かされても大丈夫なシステムだった
■ 競技の再現性のためにさまざまな家具やコンテナが固定されていたため
わざわざ毎回位置推定しなくても物体操作が可能ではあった
（おそらく九工大や他のほとんどのチームはそうしていたのでは？）
■ ただし，毎回位置推定することで，自己位置推定のノイズにロバストになった
■ 計算待ちを減らすための実装上の工夫はたくさんしている（最後の 1ヶ月の開発）
47

得られた考察②
認識についてはSim2Real転移が成功しロバスト性が得られた
● しかし，まだ制御方策自体のsim2realはそこまで高い性能が得られていない
○ そのため，競技会ではsim2realの認識と事前に決めたモーションプランを
組み合わせて制御していた
柔軟なモーションプランニング（の学習）は課題として残っている
● 部分的なセンサ情報（不十分な3次元モデル）から衝突のないPick&place制御方策
を学習したい
○ ほとんどのbin picking手法は周囲の制約を考慮していないため不十分
48

得られた考察③
システム設計が実世界の性能には大きな影響を及ぼす（最適化可能）
● 実応用ではより高速なタスク実行が必要
○ どのチームも15分で30個を達成できていない（が人間と比較すると遅すぎる）
● 機械学習コミュニティでは実時間での性能がそこまで重視されていない
○ 一般的なロボット学習ベンチマークは学習・推論と実行が同期的
■ シミュレータはモデルの出力を待ってくれるが，実世界は待ってくれない
● システムの実行速度には多くの要因が関わる
○ 制御と認識の非同期実行
■ ノイジーなセンサから正確な制御が必要
○ ハードウェアのスループットも影響
■ 計算力　e.g. GPU accelerationが可能か？
■ ネットワークスピード e.g. Wiﬁ6(e)・5Gの利用
49

得られた考察④
vision（のみ）に基づくmanipulation手法の限界の可能性
● ほとんどの深層学習ベースのmanipulationの研究はvision（もしくは物体やロボット
の明示的な状態）の入力のみを対象にしている
● しかし，visual情報は不十分なことが多い
○ 画像特徴量からは挙動が大きく変わりうる「接触」が検知できない
■ e.g. WRSタスクで小さいマーカや鍵が拾えてるかの検知が難しい
● 人間はmanipulationにもっと多様なセンサやアクチュエータを利用
○ e.g. 触覚, 手首の柔らかさ
● 多様なセンサや柔らかい構成要素がより高速・正確・複雑なmanipulationに必要な
可能性
○ これらのセンサ・アクチュエータは明示的なモデル化が難しくロボット学習の
研究対象として扱われることが少なかった
50

残る課題
機械学習領域のexponential growthをロボティクスに持っていく
explicitな状態推定なしに高速な動作のコントローラを学習する
● ほとんど認識と行動を同時に行えていない
○ 仮説：ロボットシステムが，ほとんどの動作計画が正しい状態推定を前提
にしている．正確な状態推定（自己位置推定など）を目指しノイズを減らす
ために動作を停止させているから
● 完全な状態推定を前提とせずに，内部で学習により構築した予測モデルを利用し
て，自分で誤差を修正し行動に繋げられるシステムを作るのが必要そう
○ 世界モデルに関連
51

ルールに関して
「再現性」が意識されたルール設計は非常に好ましかった
● ロボコンでありがちな「運」要素（タイミングによる不確実性）が軽減でき
複数のチームの技術レベルを直接比較できた
● レイアウト・評価プロトコルなども公開されると，
サービスロボティクスでの標準ベンチマークになる可能性
一方，より「汎化性」を意識したルールになってほしい
● 実応用では想定しずらいハードコードで対応できる要素を少しずつ減らす
○ 今回は，家具やコンテナの形状や姿勢が全く変わらなかったが，
応用上はそんなことはありえない
● （短期的には）物体やその配置と同様に，
家具・コンテナの位置・形状・姿勢も変化するようなルールに発展したい
52

競技会場に関して
WRS2020の競技会場ではリソースの制約が大きかった
● Wifiが遅かった（max 30Mbps)
○ 自己位置推定のさえdelayが発生
■ 自律移動中のズレが大きくなり，右往左往する動作が発生
実用に耐えなかったため，背中PCのみでの運用に切り替えた
○ ほぼ外部計算機の利用が不可能だった
● 一般的に，特に家庭内では通信環境が劇的によくなる方向にあるので，
もう少し緩和したルールや，通信が使える工夫をしても良かったのでは？
○ Wifi 6(e)の利用や，5G通信を前提にするなど
■ HSR本体の通信・計算機のアップデートも検討していくべき
（USB3/wifiカード/Jetson）
○ 松尾研内では，背中PC<->外部計算機間をWifi6で通信
■ ロボットが動作ごとに停止する時間が短くなり，非常に早い
○ 競技会場の設計の工夫が必要になりそう 53

研究の全体像
ロボットが動作することで蓄積されるオフラインデータから，
多様な環境・タスクに適応できる制御方策の学習手法を開発し，
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
55

これまでの研究を踏まえた考察
オフラインに蓄積されたデモは，深層強化学習を使って
制御方策の学習する際の強い教師信号（事前知識）になりうる
● 多様なタスク・環境に適応するためには多様なデータが必要
そのためには
①実応用を考慮したサンプル効率の高い
　オフライン方策学習アルゴリズムの開発
②データ収集と方策の学習の
　スケールアップのためのシステム設計
　　　　　　　　　　　　　　の両方が必要
56

遠隔操作を用いたスケールアップ
遠隔操作のデータは方策学習において(near-)optimalなデータセットになる
● 遠隔操作を用いることで，学習した方策が失敗した場合にも，
人間による介入によってサービスを継続して提供可能
○ 実世界でのビジネスに適している
● より多くのデータを集めれば，
学習された自動の方策の質が向上
○ 実世界での制約は人間の作業量
● 並列のデプロイ（サービス提供）が可能
○ ウェブサービスに似ている
57
※「2020年度キオクシア奨励研究」として VRによる実機遠隔操作システムを構築（博士課程 1年次）

ここ2年ぐらいで（超）高速・リアルなレンダリング・物理計算をサポートし
ロボットシステムと簡単に統合できるシミュレータ技術が出てきている
● 例）NVIDIA Omniverse (+Isaac Sim)
● シミュレータで多様なデータを生成し，ベースとなる認識や制御の学習することでロ
バスト性を担保→実世界にデプロイして得られるデータからﬁne-tune
● 逆に，リアルから得られるデータでシミュレータの設定をチューニング
○ Real2sim2real2sim2real...ができると良い
● 松尾研では現在WRSお片付けタスクを
Omniverse上に移行する作業中
ゲーム・シミュレータ技術が重要
Realisticなシミュレータとsim2real転移
58

まとめ
● オフラインデータセットは効率的な制御方策の学習に役立ちうる
○ サービスロボティクスに適した性質
● オフラインのデータを活用する研究の実世界での検証が必要
○ MLの研究では見逃されている点がたくさんある
● サービスロボティクスの実用化のためには，データ収集とモデルの学習の
スケールアップが鍵になる
○ 例：シミュレーション技術とHuman-in-the-loop (遠隔操作)
連絡先: matsushima@weblab.t.u-tokyo.ac.jp
59

SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて

Similar to SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて (20)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (10)

SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて