AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦

AIのラボからロボティクスへ
東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
2022.8.19 20:00-
東京大学大学院工学系研究科松尾豊研究室博士課程
松嶋達也
matsushima@weblab.t.u-tokyo.ac.jp @__tmats__
第27回ロボティクス勉強会 #robosemi
本発表では、実際に家庭内のサービスロボットシステム構築の事例紹介を通じて、実世界のロボットシステムの特徴や
データドリブンな手法を取り入れて汎化性・柔軟性を高めるための方法に関して議論する。

自己紹介
松嶋達也 (Tatsuya Matsushima)
技術経営戦略学専攻松尾豊研究室博士課程3年
● ロボット学習・サービスロボティクス
● 深層学習を利用した模倣学習・強化学習手法の開発
● 人間と共生できるような適応的なロボットの開発と，
そのようなロボットを作ることによる生命性や知能の
構成的な理解に興味があります
とくに現在は，多様な環境・タスクに適応できるサービス
ロボットの実現に向け，ロボットが実世界で行動して収集・
蓄積したログデータ（オフラインデータ）を利用して制御の
改善に役立てる枠組みの研究をしています 2

研究活動の概観
サービスロボットへの利用を意識したロボット学習手法の開発・実システム構築を通じた
実証（データ）・研究を促進するエコシステム構築の3方向に取り組む
3
コアな手法の開発
研究を加速させる
エコシステムの構築
実証
（データ・実応用）
・メタ模倣学習　2020/10：英文誌Frontiers in Robotics & AI採録
・オフライン強化学習　2021/1：国際会議ICLR2021採録
・家庭内ロボットシステムの構築・検証
　2020/12：RCJ2020テクニカルチャレンジ優勝・総合準優勝
　2021/9 ：WRS2020 Partner Robot Challenge準優勝
　　　　　（Advanced Robotics採録）
・サービスロボットの共同研究
・教育活動を通じた人材育成（仲間を増やす）
　2020年度〜：強化学習に関する自主講義を夏冬2回開始(約300名/年)
　2021年度〜：工学部・工学系でロボット学習系のPBLを開講
　ロボットシステム入門教材（ルンバハック）をOSSとして開発
・ロボット学習分野コミュニティ形成　2020/8：TRAILとして組織化

研究活動の目的・背景
サービスロボットの活用により，インクルーシブな社会を創る
● ロボットを使ってできることが増えると，社会との関わり方が変化
サービスロボット
● 人々の生活に密接に関わる領域での自動化を目的としたロボット
● 例）医療・福祉・介護領域，家庭内，小売店舗
…での利用
● 少子化・労働力不足への懸念を背景に活用が期待される
● しかし，産業用ロボットに比べて実社会での導入が進んでいない
➡汎用性・安全性の観点から要求が大きく異なるため
4
図出典: http://rtc.nagoya.riken.jp/RIBA/, https://www.toyota.co.jp/jpn/tech/partner_robot/robot/#link02, https://orylab.com/product/orihime-d/

サービスロボットシステムの課題
環境・タスクが構造化されていない（unstructured）
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家の中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように，
ありうる全ての制御を（がんばって）設計するのは非現実的
5

サービスロボットシステムの課題
環境・タスクが構造化されていない（unstructured）
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家の中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように，
ありうる全ての制御を（がんばって）設計するのは非現実的
その逆に，何らかの方法でロボットが動いてしまえば
データを使って制御を学習できるのでは？ 6

ロボット学習でのオフラインデータの活用
ロボットが実世界で行動して収集・蓄積したログデータ
（オフラインデータ）を利用して制御の改善に役立てる
● ロボットがなんらかの形で動けば，データが蓄積され
ロボットのソフトウェアが改善される世界観
● 近年のスマホアプリのようなイメージ
7

研究の全体像
ロボットが動作することで蓄積されるオフラインデータから，
多様な環境・タスクに適応できる制御方策の学習手法を開発し，
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
8

VR機器を使ってロボットの遠隔操作
遠隔操作によるデータ収集
9
Robot arm (xArm7) HSR (beta-version)

本日の発表内容
1. Development of real service robot systems (system view)
● Building baseline systems of service robots in the house
● Study how learning modules can be integrated into robot systems
10

World Robot Challenge 2020 -- Partner
Robot: A Data-Driven Approach for Room
Tidying with Mobile Manipulator
Team Weblab
Team Leader: Tatsuya Matsushima
Advisor: Yusuke Iwasawa & Yutaka Matsuo
Team Contact: robocup@weblab.t.u-tokyo.ac.jp
Accepted as a journal paper in “Advanced Robotics” (in preparation)
arXiv preprint: https://arxiv.org/abs/2207.10106

概要
ロボット学習を用いた家庭内サービスロボットシステム構築の
可能性と課題を洗い出すため，実システムを構築し検証（約2年間）
● トヨタ自動車社製HSR (Human Support Robot)を利用
○ モバイルマニピュレータ（自律移動台車＋ロボットアーム）
● 家庭内での「お片付け」と「取ってきて」タスクを行う
● 世界大会World Robot Summit (WRS) 2020競技会出場を目指す
○ 2021/9/6-12に開催
12
9/6-12@中部国際空港部屋の片付けタスク指定された物体を棚から取ってくる

松尾研ロボットチームの歴史
● 2018/7 HSRが松尾研に到着
○ 初めての実機＆メンバーが3人しかおらず開発が進まない時代が続く
● 2019/6 立命館大谷口研訪問・SDEを利用開始
● 2019/8 WRS2020にエントリ
○ 松尾研のロボティクスでの技術力向上を目指す
○ 学部生などを募集してサークル的に開発を開始（
8名規模）
● 2020秋システムV1が完成
● 2020/12 RCJ2020に参加
○ 総合準優勝．テクニカルチャレンジ優勝
● 2020冬システムV2の開発開始
○ V1の反省を生かし高速化を目指す．開発体制の改善
● 2021/4 東大の正規のプロジェクト演習型講義として導入
○ 工学部・工学系研究科「人工知能応用プロジェクト」（
15名規模）
● 2021/6 松尾研下ロボットサブグループ「TRAIL」を組織
● 2021/9 WRS2020参加・準優勝 13

松尾研ロボットチームの活動体制
TRAILのウェブサイトを参照
● https://trail.t.u-tokyo.ac.jp/ja/
14

WRS2020に参加したチームメンバー（当時）
研究室内外から10名（博士課程から学部生・社会人）のチームを構成
15
https://trail.t.u-tokyo.ac.jp/ja/people/
博士課程修士課程学部生社会人
東大情理
稲見研
東大
シス創PSI3年
東大
シス創PSI3年
東大
航空宇宙3年
明治大→自動車大手
（自動運転）
東大情理
システム5研
松尾研M2
松尾研D2 松尾研D1

WRS2020パートナーロボットチャレンジのタスク
16
Task1: 部屋のお片付け
● 15分間で30個の物体を正しい場所に
片付ける
○ 25個の既知の物体(YCB)と
5個の未知物体が出現
● 物体のカテゴリに応じて片付ける先
の場所が決まる
○ e.g. 食品はトレーの上
● 出現する物体とその配置は
毎回ランダムに変化
Task2: 障害物回避・棚から指示されたも
のをとってくる
● 通路にある小さい物体に衝突せずに
自律移動
● 指示された物体をocclusionが
激しい棚から取り出して，
家具や物体に衝突せずに持って指示
した人に手渡す
● 物体の配置や指示は毎回ランダム

WRS2020の結果
WRS2020パートナーロボットチャレンジ準優勝
● 予選総当たりで
1位の九工大チームに僅差
(652points vs 630 points)
● 動画は準決勝（vs 玉川大）
○ 我々のチームは左側
17
https://youtu.be/H96I4mRltbg?t=16905
8倍速

プロジェクトで注力した点
我々の狙い
深層学習を用いたモジュールを使い，できるだけシステム内のヒューリスティク
スやハードコーディングを削減し，エッジケースに汎化させる
● 深層学習を用いた物体検出
● 最新のアーキテクチャを用いた物体認識
○ 強力な事前学習済みモデルの利用と現場での軽量な再学習
● シミュレータを用いた家具や把持姿勢予測の学習
○ シミュレータを用いて大量のデータを生成させ実世界での汎化を目指す
● データを用いて把持判定する柔らかい触覚センサを開発
18

Object Detection
RGBカメラ・深度カメラを用いる複
数のDNNベースの物体検出器を
利用
※本番は計算量削減のために
　一部を利用してない
見落としを防ぐ

Object Detection
検出結果を以下の6つの条件でフィルタリング
● 画素面積が小さすぎる・大きすぎる 
● (UOIS結果の場合) PSPNetが家具・背景だと認識している 
● 予測ラベルがvalid listに入っていない 
● 他の検出結果とかぶっている（Mask RCNNの場合大きい検出を優先，UOISは逆） 
● search areaに入っていない 
● 画像の枠に近い

基盤モデルを利用した簡単にチューニング可能な物体認識
事前学習済みのCLIP (vision transformer, ViTベース)を用いて特徴量抽出
● 画像・テキストのマルチモーダルモデル
● いわゆる”foundation model” （基盤モデル）
● 下流の全結合層のみを再学習
○ 現場で軽量に再学習可能
● Prompt-engineering（言語補助情報のチューニング）も有効
22

（参考）近年のロボティクスでの基盤モデルの応用
LLMをタスクプランニングに活用する研究が続々登場
SayCan (Inner Monologue)
● プロンプトエンジニアリングを活用して
出力されるプランを実行
LM-Nav
● LLMを活用したナビゲーション
● 言語指示をGPTを使ってランドマークの系列に変換
● VLMで画像からランドマークを見つける
など，HousekeepやTIDEE（家庭内モバイルマニピュレーション）などもある
23

認識のSimulator-to-Real(sim2real)転移
24
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習

認識のSimulator-to-Real(sim2real)転移
25
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習
● 実世界での家具の形状・配置にロバスト

Simulator-to-Real (Sim2Real) Transfer in Recognition
26
Sim2Real of grasp pose prediction
● Generated dataset with simulator (PyBullet) with randomized objects
○ Using ShapeNet Objects (7000+) instead of YCB objects (70+)
● Learn FCN model with depth image (grasp pose regression)

自作触覚センサによる高速で正確な把持判定
高速（かつ非常に安価）な把持判定のための触覚センサを自作
● 小さく軽量な物体を把持できたかを判定する目的
○ HSRの手首のトルクセンサやグリッパの幅では判定できない物体が存在していた
○ 把持判定に失敗すると時間を大きくロスしてしまう
● 最初はレジン硬化させて作っていたが，
最終的に，100均の地震対策のジェル＋手袋+鉛玉&180度広角webcam(数千円)
● 把持できた・できてない画像を集めてパターンマッチさせる
27

開発体制の工夫（RSJ2022で発表予定）
● Dockerを利用した開発環境の仮想化
○ ホストのUbuntuやCUDAのバージョンに依存しない
○ 簡単に新しい計算機を導入できる（環境構築が非常に楽）
■ WRS大会1ヶ月前に背中PC2台を調達，余裕で間に合う
● Github actionsを用いたCI/CD
○ pushするとDocker imageを自動でビルド
○ シミュレータを使ったCI/CDもやりかけたが
reality gapが大
● データセットや重みのバージョニング
○ DVCを利用，データはAWS S3で保管
○ 会場でも集めたデータをpush/pullして
複数のマシンの間の同期をとっていた
● （割と）アジャイルに開発
毎週土曜日に集まってWRSのルール・設定で
結合テスト・スコアのトラック・開発内容の評価
28

得られた考察①
開発した深層学習モジュールによって認識のロバスト性が担保され，ハード
コードや正確な家庭環境のモデルへの依存が激減した
● e.g. 各チームの準備日の活動
○ 我々のチームは大体の地図をSLAMで作れば良いので
3分程度で準備が終了した
○ 我々のチームは毎回姿勢を推定していたため
位置が固定されてなくても動いた
■ 極端には競技中に動かされても大丈夫なシステムだった
■ 競技の再現性のためにさまざまな家具やコンテナが固定されていたため
わざわざ毎回位置推定しなくても物体操作が可能ではあった
（おそらく九工大や他のほとんどのチームはそうしていたのでは？）
■ ただし，毎回位置推定することで，自己位置推定のノイズにロバストになった
■ 計算待ちを減らすための実装上の工夫はたくさんしている（最後の 1ヶ月の開発）
29

得られた考察②
認識についてはSim2Real転移が成功しロバスト性が得られた
● しかし，まだ制御方策自体のsim2realはそこまで高い性能が得られていない
○ そのため，競技会ではsim2realの認識と事前に決めたモーションプランを
組み合わせて制御していた
柔軟なモーションプランニング（の学習）は課題として残っている
● 部分的なセンサ情報（不十分な3次元モデル）から衝突のないPick&place制御方策
を学習したい
○ ほとんどのbin picking手法は周囲の制約を考慮していないため不十分
30

得られた考察③
システム設計が実世界の性能には大きな影響を及ぼす（最適化可能）
● 実応用ではより高速なタスク実行が必要
○ どのチームも15分で30個を達成できていない（が人間と比較すると遅すぎる）
● 機械学習コミュニティでは実時間での性能がそこまで重視されていない
○ 一般的なロボット学習ベンチマークは学習・推論と実行が同期的
■ シミュレータはモデルの出力を待ってくれるが，実世界は待ってくれない
● システムの実行速度には多くの要因が関わる
○ 制御と認識の非同期実行
■ ノイジーなセンサから正確な制御が必要
○ ハードウェアのスループットも影響
■ 計算力　e.g. GPU accelerationが可能か？
■ ネットワークスピード e.g. Wiﬁ6(e)・5Gの利用
31

得られた考察④
vision（のみ）に基づくmanipulation手法の限界の可能性
● ほとんどの深層学習ベースのmanipulationの研究はvision（もしくは物体やロボット
の明示的な状態）の入力のみを対象にしている
● しかし，visual情報は不十分なことが多い
○ 画像特徴量からは挙動が大きく変わりうる「接触」が検知できない
■ e.g. WRSタスクで小さいマーカや鍵が拾えてるかの検知が難しい
● 人間はmanipulationにもっと多様なセンサやアクチュエータを利用
○ e.g. 触覚, 手首の柔らかさ
● 多様なセンサや柔らかい構成要素がより高速・正確・複雑なmanipulationに必要な
可能性
○ これらのセンサ・アクチュエータは明示的なモデル化が難しくロボット学習の
研究対象として扱われることが少なかった
32

残る課題
機械学習領域のexponential growthをロボティクスに持っていく
explicitな状態推定なしに高速な動作のコントローラを学習する
● ほとんど認識と行動を同時に行えていない
○ 仮説：ロボットシステムが，ほとんどの動作計画が正しい状態推定を前提
にしている．正確な状態推定（自己位置推定など）を目指しノイズを減らす
ために動作を停止させているから
● 完全な状態推定を前提とせずに，内部で学習により構築した予測モデルを利用し
て，自分で誤差を修正し行動に繋げられるシステムを作るのが必要そう
○ 世界モデルに関連
33

ルールに関して
「再現性」が意識されたルール設計は非常に好ましかった
● ロボコンでありがちな「運」要素（タイミングによる不確実性）が軽減でき
複数のチームの技術レベルを直接比較できた
● レイアウト・評価プロトコルなども公開されると，
サービスロボティクスでの標準ベンチマークになる可能性
一方，より「汎化性」を意識したルールになってほしい
● 実応用では想定しずらいハードコードで対応できる要素を少しずつ減らす
○ 今回は，家具やコンテナの形状や姿勢が全く変わらなかったが，
応用上はそんなことはありえない
● （短期的には）物体やその配置と同様に，
家具・コンテナの位置・形状・姿勢も変化するようなルールに発展したい
34

競技会場に関して
WRS2020の競技会場ではリソースの制約が大きかった
● Wifiが遅かった（max 30Mbps)
○ 自己位置推定のさえdelayが発生
■ 自律移動中のズレが大きくなり，右往左往する動作が発生
実用に耐えなかったため，背中PCのみでの運用に切り替えた
○ ほぼ外部計算機の利用が不可能だった
● 一般的に，特に家庭内では通信環境が劇的によくなる方向にあるので，
もう少し緩和したルールや，通信が使える工夫をしても良かったのでは？
○ Wifi 6(e)の利用や，5G通信を前提にするなど
■ HSR本体の通信・計算機のアップデートも検討していくべき
（USB3/wifiカード/Jetson）
○ 松尾研内では，背中PC<->外部計算機間をWifi6で通信
■ ロボットが動作ごとに停止する時間が短くなり，非常に早い
○ 競技会場の設計の工夫が必要になりそう 35

研究の全体像
ロボットが動作することで蓄積されるオフラインデータから，
多様な環境・タスクに適応できる制御方策の学習手法を開発し，
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
37

これまでの研究を踏まえた考察
オフラインに蓄積されたデモは，深層強化学習を使って
制御方策の学習する際の強い教師信号（事前知識）になりうる
● 多様なタスク・環境に適応するためには多様なデータが必要
そのためには
①実応用を考慮したサンプル効率の高い
　オフライン方策学習アルゴリズムの開発
②データ収集と方策の学習の
　スケールアップのためのシステム設計
　　　　　　　　　　　　　　の両方が必要
38

遠隔操作を用いたスケールアップ
遠隔操作のデータは方策学習において(near-)optimalなデータセットになる
● 遠隔操作を用いることで，学習した方策が失敗した場合にも，
人間による介入によってサービスを継続して提供可能
○ 実世界でのビジネスに適している
● より多くのデータを集めれば，
学習された自動の方策の質が向上
○ 実世界での制約は人間の作業量
● 並列のデプロイ（サービス提供）が可能
○ ウェブサービスに似ている
39

ここ2年ぐらいで（超）高速・リアルなレンダリング・物理計算をサポートし
ロボットシステムと簡単に統合できるシミュレータ技術が出てきている
● 例）NVIDIA Omniverse (+Isaac Sim)
● シミュレータで多様なデータを生成し，ベースとなる認識や制御の学習することでロ
バスト性を担保→実世界にデプロイして得られるデータからﬁne-tune
● 逆に，リアルから得られるデータでシミュレータの設定をチューニング
○ Real2sim2real2sim2real...ができると良い
● 松尾研では現在WRSお片付けタスクを
Omniverse上に移行するプロジェクトが進行中
○ https://github.com/matsuolab/isaac_hsr
ゲーム・シミュレータ技術が重要
Realisticなシミュレータとsim2real転移
40

まとめ
● オフラインデータセットはシステムの構成要素の効率的な学習に役立ちうる
○ サービスロボティクスに適した性質
● オフラインのデータを活用する研究の実世界での検証が必要
○ MLの研究では見逃されている点がたくさんある
● 基盤モデルは認識・タスクプランニングをレベルアップさせそう
○ 制御に関してはまだまだかな？（いわゆるTAMP）
● サービスロボティクスの実用化のためには，データ収集とモデルの
学習のスケールアップが鍵になる
○ 例：シミュレーション技術とHuman-in-the-loop (遠隔操作)
ご興味があれば一緒にロボットで研究/開発/遊びましょう！！
色々と方法はあるのでお気軽にお声がけください
松尾研サイト：https://weblab.t.u-tokyo.ac.jp/　
ロボットチームサイト：https://trail.t.u-tokyo.ac.jp/ja/
連絡先（チーム）：robocup@weblab.t.u-tokyo.ac.jp
連絡先（松嶋）： matsushima@weblab.t.u-tokyo.ac.jp 41

AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦

Similar to AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦 (20)

Recently uploaded

Recently uploaded (9)

AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦