第7回WBAシンポジウム：松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて

自己紹介と論点提示
2022.10.12 16:25-16:40
東京大学大学院工学系研究科松尾豊研究室博士課程
松嶋達也
matsushima@weblab.t.u-tokyo.ac.jp @__tmats__
第7回全脳アーキテクチャ・シンポジウム

自己紹介
松嶋達也 (Tatsuya Matsushima)
技術経営戦略学専攻松尾豊研究室博士課程3年
● ロボット学習・サービスロボティクス
● 深層学習を利用した模倣学習・強化学習手法開発
● 人間と共生できるような適応的なロボット開発と，
そようなロボットを作ることによる生命性や知能
構成的な理解に興味があります
とくに現在，多様な環境・タスクに適応できるサービス
ロボット実現に向け，ロボットが実世界で行動して収集・
蓄積したログデータ（オフラインデータ）を利用して制御
改善に役立てる枠組み研究をしています 2

研究活動概観
サービスロボットへ利用を意識したロボット学習手法開発・実システム構築を通じた
実証（データ）・研究を促進するエコシステム構築 3方向に取り組む
3
コアな手法開発
研究を加させる
エコシステム構築
実証
（データ・実応用）
・メタ模倣学習 2020/10：英文誌Frontiers in Robotics & AI採録
・オフライン強化学習 2021/1：国際会議ICLR2021採録など
・家庭内ロボットシステム構築・検証
2020/12：RCJ2020テクニカルチャレンジ優勝・総合準優勝
2021/9 ：WRS2020 Partner Robot Challenge準優勝
（Advanced Robotics採録）
・サービスロボット共同研究など
・教育活動を通じた人材育成（仲間を増やす）
2020年度〜：強化学習に関する自主講義を夏冬2回開始(約300名/年)
2021年度〜：工学部・工学系でロボット学習系 PBLを開講
2021年度〜：世界モデルに関する講義を開講（受講者募集中）
ロボットシステム入門教材（ルンバハック）をOSSとして開発
・ロボット学習分野コミュニティ形成 2020/8：TRAILとして組織化

松尾研ロボットチーム歴史
● 2018/7 HSRが松尾研に到着
○ 初めて実機＆メンバーが3人しかおらず開発が進まない時代が続く
● 2019/6 立命館大谷口研訪問・SDEを利用開始
● 2019/8 WRS2020にエントリ
○ 松尾研ロボティクスで技術力向上を目指す
○ 学部生などを募集してサークル的に開発を開始（
8名規模）
● 2020秋システムV1が完成
● 2020/12 RCJ2020に参加
○ 総合準優勝．テクニカルチャレンジ優勝
● 2020冬システムV2 開発開始
○ V1 反省を生かし高化を目指す．開発体制改善
● 2021/4 東大正規プロジェクト演習型講義として導入
○ 工学部・工学系研究科「人工知能応用プロジェクト」（
15名規模）
● 2021/6 松尾研下ロボットサブグループ「TRAIL」を組織
● 2021/9 WRS2020参加・準優勝 4

松尾研ロボットチーム活動体制
TRAIL ウェブサイトを参照
● https://trail.t.u-tokyo.ac.jp/ja/
5

研究活動目的・背景
サービスロボット活用により，インクルーシブな社会を創る
● ロボットを使ってできることが増えると，社会と関わり方が変化
サービスロボット
● 人々生活に密接に関わる領域で自動化を目的としたロボット
● 例）医療・福祉・介護領域，家庭内，小売店舗
…で利用
● 少子化・労働力不足へ懸念を背景に活用が期待される
● しかし，産業用ロボットに比べて実社会で導入が進んでいない
➡汎用性・安全性観点から要求が大きく異なるため
6
図出典: http://rtc.nagoya.riken.jp/RIBA/, https://www.toyota.co.jp/jpn/tech/partner_robot/robot/#link02, https://orylab.com/product/orihime-d/

サービスロボットシステム課題
環境・タスクが構化されていない（unstructured）
● 常に変化する環境内で非常に多くタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別環境やタスクそれぞれを網羅するように，
ありうる全て制御を（がんって）設計する非現実的
7

サービスロボットシステム課題
環境・タスクが構化されていない（unstructured）
● 常に変化する環境内で非常に多くタスクを達成する必要がある
例）家庭内ロボット（生活支援ロボット）による家事
● 片付けタスク一つをとっても，家庭ごとに間取りや家具が違う
● 同じ家庭でも，日によって家中にある物体も変わってくる
● さらに，洗濯物たたみもやってほしい・・・etc
● 個別環境やタスクそれぞれを網羅するように，
ありうる全て制御を（がんって）設計する非現実的
そ逆に，何らか方法でロボットが動いてしまえ
データを使って制御を学習できるで？ 8

ロボット学習でオフラインデータ活用
ロボットが実世界で行動して収集・蓄積したログデータ
（オフラインデータ）を利用して制御改善に役立てる
● ロボットがなんらか形で動け，データが蓄積され
ロボットソフトウェアが改善される世界観
● 近年スマホアプリようなイメージ
9

研究全体像
ロボットが動作することで蓄積されるオフラインデータから，
多様な環境・タスクに適応できる制御方策学習手法を開発し，
スケール可能なサービスロボットシステムを構築する方法体系化を目指す
10

VR機器を使ってロボット遠隔操作
遠隔操作によるデータ収集
11
Robot arm (xArm7) HSR (beta-version)

Deployment-Efficient Reinforcement Learning
via Model-Based Offline Optimization
Tatsuya Matsushima1
*, Hiroki Furuta1
*, Yutaka Matsuo1
,
Ofir Nachum2
, Shixiang Shane Gu2
1
The University of Tokyo, 2
Google Brain (*Contributed Equally)
Contact: matsushima@weblab.t.u-tokyo.ac.jp
ICLR2021

概要：オフラインデータから方策改善
● これまでに何らか方法で集められたデータセット（オフラインデータ）
からデータセット以上性能を達成する方策を求めることを目指す
● 実応用上コストとリスクを意識して，方策がデプロイされた回数に
関するRL 性能指標（デプロイ効率)を提案
● 高デプロイ効率を達成するため手法として，オフラインRL 設定で
ダイナミクスモデルを学習しながら方策改善するBREMENを提案
● 物理シミュレーション（locomotion/manipulation）を用いた
多様なベンチマークで高サンプル効率と高デプロイ効率を確認
13

背景：強化学習実応用時コストとリスク削減
連続的な意思決定問題において（深層）強化学習（RL）有効性が示されてきた
● 超高頻度なデータ収集と方策改善に依存
しかし，新たな探索的な方策デプロイに潜在的なリスクとコストがあり，
（ある種）実応用で好ましくない
● e.g. ロボット制御，医療，教育
14

関連する枠組み: オフラインRL
オフラインRLで固定データセットから方策を学習する
● 何らか suboptimalな性能データセットがすでに入手できている仮定
● 通常 1から学習を行わない
15

貢献①：RLアルゴリズム新しい指標を提案
方策がデプロイされた回数に関する指標（デプロイ効率，deployment-eﬃciency)
を提案
● サンプル効率（何個データを使うか）が高いアルゴリズムでも，
deployment-eﬃciency 非常に低くなりうる e.g. SAC
● オンラインRL・オフラインRL 手法が直接比較可能になった
16

貢献②：デプロイ効率高い手法BREMENを提案
BREMEN(Behaviour-Regularized Model Ensemble)を提案
● モデルベースオフラインRL手法
● 高いサンプル効率・デプロイ効率を達成
効率的で安定的な方策学習（改善）ため工夫を組み込む
1. ダイナミクスモデルアンサンブルを利用した方策学習
2. デモデータから推定した挙動方策によるconservativeな方策改善
17

オフラインRL手法としてサンプル効率検証
既存データセットを10-20倍小さいデータセットにしても方策を改善可能
● 既存手法不安定で，データセットスコアより悪化するさえある
BREMEN オフラインRL 設定で安定していてサンプル効率が高いことを確認
18

デプロイ効率検証(locomotion)
オフラインRL手法を繰り返し適用して検証
● デプロイ回数を制約した上でランダムなデータセットからオンライン学習
BREMEN (purple) デプロイ回数制約下で顕著な性能向上を示した
19

World Robot Challenge 2020 -- Partner
Robot: A Data-Driven Approach for Room
Tidying with Mobile Manipulator
Team Weblab
Team Leader: Tatsuya Matsushima
Advisor: Yusuke Iwasawa & Yutaka Matsuo
Team Contact: robocup@weblab.t.u-tokyo.ac.jp
Accepted as a journal paper in “Advanced Robotics” (in preparation)
arXiv preprint: https://arxiv.org/abs/2207.10106

実世界でサービスロボットシステム構築
ロボット学習を用いた家庭内サービスロボットシステム構築
可能性と課題を洗い出すため，実システムを構築し検証（約2年間）
● トヨタ自動車社製HSR (Human Support Robot)を利用
○ モバイルマニピュレータ（自律移動台車＋ロボットアーム）
● 家庭内で「お片付け」と「取ってきて」タスクを行う
● 世界大会World Robot Summit (WRS) 2020競技会出場を目指す
○ 2021/9/6-12に開催
21
9/6-12@中部国際空港部屋片付けタスク指定された物体を棚から取ってくる

WRS2020パートナーロボットチャレンジタスク
22
Task1: 部屋お片付け
● 15分間で30個物体を正しい場所に
片付ける
○ 25個既知物体(YCB)と
5個未知物体が出現
● 物体カテゴリに応じて片付ける先
場所が決まる
○ e.g. 食品トレー上
● 出現する物体とそ配置
毎回ランダムに変化
Task2: 障害物回避・棚から指示されたも
をとってくる
● 通路にある小さい物体に衝突せずに
自律移動
● 指示された物体をocclusionが
激しい棚から取り出して，
家具や物体に衝突せずに持って指示
した人に手渡す
● 物体配置や指示毎回ランダム

WRS2020 結果
WRS2020パートナーロボットチャレンジ準優勝
● 予選総当たりで
1位九工大チームに僅差
(652points vs 630 points)
● 動画準決勝（vs 玉川大）
○ 我々チーム左側
23
https://youtu.be/H96I4mRltbg?t=16905
8倍

プロジェクトで注力した点
我々狙い
深層学習を用いたモジュールを使い，できるだけシステム内ヒューリスティク
スやハードコーディングを削減し，エッジケースに汎化させる
● 深層学習を用いた物体検出
● 最新アーキテクチャを用いた物体認識
○ 強力な事前学習済みモデル利用と現場で軽量な再学習
● シミュレータを用いた家具や把持姿勢予測学習
○ シミュレータを用いて大量データを生成させ実世界で汎化を目指す
● データを用いて把持判定する柔らかい触覚センサを開発
24

基盤モデルを利用した簡単にチューニング可能な物体認識
事前学習済み CLIP (vision transformer, ViTベース)を用いて特徴量抽出
● 画像・テキストマルチモーダルモデル
● いわゆる”foundation model” （基盤モデル）
● 下流全結合層みを再学習
○ 現場で軽量に再学習可能
● Prompt-engineering（言語補助情報チューニング）も有効
25

認識 Simulator-to-Real(sim2real)転移
26
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量データセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習
● 実世界で家具形状・配置にロバスト

開発体制工夫（RSJ2022で発表予定）
● Dockerを利用した開発環境仮想化
○ ホスト UbuntuやCUDA バージョンに依存しない
○ 簡単に新しい計算機を導入できる（環境構築が非常に楽）
■ WRS大会1ヶ月前に背中PC2台を調達，余裕で間に合う
● Github actionsを用いたCI/CD
○ pushするとDocker imageを自動でビルド
○ シミュレータを使ったCI/CDもやりかけたが
reality gapが大
● データセットや重みバージョニング
○ DVCを利用，データ AWS S3で保管
○ 会場でも集めたデータをpush/pullして
複数マシン間同期をとっていた
● （割と）アジャイルに開発
毎週土曜日に集まってWRS ルール・設定で
結合テスト・スコアトラック・開発内容評価
27

これまで研究を踏まえた考察
オフラインに蓄積されたデモ，深層強化学習を使って
制御方策学習する際強い教師信号（事前知識）になりうる
● 多様なタスク・環境に適応するために多様なデータが必要
そために
①実応用を考慮したサンプル効率高い
オフライン方策学習アルゴリズム開発
②データ収集と方策学習
スケールアップためシステム設計
両方が必要
28

話題提供（ご参考）
共通
● 全脳アーキテクチャ「脳全体アーキテクチャに学ぶ」というアプローチで進められてきているが，これ
までロボティクス発展においてどような脳神経科学に関する知見が活用されてきたでしょうか．さら
に．これから発展においてどような知見が参考になると考えられますか．
○ 例え，これまであまりロボティクス文脈で議論されることが少なかったが注目に値する脳機
能・現象・議論などありますでしょうか．あるとすると，なぜそれまであまり中心になかったでしょ
うか．
● 知能研究一つ出口に，開かれた環境下で人間ようにさまざまな振る舞いを実行できるロボット
実現があるように思います．こ点に関して，どようなロボットやそ機能が実現されれ，ひとまず研
究ゴールに近づいたというようなマイルストーンようなもありますか．
● 知能研究とロボット研究を比較すると，身体扱い方が大きく異なるように思われます．ソフトウェアや演
算装置として脳だけでなく，それがどような身体を通じて知能を実現するかについても重要なふ
うに思われるですが，知能研究をする上でどようなハードウェアを想定すべき，使っていくべきかに関
してご意見ありますか？
● お二人議論で学習によってシステム知的な振る舞いを構成するという点大前提としてあると思
います．開かれた環境下（どような環境・タスクがやってくるか事前にわからない設定）で柔軟に知的
に動き続けるロボットを作るために，どようなデータをどようにして集めるが良いでしょうか．
29

話題提供（ご参考）
谷口先生へ
● 全脳確率的生成モデル研究について．どように確率モデルを立てれ，それぞれ認知機能を
実現でき，それらをどように組み合せられるかという点に着目されているように思います．一方で，それ
ら各モジュールを（もし深層ニューラルネットで記述しようとすると）どようなアーキテクチャや学習法
を採用するかに関しても大きな選択余地があると思われるですが（例え transformerなどをじめ
とする大規模言語モデル），近年 DL アーキテクチャやデータ・学習方法的な研究発展をどように
感じていらっしゃいますか？
尾形先生へ
● 深層予測学習研究について．行動を変化させることでモデル予測誤差を減らそうとする挙動が得ら
れると仰っていたが，繰り返し的に同じような時系列が複数回事前に存在していることが前提であるよう
に思われます．エピソード的にしにくいデータが存在している場合（例え，段階的なタスクや，家庭内で
長時間ロボットを遠隔操作したデータがある場合など），どように学習データを構成すれ良いでしょ
うか？
30

第7回WBAシンポジウム：松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 第7回WBAシンポジウム：松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて

Similar to 第7回WBAシンポジウム：松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて (20)

More from The Whole Brain Architecture Initiative

More from The Whole Brain Architecture Initiative (20)

第7回WBAシンポジウム：松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて