ロボティクスにおける言語の利活用

ロボティクスにおける言語の利活用
ロボティクスx言語x学習のグランドチャレンジ
国立研究開発法人情報通信研究機構
杉浦孔明

ここ１０年で音声コミュニケーション技術は世界を変えた
1993年
1993年頃音声翻訳に20-30秒かかっていた
2005年頃社会の反応「音声認識は遅い」
現在検索の約半分が音声由来（米国）
Googleアシスタント Apple Siri Amazon Echo Dot
NICT VoiceTra
(300万ユーザ)
2010年-

Q. では、ロボットのコミュニケーション機能はすぐ作れるか？
A. No！実際には、研究課題は多い
（ 質問多すぎ…）
ユーザは、「現在把持中のペットボトルをキッチンで一番大きい棚の３段目
の右側に片付けて」とは言わない
どのペットボトルですか？どこに片付け
ますか？キッチンのどの棚ですか？棚の
何番目の段ですか？…
ペットボトルを
片付けておいて状況

実世界情報に基づいた言語処理において、何が技術的困難か？
• 不完全情報への対応
– 「どれを・どこに・どうやって」、をユーザが明示的に指定しなければ
動作できない
• 記号接地問題への対応
– 言語的特徴（単語、文節、文脈等）を表す確率モデル
– 物理的特徴（物体/シーン、物体間関係性、関節角時系列等）を表す確率
モデル
– 例：「牛乳」画像のモデル化、「取る」動作のモデル化
• 上記２つの動的環境への対応

マルチモーダル言語処理の初期の研究
Winograd
(1970s)
• タスク：シミュレーションでの物体操作
• 手法：ルールベース
Kollar+ 2010
HRI 2010 Best
Paper
• タスク：”Go down the hallway”等の文を入力として移動経路を出力
• 入力：移動表現、距離センサ、画像
• 手法：Conditional Random Field (CRF)による文節への分解＋位置関係の確率モデル
Yu+ 2013
ACL 2013 Best
Paper
• 入力：ビデオおよび内容を表す文
• 例：”The person to the left of the backpack carried the trash-can towards the chair”
難しさ：音声言語処理・画像処理・ロボティクスを
統合的に扱う挑戦的な研究
問題：語彙数が少なく、スケーラビリティに難あり

マルチモーダル言語理解とデータ拡張

Motivation：介助犬レベルの支援を行う生活支援ロボットの音声言語理解技術
を構築する
https://www.toyota.com/usa/toyota-effect/romy-robot.html
音声（言語）を使った
場合は
どんな課題があるの？
候補が少ないならいいけど、
多いならタッチパネルは不便。
音声のほうが便利では？
社会課題
• 要支援者を物理的・経済的に支える
生産年齢人口の減少
• ポテンシャルユーザのなかで介助犬
（育成に2年300万円）の利用者≒0.5%
家族の世話で仕事
辞めないと…
介助犬を世話
できない

マルチモーダル言語理解
場所を細かく指定されなかった場合でも、命令を適切に理解して実行可能
Picking動作（2017）
• 変化する状況に応じてユーザの命令を理解し、
意図した物体を取ってくる
Placing動作 (IROS 2018 RoboCup Best Paper)
• 「どこへ」が指定されていない場合に、対象
領域を（障害物・タスク実行難易度に依存し
て）推定

DNNを用いたマルチモーダル言語処理の関連研究：
Image captioningとVisual Question Answering
• Image captioning
– 入力：画像 → 出力：説明文
• モデルの例
– CNNで特徴抽出し、LSTMで文生成
• Visual QA [Agrawal+ ICCV15]
– 入力：画像＋質問 →出力：クラス
– 例：”How many horses are in the image?”
-> “2”
• モデルの例
– 画像をCNN、回答文をLSTMで特徴抽出
– 注意機構を加える例もある

マルチモーダル言語処理のロボティクスへの応用例
• 移動タスク
– 入力：指示文＋画像
– 出力：waypoint
– 代表例：VLN[Anderson+ CVPR18]
• 物体操作タスク
– 入力：指示文＋RGB(D)画像
– 出力：ターゲット物体および移動先
– 代表例：Joint Speaker Listener Reinforcer
Model [Yu+ 16] [Hatori+ 18 ICRA Best
Paper]
https://www.youtube.com/watch?v=c0mL9K64q84&feature=youtu.be

Multimodal Classifier GAN (MMC-GAN)
[IEEE/RSJ IROS2018 RoboCup Best Paper Award]
タスク
• Carry and Placeタスクにおける曖昧な
発話のマルチモーダル音声言語理解
技術ポイント
• 潜在空間におけるデータ拡張と、マル
チモーダル言語理解を同時に行うGAN
手法
結果
• ベースライン（CNN）と比べ、言語理
解精度を82.2%から86.2%に向上
お茶を片付けて(＝把持中のお茶を
テーブルの空いている所に片付けて)
A. Magassouba, K. Sugiura, H. Kawai, "A Multimodal Classifier Generative Adversarial Network for Carry and Place Tasks from Ambiguous Language
Instructions", IEEE Robotics and Automation Letters, 2018.

Generative Adversarial Nets (GAN)： [Goodfellow 2014]
乱数入力から画像を生成するネットワークを敵対的に学習
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]
乱数
1024x1024画像の生成[Karras+ ICLR18]
• GANの応用＝生成（多）、データ拡張（極少）
• 生成は評価が難しいが、データ拡張の評価尺度は平易
• “How good is my GAN?” [Shmelkov+, 2018]

Latent Classifier Generative Adversarial Nets（LAC-GAN）[Sugiura+ IEEE ASRU2017]
非効率な生データ生成ではなく、圧縮された表現空間でサンプルを生成する
分類に有効な表現をExtractorに生成させ、
それをGeneratorに真似させる点がミソ
K. Sugiura and H. Kawai, "Grounded Language Understanding for Manipulation Instructions Using GAN-Based Classification", In Proc. IEEE ASRU, pp. 519-524, 2017.
Real/Fakeの識別と、クラスの識別を同時
に行う

付録：Dのコスト関数を、S（real/fake）に関するコストと、分類結果のクロス
エントロピーの重み付き和とする
• LAC-GANの学習順序
z,cの生成＋Dの学習
（Gは固定）
z,cの生成＋Gの学習
（Dは固定）Eの学習
• E，D，Gのコスト関数
(cross entropy)

Q. タスクと評価尺度は何か？どう便利になるのか？
A. 分類精度が高いほど、上位結果だけ見ればいいので便利
対象タスク：Carry and Place
• ユーザに指示された物体を適切な場所
（対象領域）に移動させるタスク
入力
• 指示文＋状態を表す文
• （環境中を巡回して得た）対象領域の
Depth画像
出力
• 対象領域の尤度

シミュレーションにおける言語理解・生成

ロボカップ＠ホームにおける実証
• 生活支援ロボットの競技会として世界最大
– 参加大学・研究機関数：20-30
– ８個の規定タスクと３つのデモタスクによ
り評価
• 技術的難しさ
– 未知環境での移動、日用品の把持、騒音下
での音声対話
• 成果
– 世界大会優勝（2008, 2010），準優勝(2009,
2012)

Rospeex：多言語音声対話のためのクラウドロボティクス基盤
[Sugiura+, IEEE/RSJ IROS15]
• 背景
– コストと比較して、音声認識・合成の品質が
悪い
• Rospeex
– 非モノローグ音声合成による高品質な対話調
音声合成
– ５万ユニークユーザを獲得
• 今後の展望
– 音声合成研究の主流は、DNN音声合成
（Wavenet, Tacotron 2等）に移った
– ５年以内に、肉声感がある日本語合成音声が
ロボティクスでも当たり前になるはず
rospeexユーザの分布

World Robot Summit (WRS 2018)
Partner Robot Challenge Virtual Space
• タスク内容
– マルチモーダル言語理解、ジェ
スチャ認識、マルチモーダル言
語生成
• 物理タスクでは困難な領域に特化
– 100平米レベルの環境を複数準備
– ランダムに状況を生成して統計
的に有意な結果を得る
経済産業大臣賞（賞金1000万円）
および人工知能学会賞受賞

マルチモーダル言語理解タスク
• ランダムに生成された指示（移動・物体操作）を実行するタスク
– 例：「キッチンに行ってペットボトルを見つけて、寝室のテーブルに届けて」
• タスク環境数＝14
• ランダムに配置される物体/家具数＝51
– 未知物体数＝4
ロボット

Pickingタスクにおける曖昧な発話のマルチモーダル音声言語理解
“Go to the lobby and give me the coke bottle from the left chair”

Multimodal Target-source Classifier Model
[Magassouba, Sugiura+, IEEE RAL2019]
タスク
• Pickingタスクにおける曖昧な発話のマルチ
モーダル音声言語理解
技術ポイント
• BERTおよびMultilayer Bi-LSTMによる言語
モデリング
• TargetとSourceの同時推定
• 領域ごとの予測
結果
• ベースライン[Hatori+ 18]と比べ、言語理解
精度を向上
• （人間による精度は90.3%）
Multi Layer Bi-LSTM & CNN

MTCMの構造
BERTでembeddingを構築
・実数値ベクトル化
・未知語への対策
・ドメイン適応
学習データに存在する
「どこから」を精度向上に利用
表現 Word token Sub-word token
topright object topright, object top, right, object
sprayer （低頻度） <UNK> spray, er
greyis bottle（スペルミス） <UNK>, bottle grey, is, bottle

Take the green ball from lower left box to lower
right box
既存手法に対するMTCMの利点：正解が１つだけでない場合に対応可能
Pick the white plastic bottle and put
it in the right box
「緑のボール取って」←緑のボールはない白いプラスチックボトルは２つある

Q. 何をどこまでやればよいのか？
A. IAADPタスクを基準として理解（と実行）を評価すればよい
• IAADP*が定義した介助犬タスクのうち、
生活支援ロボットHSRが可能なタスクは
全49細目
• 達成目標
– タスクカバー率80%（49細目中40）
– 成功率80%
*International Association of Assistance Dog Partners

展望：シミュレーションと大規模データ生成

背景：ロボティクスにおける大規模データの利用は進んでいない
• Deep neural networks (DNNs) で
様々な応用が可能になった
• 大規模データが存在
From apple.com VoiceTra by NICT
(>300万ダウンロード)
画像処理＆言語処理ロボティクス
By Google Research
• 小規模データしか使えない研
究が多いため、DNN構造を洗練
させるメリットが不明
たくさんロボットを
持っていない場合は
どうすればいいの？

シミュレーションの新しい利用法：学習データを生成する
• Neuromation（合成データを販売するスタートアップ）が60億円を調達（2018.1）
Neuromation Anyverse

シミュレーションデータを実機に転用する
• DeepDrive in Universe [OpenAI, 2017]
– ゲームエンジン上の自動運転タスクに
おける性能評価プラットフォーム
• GraspGAN [Bousmalis+(Google Brain) 17]
– シミュレーションデータを変換し、実機
データ（100万学習サンプル）と同等の
性能

「敵対的データ拡張」
シミュレーションにおける敵対的学習と、実機におけるデータ拡張
①タスク自動生成・
データ収集・学習ループ
②データ拡張と追加学習
• 潜在データ拡張（LAC-GAN,
MMC-GAN,…)による実機データの
拡張
• 実機データによる追加学習
• 初期
• 人手で配置・命令文付与
• 途中から
• 配置・命令文を自動生成

物体検出用データ収集の例
データ収集（昼・夜）
自動セグメン
テーション
学習後
人手で800日かかる作業を
２週間で完了

シミュレーションにおける視点非依存の指示文生成
https://arxiv.org/abs/1909.05664
• 前提
– ユーザが取ってほしいものは別の部屋
にある
– 「XXXの左にあるYYY」が成り立たない
可能性がある
• 入力：多視点の画像（シミュレーション
が得意な分野）
• 出力：指示文
指示文例
•  Give me the apple that is near the tea
bottle on the white table
•  Give me the apple on the left side of the
tea bottle

Multimodal Attention Branch Networkによる文生成

Multimodal Attention Branch Networkによる文生成
Bring me the small
item on the right-sided
armchair
Take on tea on the
lower row of the shelf
Pick up the yellow toy
from the white shelf
生成された命令文
各単語に対して画像中のどの部分に重みを割り当てているか

OS「確率ロボティクスとデータ工学ロボティクス」への期待
• 本分野は年率50%伸びてもおかしく
ない
• CoRLと比べると、自動運転・強化
学習について、もっと発表があっ
てもいいのではと感じる
• ソースコード・データセットの共
有が進むと良い
– 最低限「XXXのコードはYYYに公
開されている」という情報の共
有は有用
CoRL (Conference on Robot Learning)
• Robotics AND Machine learning
• 投稿数の伸び
– 170件（2017@Google）
– 237件（2018@ETH）
– 398件（2019@大阪）
• 採択率約30%
• 参加チケットは毎回売り切れ
• 論文マッチングシステムTPMS
• …

まとめ
1. マルチモーダル言語処理
2. 実機データのデータ拡張
3. シミュレーションにおける言語理解・生成
4. 展望：シミュレーションと大規模データ生成
謝辞：本研究にサポートをいただきました※５０音順
• 研究助成（JST CREST、SCOPE、NEDO）
• 共同研究機関（NII、玉川大、中部大、電気通信大、東京都立産業技術
研究所、東北大、トヨタ自動車、パナソニック株式会社）

ロボティクスにおける言語の利活用

Recommended

Recommended

More Related Content

Similar to ロボティクスにおける言語の利活用

Similar to ロボティクスにおける言語の利活用 (7)

More from Komei Sugiura

More from Komei Sugiura (14)

Recently uploaded

Recently uploaded (8)

ロボティクスにおける言語の利活用