5. マルチモーダル言語処理の初期の研究
Winograd
(1970s)
• タスク:シミュレーションでの物体操作
• 手法:ルールベース
Kollar+ 2010
HRI 2010 Best
Paper
• タスク:”Go down the hallway”等の文を入力として移動経路を出力
• 入力:移動表現、距離センサ、画像
• 手法:Conditional Random Field (CRF)による文節への分解+位置関係の確率モデル
Yu+ 2013
ACL 2013 Best
Paper
• 入力:ビデオおよび内容を表す文
• 例:”The person to the left of the backpack carried the trash-can towards the chair”
難しさ:音声言語処理・画像処理・ロボティクスを
統合的に扱う挑戦的な研究
問題:語彙数が少なく、スケーラビリティに難あり
11. Multimodal Classifier GAN (MMC-GAN)
[IEEE/RSJ IROS2018 RoboCup Best Paper Award]
タスク
• Carry and Placeタスクにおける曖昧な
発話のマルチモーダル音声言語理解
技術ポイント
• 潜在空間におけるデータ拡張と、マル
チモーダル言語理解を同時に行うGAN
手法
結果
• ベースライン(CNN)と比べ、言語理
解精度を82.2%から86.2%に向上
お茶を片付けて(=把持中のお茶を
テーブルの空いている所に片付けて)
A. Magassouba, K. Sugiura, H. Kawai, "A Multimodal Classifier Generative Adversarial Network for Carry and Place Tasks from Ambiguous Language
Instructions", IEEE Robotics and Automation Letters, 2018.
12. Generative Adversarial Nets (GAN): [Goodfellow 2014]
乱数入力から画像を生成するネットワークを敵対的に学習
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]
乱数
1024x1024画像の生成[Karras+ ICLR18]
• GANの応用=生成(多)、データ拡張(極少)
• 生成は評価が難しいが、データ拡張の評価尺度は平易
• “How good is my GAN?” [Shmelkov+, 2018]
13. Latent Classifier Generative Adversarial Nets(LAC-GAN)[Sugiura+ IEEE ASRU2017]
非効率な生データ生成ではなく、圧縮された表現空間でサンプルを生成する
分類に有効な表現をExtractorに生成させ、
それをGeneratorに真似させる点がミソ
K. Sugiura and H. Kawai, "Grounded Language Understanding for Manipulation Instructions Using GAN-Based Classification", In Proc. IEEE ASRU, pp. 519-524, 2017.
Real/Fakeの識別と、クラスの識別を同時
に行う
24. Take the green ball from lower left box to lower
right box
既存手法に対するMTCMの利点:正解が1つだけでない場合に対応可能
Pick the white plastic bottle and put
it in the right box
「緑のボール取って」←緑のボールはない 白いプラスチックボトルは2つある
27. 背景: ロボティクスにおける大規模データの利用は進んでいない
• Deep neural networks (DNNs) で
様々な応用が可能になった
• 大規模データが存在
From apple.com VoiceTra by NICT
(>300万ダウンロード)
画像処理&言語処理 ロボティクス
By Google Research
• 小規模データしか使えない研
究が多いため、DNN構造を洗練
させるメリットが不明
たくさんロボットを
持っていない場合は
どうすればいいの?
34. Multimodal Attention Branch Networkによる文生成
Bring me the small
item on the right-sided
armchair
Take on tea on the
lower row of the shelf
Pick up the yellow toy
from the white shelf
生成された命令文
各単語に対して画像中のどの部分に重みを割り当てているか