Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

374 views

Published on

20180606人工知能学会全国大会発表資料

Published in: Technology
  • Be the first to comment

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

  1. 1. 生活支援ロボットにおける Generative Adversarial Netsを用いた 曖昧な指示の理解 国立研究開発法人 情報通信研究機構 杉浦孔明,マガスーバ・アリー,河井恒
  2. 2. Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  3. 3. 悪い対話例: 質問が多いため不便 ( 質問多すぎ…) ユーザは、「現在把持中のペットボトルをキッチンで一番 大きい棚の3段目の右側に片付けて」とは言わない どのペットボトルですか?どこに片 付けますか?キッチンのどの棚です か?棚の何番目の段ですか?… ペットボトルを 片付けておいて 状況
  4. 4. 問題設定: Carry and Placeタスクにおけるマルチモーダル言語理解 対象タスク:Carry and Place • ユーザに指示された物体を適切 な場所(対象領域)に移動させ るタスク 入力 • 指示文、状態を表す文、(環境 中を巡回して得た)対象領域の カメラ画像 出力 • 対象領域の尤もらしさ
  5. 5. Q. Carry and Placeタスクはどれくらい重要なのか? A. Retrieveタスクと合わせ、約40%をカバー • IAADP*が定義した介助犬タスクのうち、 生活支援ロボットHSRが可能なタスクは 全49細目 • Retrieveと合わせて20細目をカバー – cf. Retrieveタスク言語理解(2017) *International Association of Assistance Dog Partners
  6. 6. 関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 マルチモーダル 言語理解 • 物体操作の言語理解・生成[Iwahashi,Sugiura+ 10] • 移動指示の言語理解[Kollar+ 10] • ピッキング指示の言語理解[Hatori+ 18] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • 「The GAN Zoo」=GANをリスト化したサイト GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]
  7. 7. デモビデオ
  8. 8. Generative Adversarial Nets (GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15] 乱数
  9. 9. Latent Classifier GAN (LAC-GAN)によるデータ拡張と 言語理解[Sugiura+ 17] • 分類に有効な表現をExtractorに生成させ、それを Generatorに真似させる点がミソ • Extractorが全結合型のため、画像等に向かなかった 「データが少ないがDNNで精度を 上げたい」タスクに向いている。
  10. 10. 提案手法: MultiModal Classifier GAN(MMC-GAN)のExtractor • マルチモーダルデータのデータ拡張を潜在空間で行う (⇔各入力の次元数は異なるので、元の空間では非効率的) • PV-DM[Le+ 14](472万文で学習)を用いて、「指示文」 「コンテキスト文」をパラグラフ分散表現に変換
  11. 11. Carry and Placeマルチモーダルデータセットの構築 • 日用品をランダムに対象領域に配置 • 画像を撮影(Depthのみ使用) • 指示および状態を表す文をランダムに 生成 – 例:Put down the towel • 対象領域の尤もらしさを4段階でラベ ル付け – HSRによるPlaceの難易度に依存(障 害物、領域の位置、高さ) ラベル A1 A2 A3 A4 計 画像数 212 432 398 240 1282
  12. 12. 定量的結果 指示のみ 指示+状態 指示+状態+画像 手法 GAN type Valid Test Valid Test Valid Test ベース ライン - 35.3 28.6 34.3 26.7 77.0 76.6 提案 GAN 27.1 24.8 28.0 27.5 84.2 79.1 CGAN 28.5 28.8 28.1 27.6 83.7 81.0 • Dへの入力=600次元、出力=4クラス(動作成功度) • サンプル数=1282(学習:検証:テスト=83%:8.5%:8.5%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 ベースラインより 提案手法が良い 言語のみでは精度低
  13. 13. テストセットに対する定性的結果およびConfusion matrix 正しい予測 誤分類 似たクラスへの混同 が多い
  14. 14. 背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 MMC-GANによるデータ拡張(マルチモーダル) と分類を同時に行う 結果 ベースライン(単純なCNN)より言語理解精度が 高い まとめ

×