Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

800 views

Published on

20170913日本ロボット学会学術講演会発表資料

Published in: Technology
  • Be the first to comment

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

  1. 1. Latent Classifier Generative Adversarial Nets による動詞のない命令文理解 国立研究開発法人 情報通信研究機構 杉浦孔明,河井恒
  2. 2. Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である • 生活支援ロボットは、ユーザと家族を時間的拘束から解放し得る – 背景: すべての生活支援を家族や介助犬(育成に2年・300万円 必要だが普及率は0.5%)が担当できる訳ではない https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならGUIでいい けど、多いなら音声のほうが 早いのでは? • 今回研究として切り出した問題 – 物体操作命令を対象とした、状況依存言語理解
  3. 3. 問題設定: 物体操作命令を対象とした状況依存言語理解 • 何が難しいか? – 不完全情報(どこ/何/どうする、が一部欠損) – 状況依存性(タスク成功率最大の理解結果が変わる) Instruction: “Bottle, please” Name: bottle Situation: An almost empty plastic water bottle. The water bottle on the desk. ユーザの意図 “Bring the plastic bottle on the desk to me, please”
  4. 4. 本研究では、物体認識[Redmon+ 15]、image-to-text[Vinyals+ 14]、 音声対話[Sugiura+ 15]は扱わず、状況依存言語理解のみを扱う 「カウンターの上に座っている マイクロ波オーブン」 x2 音声対話 物体認識
  5. 5. 関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 状況依存言語理解 • 物体操作対話 [Iwahashi & Sugiura+ 10] • 移動指示に関するSLU[Kollar+ 10] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • Conditional GAN [Mirza+ 14], InfoGAN [Chen+ 16] GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • CatGAN [Springenberg 15], cGAN classifier [Shen+ 17] LAC-GANの着想 • タスクが生成でなく分類であるなら、GeneratorにHuman- readableなデータ(画像、言語等)を生成させなくてもよい
  6. 6. Generative Adversarial Nets (GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15]InfoGAN [Chen+ 16] 乱数
  7. 7. 提案手法 Latent Classifier Generative Adversarial Netsは、 Gが大量生成したサンプルをdata augmentationに用いる PA ReLU BN ReLU BN ReLU softmax BN ReLU BN tanh BN ReLU OR BN ReLUReLU dropout softmax 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓 G (Generator) D (Discriminator) E (Extractor) BN: batch normalization PA: Pre-Activation 𝑝𝑝𝐷𝐷(𝑦𝑦) 𝑝𝑝𝐷𝐷(𝑆𝑆) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒄𝒄 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 400 400 100 50 100 50 100 100 100 100 50 104 5 4 𝑝𝑝𝐸𝐸(𝑦𝑦) 𝒙𝒙 分類に有効な表現をExtractorに生成させ、 それをGeneratorに真似させる点がミソ LAC-GANの構成
  8. 8. Dのコスト関数を、Sに関するコストと、分類結果のクロス エントロピーの重み付き和とする • LAC-GANの学習順序 z,cの生成+Dの学習 (Gは固定) z,cの生成+Gの学習 (Dは固定)Eの学習 • E,D,Gのコスト関数 (cross entropy)
  9. 9. 分散表現 Visual Genomeデータセット[Krishna+ 16]を元に、評価用 データセットを構築した • Object Manipulation Multimodal Data Set – 動作タスク成功度(=動作が成功しそうか)を人手でラベル付け • 言語由来の特徴量のみを利用 – PV-DM[Le+ 14](472万文で学習)を用いて、「名称」「状況」の 説明文をパラグラフ分散表現に変換 Name: bottle Situation: insulated water bottle with sipper top. ... a set of keys by the water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 分散表現 Name: bottle Situation: a bottle in a woman's hand. … woman holding a water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 タスク成功に重要な情報が 言語で表現されている
  10. 10. 結果: LAC-GANはBaselineよりも良く、単純なDNNよりも良い • 入力=400次元(分散表現)、出力=4クラス(動作成功度) • サンプル数=670(学習:検証:テスト=80%:10%:10%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 手法 テストセット精度 (汎化誤差) Baseline(AC-GAN[Odena+ 16]、PA無) 50.7% Baseline(AC-GAN、PA有) 58.2% Extractorのみ(=単純なDNNに相当) 61.1% 提案手法(LAC-GAN) 67.1% LAC-GANでData augmentationしたほうがよい Pre-activation(PA) による標準化の効果
  11. 11. 背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 LAC-GANによる動作タスク成功度を最大化する 状況依存命令文理解 結果 AC-GANや単純なDNNなどのベースラインより 高い精度 【お知らせ】 NICT先進的音声技術研究室では、研究員を 募集しています(締切2017/11/29) まとめ

×