SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解
Report
Komei Sugiura
Follow
Associate Professor
Jun. 5, 2018
•
0 likes
•
1,454 views
1
of
14
生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解
Jun. 5, 2018
•
0 likes
•
1,454 views
Report
Technology
20180606人工知能学会全国大会発表資料
Komei Sugiura
Follow
Associate Professor
Recommended
ロボティクスにおける言語の利活用
Komei Sugiura
2.8K views
•
36 slides
生活支援ロボットにおける大規模データ収集に向けて
Komei Sugiura
1.4K views
•
30 slides
生活支援ロボットのマルチモーダル言語理解技術
Komei Sugiura
1K views
•
33 slides
SuMo-SS: Submodular Optimization Sensor Scattering for Deploying Sensor Netwo...
Komei Sugiura
238 views
•
9 slides
ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて
Komei Sugiura
2.5K views
•
37 slides
Spatio-Temporal Pseudo Relevance Feedback for Large-Scale and Heterogeneous S...
Komei Sugiura
460 views
•
16 slides
More Related Content
More from Komei Sugiura
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
Komei Sugiura
832 views
•
7 slides
20160907rsj16ロボット聴覚OS
Komei Sugiura
825 views
•
31 slides
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
Komei Sugiura
2.6K views
•
14 slides
20160221statistic imitation learning and human-robot communication
Komei Sugiura
2.8K views
•
11 slides
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
Komei Sugiura
2.5K views
•
16 slides
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
Komei Sugiura
2.5K views
•
13 slides
More from Komei Sugiura
(15)
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
Komei Sugiura
•
832 views
20160907rsj16ロボット聴覚OS
Komei Sugiura
•
825 views
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
Komei Sugiura
•
2.6K views
20160221statistic imitation learning and human-robot communication
Komei Sugiura
•
2.8K views
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
Komei Sugiura
•
2.5K views
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
Komei Sugiura
•
2.5K views
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
Komei Sugiura
•
2.4K views
実世界の意味を扱う理論と機械知能の構築
Komei Sugiura
•
4.9K views
Cloud Robotics for Human-Robot Dialogues
Komei Sugiura
•
491 views
20151129インテリジェントホームロボティクス研究会
Komei Sugiura
•
5.2K views
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
•
4.1K views
Language acquisition framework for robots: From grounded language acquisition...
Komei Sugiura
•
939 views
rospeex: a cloud-based speech communication toolkit for ROS
Komei Sugiura
•
1.8K views
Introduction to RoboCup@Home
Komei Sugiura
•
432 views
ロボカップ@ホーム入門
Komei Sugiura
•
2.8K views
Recently uploaded
テスト自動化.pdf
ssuserf8ea02
16 views
•
26 slides
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
73 views
•
16 slides
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
94 views
•
31 slides
gtk4_gem_usage.pdf
ssuser0ef4681
11 views
•
6 slides
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
23 views
•
20 slides
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
25 views
•
23 slides
Recently uploaded
(8)
テスト自動化.pdf
ssuserf8ea02
•
16 views
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
73 views
IGDA Japan SIG Audio #20-1 室内・野外でのマイク収録と整音.pdf
IGDA Japan SIG-Audio
•
94 views
gtk4_gem_usage.pdf
ssuser0ef4681
•
11 views
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
23 views
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
•
25 views
GraphQLはどんな時に使うか
Yutaka Tachibana
•
6 views
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
49 views
生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解
1.
生活支援ロボットにおける Generative Adversarial Netsを用いた 曖昧な指示の理解 国立研究開発法人
情報通信研究機構 杉浦孔明,マガスーバ・アリー,河井恒
2.
Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 •
ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
3.
悪い対話例: 質問が多いため不便 ( 質問多すぎ…) ユーザは、「現在把持中のペットボトルをキッチンで一番 大きい棚の3段目の右側に片付けて」とは言わない どのペットボトルですか?どこに片 付けますか?キッチンのどの棚です か?棚の何番目の段ですか?… ペットボトルを 片付けておいて 状況
4.
問題設定: Carry and Placeタスクにおけるマルチモーダル言語理解 対象タスク:Carry
and Place • ユーザに指示された物体を適切 な場所(対象領域)に移動させ るタスク 入力 • 指示文、状態を表す文、(環境 中を巡回して得た)対象領域の カメラ画像 出力 • 対象領域の尤もらしさ
5.
Q. Carry and
Placeタスクはどれくらい重要なのか? A. Retrieveタスクと合わせ、約40%をカバー • IAADP*が定義した介助犬タスクのうち、 生活支援ロボットHSRが可能なタスクは 全49細目 • Retrieveと合わせて20細目をカバー – cf. Retrieveタスク言語理解(2017) *International Association of Assistance Dog Partners
6.
関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 マルチモーダル 言語理解 • 物体操作の言語理解・生成[Iwahashi,Sugiura+
10] • 移動指示の言語理解[Kollar+ 10] • ピッキング指示の言語理解[Hatori+ 18] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • 「The GAN Zoo」=GANをリスト化したサイト GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]
7.
デモビデオ
8.
Generative Adversarial Nets
(GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15] 乱数
9.
Latent Classifier GAN
(LAC-GAN)によるデータ拡張と 言語理解[Sugiura+ 17] • 分類に有効な表現をExtractorに生成させ、それを Generatorに真似させる点がミソ • Extractorが全結合型のため、画像等に向かなかった 「データが少ないがDNNで精度を 上げたい」タスクに向いている。
10.
提案手法: MultiModal Classifier GAN(MMC-GAN)のExtractor •
マルチモーダルデータのデータ拡張を潜在空間で行う (⇔各入力の次元数は異なるので、元の空間では非効率的) • PV-DM[Le+ 14](472万文で学習)を用いて、「指示文」 「コンテキスト文」をパラグラフ分散表現に変換
11.
Carry and Placeマルチモーダルデータセットの構築 •
日用品をランダムに対象領域に配置 • 画像を撮影(Depthのみ使用) • 指示および状態を表す文をランダムに 生成 – 例:Put down the towel • 対象領域の尤もらしさを4段階でラベ ル付け – HSRによるPlaceの難易度に依存(障 害物、領域の位置、高さ) ラベル A1 A2 A3 A4 計 画像数 212 432 398 240 1282
12.
定量的結果 指示のみ 指示+状態 指示+状態+画像 手法
GAN type Valid Test Valid Test Valid Test ベース ライン - 35.3 28.6 34.3 26.7 77.0 76.6 提案 GAN 27.1 24.8 28.0 27.5 84.2 79.1 CGAN 28.5 28.8 28.1 27.6 83.7 81.0 • Dへの入力=600次元、出力=4クラス(動作成功度) • サンプル数=1282(学習:検証:テスト=83%:8.5%:8.5%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 ベースラインより 提案手法が良い 言語のみでは精度低
13.
テストセットに対する定性的結果およびConfusion matrix 正しい予測 誤分類 似たクラスへの混同 が多い
14.
背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 MMC-GANによるデータ拡張(マルチモーダル) と分類を同時に行う 結果
ベースライン(単純なCNN)より言語理解精度が 高い まとめ