Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ViEW 2018 基調講演 2018-12-7 実世界で働くロボットのためのビジョン・言語処理技術 羽鳥 潤

1,111 views

Published on

羽鳥潤の講演資料です。
http://www.tc-iaip.org/view2018/specialHTML/keynote.html
ロボットが実世界に活躍の場を広げるにしたがって,現実の環境を対象とした物体認識,ロボットビジョン,そして,ロボットとのコミュニケーションのための音声・言語処理技術はますます重要となってきている。本講演では,これらの要素技術を実世界タスクに応用する際のチャレンジ,そして,それらを統合的に扱うために必要となる技術や,解かなければならない課題について紹介する。

Published in: Technology
  • Be the first to comment

ViEW 2018 基調講演 2018-12-7 実世界で働くロボットのためのビジョン・言語処理技術 羽鳥 潤

  1. 1. 実世界で働くロボットのための ビジョン・言語処理技術 羽鳥 潤 (Preferred Networks) ViEW 2018(2018/12/7)
  2. 2. Robots for Everyone! CEATEC JAPAN 2018@幕張メッセ 2018年10月16日
  3. 3. “すべての人にロボットを” ● パーソナルコンピュータ・スマートフォンに続く新たなコンピ ュータ産業、パーソナルロボットの実現を目指す ● パーソナルコンピュータのような汎用性・使い勝手を実現する には? ○ 様々な環境・タスクに対する一般化 ○ 誰でも使える直感的なインターフェイス
  4. 4. 制限された環境ではなく、 様々な環境に 適応しなければならない
  5. 5. 実世界で働くロボットに必要な技術 ● Computer Vision ○ 数千〜数万物体の物体認識 ○ 未知の環境・未知の物体への対応 ● Human–Robot Interaction ○ 人間とロボットの直感的なインタラクション ○ 自然な話し言葉の理解、マルチモーダル処理
  6. 6. Interactively Picking Real-W orld Objects https://projects.preferred.jp/interactive-robot/
  7. 7. Challenges ● 口語表現の多様性 “a bear doll”, “the animal plushie”, “that fluffy thing”, “up -side-down grizzly” “grab X”, “bring together X and Y”, “move X to a diagonal box” ● 指示の曖昧性やあやまり “that brown one”, “a dog doll?”
  8. 8. Human : the one next to the eraser box . Robot : I got it. Human : hey can you move that brown fluffy thing to the bottom right? Robot : which one do you mean?
  9. 9. 提案手法の概要 embedding MLP speech (transcription) CNN (+feat.) MLP cropped images 🎤🎤pick the brown fluffy thing and put in the lower bin. embedding LSTM vision (RGB) SSD 移動先 LSTM MLP 対象物体
  10. 10. データセット grab the human face labeled object and put it in the … move the round object with multiple holes to upper … In the bottom left box find the empty open soda can … Put the box with a 50 written on it that is with Kleenex … Publicly available as PFN-PIC dataset: https://github.com/pfnet-research/picking- instruction 1200シーン100種類の日用品 7万の自然な口語指示文 (語彙サイズ:5000)
  11. 11. 結果 単一の指示 聞き返しあり 未知物体なし 88.4% 90.7% [+2.3%] 未知物体あり 65.0% 70.0% [+5.0%] 対象物体の判定精度
  12. 12. まとめ ● 自然な話し言葉で操作することのできる、ピッキングシステムを提案 ● 自然な指示文に対して92.7%の物体判定精度を達成 ● ロボットによる聞き返しを取り入れることで、効果的に指示の曖昧性を解消 できることが示せた
  13. 13. 今後の課題 ● 未知物体対応は重要かつ課題が多い ● 曖昧な指示に対応するためのより洗練された手法が必要 ● 実世界タスクに拡張するために解かなければならない課題 ○ 3次元空間における指示、話者視点とロボット視点 ○ 時系列コンテクストの利用 ○ 複数の物体に対する指示 ○ 様々な動作に対応
  14. 14. 全自動お片づけロボット https://projects.preferred.jp/tidying-up-robot/
  15. 15. CEATEC JAPAN 2018 (Oct 16–19, 2018)
  16. 16. タスク設定 ● 一般的な家具の置かれたリビング ○ テーブル・ソファー・本棚 ○ ゴミ箱・洗濯カゴ・おもちゃ箱 ● 2台のロボット(Toyota HSR)が独 立して動作
  17. 17. システムの性能 物体認識モデル ● 対応物体数:~300(家具やロボットなども含む) ● 物体認識精度:0.9 mIoU(segmentation mask) ● 照明条件や変化や環境に対するロバスト性 ロボットシステム ● 片付け速度:分速1.9物体(CEATEC・4日間実績) ● 把持成功率:~90%
  18. 18. 物体認識システム ● センサー類 ○ HSRのカメラ (RGBD) ○ 4台の天井カメラ (RGB) ● CNNのベースモデルとしてPFDetを使用 ○ Open Images Challengeで2位 ○ SE-ResNeXt101 ○ 512台のGPUで分散学習
  19. 19. データ収集の様子
  20. 20. 解析結果のロバスト性 Thin Dense
  21. 21. 典型的なエラー例 マンゴー vs レモン人間の誤認識 白飛び 高密度な配置の際の認識抜け
  22. 22. Human–Robot Interaction (HRI) HRI関連の機能 ● 片付け先をリアルタイムで変更 ● 部屋の中の物体の検索 ● 優先片付け場所の指定 使われている技術 ● 音声認識・自然言語処理 ● ジェスチャー認識
  23. 23. UI / AR
  24. 24. 実用化のために残された課題 ● 外部センサーや計算資源を使わない処理 ● 家庭などの環境にあるあらゆる物体の認識 ● 様々な環境への一般化 ● 簡単にセットアップできる仕組み ● 安全性
  25. 25. まとめ ● Computer VisionとHuman–Robot Interactionの技術は、実世界 で働くパーソナルロボットの実現のために必要不可欠。 ● GUI・AR・ジェスチャーなどを組み合わせたHRIの有用性。 ● さらに多様な環境と様々なタスクに対応できるよう、ビジョン と言語処理の技術をスケールさせる必要がある。 ● 比較的簡単なタスクで限定的な環境を想定すれば、実用化が近 づいている。

×