Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

言葉や能力の壁を越えるデータ指向知能

323 views

Published on

20161201エージェントAIと環境知能講演資料

Published in: Technology
  • Be the first to comment

  • Be the first to like this

言葉や能力の壁を越えるデータ指向知能

  1. 1. 言葉や能力の壁を越えるデータ指向知能 ~音声コミュニケーションとロボット~ 国立研究開発法人 情報通信研究機構 杉浦孔明
  2. 2. ロボティクスx人工知能への投資が活発化 2012 Amazonが7.75億ドルでKiva Systemsを買収 2013 Googleが推定1億ドルでロボットベンチャー8社を買収 2014 ソフトバンクがPepperを発売することを発表 2015-16 産総研AIセンター、理研AIP設立。約50億円/5年規模の投資 2016 トヨタリサーチインスティテュート設立。約1000億円/5年の投資 2018/20 首相「2020年に東京ロボット五輪開催」→World Robot Summit 出典: Softbank Robotics出典: Economist出典:Amazon Robotics 出典:Boston Dynamics
  3. 3. NICT先進的音声技術研究室は、人を支援するシステムに関わる 音声対話基盤技術を構築します 現在の社会課題 • 少子高齢化社会における生産性向上 (G7全てで高齢化率20%を超えるまで 残り13年【国連調査】) • ポテンシャルユーザのなかで、介助犬 の利用者≒0.5% 外出が難しい。 運ぶのが重い 介助犬は世 話できない これから 家族の世話 を分担して ほしい
  4. 4. 言葉の壁を超える技術の実現に向けたNICTの取り組み ①音声翻訳VoiceTra 関連アプリも含め100万ダウンロード以上。 東京オリンピック・パラリンピックに向け、10言語の音声翻訳を強化中。 ②WFST対話制御と音声対話SDK 基本パーツを入れ替え編集するだけで、多様な音声 対話システムが構築可能なツールキットを公開 ③音声認識・対話応用 音声認識・合成・対話技術の応用として、京都観光案内対話システムや ニュース動画への字幕付与システムを開発。 ④クラウドロボティクス基盤rospeex ロボット向け音声認識・合成APIとして公開し40,000ユニークユーザを獲得。 声優による日本語の対話調合成音声としては世界最高レベル。
  5. 5. 多言語字幕付与システムを開発可能なツールキットを公開 しました(2016/9/1) 無料ですが、接続時間制限があります。 「逐次音声認識SDK」で検索
  6. 6. 対話ロボットへの取り組み: 音声対話機能の開発を容易にするツールrospeex • 想定するタスク – サービスロボットとのインタラク ション • ロボット開発者が直面する壁 – コストと比較して、音声認識・合成の性能が悪い XIMERA 3 (読み上げ) 声優
  7. 7. Rospeex:多言語音声対話のためのクラウドロボティクス基盤* • 4万ユニークユーザ • ロボット向けに特化した音声合成 [Sugiura+ 2014] • 多言語の音声認識および合成 Python & C++のサンプ ルを公開中 rospeex Search * 研究開発目的の利用に限る
  8. 8. ネットワーク接続を前提とすれば音声対話に関する 問題を解決できる 8 クラウドAPI型 (Google, Microsoft, IBM, NTT docomo, Wit.ai,など) フリーソフト 商用ソフト OpenHRI, PocketSphinx, Festival クラウド型 スタンドアロン型 ロボットミドル ウェア対応 対応無 低スペックなマシン では非合理的  ロボット関連ログ が埋もれる  要認証 品質に問題  価格が疑問  rospeexユーザの分布 rospeexの利活用事例(4万ユニークユーザ*) 高齢者施設での会話活性化、サービスロボット への音声指示、ヒューマノイド、対話エージェ ント、カーナビ・スマートホーム向け音声イン タフェース、など
  9. 9. rospeexが提供する機能 rospeex core Dialogue management (written by user) Speech synthesis Speech Output Speech recognition Rospeex cloud TTS Noise reduction Voice activity detection Third party’s ASR API Browser UI OR Smarphones On-board mic Task management Rospeex cloud ASR What time is it? It’s 6 pm. Third party’s TTS API Speech synthesis designed for robots WER = 7.9% for IWSLT tst2011 (1st Place Winner: IWSLT12, 13, 14)
  10. 10. 非モノローグHMM音声合成により、対話に適した 音声合成が可能 • 声優の掛け合い対話コーパスを構築 – 約10時間(16,538文) • サービスロボットタスクでは上限に近い品質 • NICT声優対話コーパスを公開 Sugiura, K.et al, ICRA14 10 上限 ベースライン 提案手法 日本語の合成用公開 コーパスとして世界最大
  11. 11. データ指向知能ロボティクスによるイノベーション 11 機械学習応用では、大規模データが学習可能な深層学習アプローチが成功 • クラウドサービス化によるスパイラル的改善を行う場合もある • A. Ng: http://www.slideshare.net/ExtractConf/andrew-ng-chief-scientist-at-baidu ロボティクスでも同様のイノベーションが起こせるはず 「ロケットエンジン」 「ロケット燃料」 正解データ(書き起こし、物 体名、実現値、など) 【出典】IDC Digital Universe(2012)
  12. 12. 能力の壁を超える技術: インテリジェントホームロボティクス 12
  13. 13. Q. どのレベルを目指すのか? A. 介助犬タスク+ホームデバイスを目指す これから ホームロボットによる生活支援 およびQoL向上 現在、介助犬が担っているタス クをロボットが分担 (現状の介助犬ユーザ≒ポテン シャルユーザの0.5%) 【背景】あと13年で主要7ヶ国(G7)全 てで高齢化率が20%を超える [総務省] 社会課題:少子高齢化 家族の世 話を分担 してほし い 簡単なこと は人に頼み にくい… 介助犬は世 話できない 2030 片付けてお きます 何をとってきま しょうか? いつもの洗剤、 なくなりそうで すよ。 ※介助犬育成費用は1頭300万円以上
  14. 14. ロボカップ@ホーム: 生活支援ロボットのベンチマーキングテスト 世界大会優勝(2008, 2010),準優勝(2009, 2012):玉川大、電通大と共同 14
  15. 15. ロボカップ関連の社会展開 • Quince: ロボカップレスキューから原子炉建屋投入へ • Kiva SystemsをAmazonが7.75億ドルで買収 → 年間 4.5~9億ドルのコスト削減効果* – 2016年Amazon Picking ChallengeはRoboCupと共催 • ロボカップでのNAOの採用を機にAldebaranが業績を伸 ばし、ソフトバンクが1億ドルを出資 →Pepperの原形 15 by Kiva SystemsQuince NAO:5000台稼働 *Janney Capital Marketsによる試算
  16. 16. ロボカップ@ホームの概要 • 生活支援ロボットの競技会として世界最大* – ロボカップのリーグのひとつ – 中心課題:移動マニピュレーション・ヒューマンロボットインタラクション – 8個の規定タスクと3つのデモタスクにより評価される • 技術的難しさ – 未知環境での移動(実店舗)、日用品の把持、騒音化での音声対話 16
  17. 17. 家庭用ロボットの標準化で開発を加速 • 背景 – 標準ハードウェアの成功(NAO→Pepper) – 標準ミドルウェアROS:3000以上の公開パッケージ • 標準機の選定 – 11社の応募からToyota HSRとPepperを選出 • スケジュール – 2016/11/25締切:無料リースユーザ(条件有)を募集 – 2017/7:ロボカップ世界大会@名古屋で競技開催 2016/7/3 日経新聞1面
  18. 18. 規定タスク(2015年) Stage タスク名 内容 場所 1 Manipulation and Object Recognition 棚に置いてある物体についてPick & Placeタスクを複数回行う フィールド Navigation フィールド中を移動したのちフィールド外で人を追従する フィールド 外部 Person Recognition 複数の人物がいる状況において、顔画像の学習と性別推定を行う フィールド Speech Recognition & Audio Detection 音声認識および音源方向推定を計10回行う フィールド RoboZoo 並んだ展示ブースでロボットにパフォーマンスを行わせ、観客に 投票させる フィールド General Purpose Service Robot 複文の指示の解釈、曖昧な指示を明確化(例:「何の飲み物を 持ってきますか」)し,指示を実行する フィールド 2 Open Challenge 自由に選んだテーマに関する研究要素のデモ フィールド Restaurant レストランにおいて、場所を学習したのち、ロボットを呼んだ人 を発見して注文を取り、オブジェクトを届ける 外部 Robo-Nurse ボトルに入った薬を把持するとともに、動作を認識して必要な支 援を行う フィールド Wake Me Up ユーザに注文された朝食を運ぶとともに、スマートホームの制御 を行う フィールド 決勝 Final 自由に選んだテーマに沿ったデモ フィールド
  19. 19. 実世界知識を扱う音声対話技術 19
  20. 20. 「実際に役立つロボット」の対話機能開発には何が欠けているのか? 背景 スマホやホームデバイスでは音声 言語処理が価値を創出 音声認識分野の市場規模 880億円@2013→1700億円@2018予測* 今日の予定は? * NEDO, TSC Foresight Vol.8, 2015 ○○に電話を かけて 質問応答 ・検索で の利便性 位置 連絡先 履歴 ロボット対話機能の現状 音声言語処理で利便性を提供できて いない* 牛乳まだ残って たっけ? 新聞片付け といて ?? ?? どれを、どこに、どうやって、開 始終了条件、をユーザが明示的に 指定しなければ動作できない *展示会に限れば流暢に会話するように見えるロボット⇔実際には騒音や会話における省略の処理が不十分
  21. 21. マルチモーダル言語理解に関する国内外の研究動向 Kollar+ 2010 HRI 2010 Best Paper • 入力:テキスト、LRF、画像等 → 出力:移動 • 例:”Go down the hallway” Iwahashi & Sugiura+ 2010 • 入力:(動)画像および音声 → 出力:物体操作 • 例:”(赤い箱に)ぬいぐるみのせて” Visual QA[2015-] 参加30チーム以上 • 入力:画像+質問 → 出力:回答 • 例:”How many elephants are there?” -> “2” 言語命令によるドローン操作(MIT) 画像からの説明文生成(Stanford Univ.)
  22. 22. LCore: マルチモーダル音声対話フレームワーク [Iwahashi, Sugiura, et al 2010] Key features • 全語彙が実世界情報にグラウンド • 物体学習 • 模倣学習 • 言語非依存 • 「誰に、どう応答すべきか」の学習 22
  23. 23. 応用対話システム: 評価グリッド対話およびLESSONS LEARNED
  24. 24. 観光スポット探しに必要な労力を削減する[杉浦+ 2014] 京のおすすめ(2011) • 提案手法 – 「癒されたい」などの曖昧な嗜好に合うスポットを推薦(重みつ きナイーブベイズモデル) – 評価グリッド法による嗜好の構造化・定量化 • 社会展開 – スマートホンアプリ(2011年公開)、京都市観光局のウェブサ イト(月間訪問者386,000)へのアルゴリズムの導入 対話システムHANNA (2011)
  25. 25. ラダリング(深堀り 対話) 評価グリッド対話から推薦システム構築まで 個人の評価構造抽出 クラウドソーシング による項目抽出 「金閣寺は、□□の で、△△から○○と 思うのでまた行きた い」 クラウドソーシング によるデータ収集 (2000名) 共分散構造分析 ・リンクの重み推定 推薦システム 神社仏閣 厳かな 幻想的な タイムスリップできる 人と共感し合える リラックスする ワクワクする 特別公開 綺麗な 格式が高い 散策できる 公園 癒される バリアフリー ライトアップ 静かな 有名な 感動する 一度に幾つか見学できる 特徴 イメージ 機能的ベネフィット 情緒
  26. 26. デモ:ブラウザから利用可能 • 京都観光Navi: 月間訪問者数 38万6000人 京都観光Navi(京都市観光局)
  27. 27. まとめ 27
  28. 28. 分野間の関係と将来展望 Cyber world(ウェブ知識源) 推薦予測 音声 対話 行動 認識 Physical world (実世界) サービス例 Human society (人間/社会) 生活 支援 マルチモーダル センサ統合 社会的インパクト 広域データを用い た時系列予測 実世界意味の言語化理論 データ指向 ロボティクス 環境データ 動作理解 ユーザモデルの 推定と利用 何か食べたい 台所のシリアル 取ってきますね 生活支援ロボット

×