Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

実世界の意味を扱う理論と機械知能の構築

1,200 views

Published on

2016/4/13

Published in: Technology
  • Be the first to comment

実世界の意味を扱う理論と機械知能の構築

  1. 1. 実世界の意味を扱う理論と 機械知能の構築 国立研究開発法人 情報通信研究機構 杉浦孔明
  2. 2. 最近ロボティクスx人工知能は応用面から注目されてい るが、基礎研究への投資も重要 2012 Amazonが約650億円でKiva Systemsを買収 2013 Googleが約100億円でロボットベンチャー8社を買収 2014 ソフトバンクがPepperを発売することを発表 2015-16 産総研AIセンター、理研AIP設立。約10億円/年規模の投資 2016 トヨタリサーチインスティテュート設立。約1000億円/5年の投資 2018/20 首相「2020年に東京ロボット五輪開催」→ロボット国際競技大会 by ソフトバンクHPby Economistby Double Robotics HP 応用成果は長期・地道な基礎研究活動の うえに得られた賜物
  3. 3. 実世界知識を扱う音声対話 3
  4. 4. 対話システムの実際=人手のルールが重要 • 音声対話システムの例 – Siri、しゃべってコンシェル、Pepperなど • 実際 – (機械学習もあるが)膨大なルールを人手で用意している 4 • ロボットとの音声対話 – 時々刻々変化する環境のなかで、認識・行動を人手で 全て記述できるか?→できない
  5. 5. 背景:現在の音声対話技術にとって、実世界情報に基づい た言語処理は困難である • 現状では難しい例 – 「新聞片付けといて」「いつものあれ持ってきて」 • 本発表での「ロボット対話」の定義 – 実世界情報をカテゴリ化・予測し、実世界を操作可能 な対話 5 「新聞」:家の中に複数ある 「いつものあれ」:傘,リモコン,飲み物,…
  6. 6. 海外の動向 Winograd (1970s) SHRDLU: シミュレーションでの物体操作 Kollar+ 2010 HRI 2010 Best Paper • 入力:移動表現、LRF、オドメトリ、画像 • 例:”Go down the hallway” Yu+ 2013 ACL 2013 Best Paper • 入力:ビデオおよび内容を表す文 • 例:”The person to the left of the backpack carried the trash-can towards the chair” DARPA BOLTプロジェ クト • 約44億円/年を投資(2011~15年) • 翻訳と並びGrounded Language Learningが1つの柱
  7. 7. LCore:実世界コミュニケーションフレームワーク(2007) • LCoreができること – 単語学習、動作学習、文法学習、発話理解・生成、など
  8. 8. ユーザ発話の解釈に非言語情報を利用 [Iwahashi & Sugiura, 2010] ユーザ発話の解釈に非言語情報を利用 8 マルチモーダル 発話理解 音声 (HMM) 動作 (HMM) 視覚 (ガウス分布の ベイズ学習) 動作-オブジェクト関係 (ガウス分布のベイズ学習) 行動コンテキスト (MCE学習)weight
  9. 9. マルチモーダル入力に基づく意思決定: 各モダリティの尤度を考慮して出力行動を決定する 9 コンテキスト状況行動発話 音声スコア 予測軌道スコア 視覚特徴 動作-オブジェクト関係 行動コンテキスト
  10. 10. 発話理解確率の推定と 期待効用最大化による応答生成[杉浦+2010] 10 1st 2nd 30th … … 1st 2nd 30th 杉浦ら, “言語獲得ロボットによる発話理解確率の推定に基づく…”, ロボット学会誌, Vol. 28, No. 8, 2010 • 提案手法のメリット – 単純な復唱ではユーザが意図しない動作を行う危険性がある – 例:「カップのせて」→「赤いカップをテーブルにのせていいですか」 マージン エルモのせて
  11. 11. 物体操作の模倣学習[Sugiura+ 2011*] • 難しさ: 世界座標系における軌道のクラスタリングは有効でない • 提案手法 – 入力: 全オブジェクトの位置時系列 – EMアルゴリズムによる参照点・座標系の推定 – cross-validationによる状態数の推定 “AをBにのせる” 11 *IEEE IROS RoboCup Best Paper Award (採択率34%, 採択論文790のうち7本表彰)
  12. 12. HMM合成*による連続軌道の生成 : 状態列 : HMMパラメータ : 位置・速度・加速度の時系列 最尤軌道 *Tokuda, K. et al, “Speech parameter generation algorithms for HMM-based speech synthesis”, 2000 : OPDF平均ベクトルの ベクトル : OPDF共分散行列の行列 : 差分近似係数の行列 : 位置時系列 12
  13. 13. (付録)座標系の推定結果 Place-on Move-closer Raise Rotate Jump-over Move-away Move-down Loglikelihood Position Velocity Training-set likelihoodMotion “place A on B” No verb is estimated to have WCS -> Reference-point-dependent verb
  14. 14. ユーザ発話の言い換えによる確認発話生成 14 • 学習フェーズ ベイズロジスティック回帰による 発話理解確率の推定 • 入力:マージン(d) • 出力:発話理解確率 マージン 発話理解確率 • 実行フェーズ 期待効用最大化による応答選択 14
  15. 15. 能動学習対話:発話理解確率を最小発話数で推定 • 何が問題か – 安全面の理由から「ユーザ命令→ロボット動作」で得られたサ ンプルで「ロボット発話→ユーザ動作」を近似したい – 最速で発話理解確率を学習したい • 提案手法 – Expected log loss reductionによる発話の選択 Target action Robot utterance Loss Act=A, Objs = <1,3> “Place-on Elmo blue box” 35.8 Act=A, Objs = <1,3> “Place-on Elmo” 12.3 Act=A, Objs= <1, 2> “Place-on Elmo” 28.1 : : : Act=B, Objs=<2> “Raise box” 332.3 : : :
  16. 16. ELLR規準による発話選択 Expected Log Loss Reduction規準 発話理解確率(ベイズロジスティッ ク回帰で学習) L: log損失 16
  17. 17. インテリジェントホームロボティクス 17
  18. 18. 背景: 日常タスクを支援すれば、要支援者の健康的な住 生活を維持できる 買物弱者の数 ≒700万人(経産省) 要支援者の例 外出が難しい。 運ぶのが重い 気づいたらなく なっていた忙しくてスーパー に行けない 留守で配達を 受取れない
  19. 19. 背景: 日常タスクを支援すれば、要支援者の健康的な住 生活を維持できる 未来の生活 買物弱者の数 ≒700万人(経産省) 要支援者の例 外出が難しい。 運ぶのが重い なくなりそうな消耗品を先 回りしてお知らせ 不在時にも代理で受取 気づいたらなく なっていた忙しくてスーパー に行けない 留守で配達を 受取れない 代理で受取 ります ご不在中にどれ くらい減ってい るか測ります いつもの洗剤、 なくなりそうで すよ。 購入リンクを 送ります
  20. 20. 背景: 日常タスクを支援すれば、要支援者の健康的な住 生活を維持できる 未来の生活 買物弱者の数 ≒700万人(経産省) 要支援者の例 外出が難しい。 運ぶのが重い なくなりそうな消耗品を先 回りしてお知らせ 不在時にも代理で受取 気づいたらなく なっていた忙しくてスーパー に行けない 留守で配達を 受取れない 代理で受取 ります ご不在中にどれ くらい減ってい るか測ります いつもの洗剤、 なくなりそうで すよ。 購入リンクを 送ります
  21. 21. ロボカップ@ホーム 世界大会優勝(2008, 2010),準優勝(2009, 2012):玉川大、電通大と共同 21
  22. 22. ロボカップ@ホームの概要 • 生活支援ロボットの競技会として世界最大* – ロボカップのリーグのひとつ – 中心課題:移動マニピュレーション・ヒューマンロボットインタラク ション – 7個の規定タスクと3つのデモタスクにより評価される • 参加チーム – 約15か国の大学・研究機関から200人以上の参加者 – 6~10人程度のチームが多い 22 *同様の競技会として、Mobile Manipulation ChallengeやSemantic Robot Visionがある
  23. 23. 規定タスク(2015年) Stage タスク名 内容 場所 1 Manipulation and Object Recognition 棚に置いてある物体についてPick & Placeタスクを複数回行う フィールド Navigation フィールド中を移動したのちフィールド外で人を追従する フィールド 外部 Person Recognition 複数の人物がいる状況において、顔画像の学習と性別推定を行う フィールド Speech Recognition & Audio Detection 音声認識および音源方向推定を計10回行う フィールド RoboZoo 並んだ展示ブースでロボットにパフォーマンスを行わせ、観客に 投票させる フィールド General Purpose Service Robot 複文の指示の解釈、曖昧な指示を明確化(例:「何の飲み物を 持ってきますか」)し,指示を実行する フィールド 2 Open Challenge 自由に選んだテーマに関する研究要素のデモ フィールド Restaurant レストランにおいて、場所を学習したのち、ロボットを呼んだ人 を発見して注文を取り、オブジェクトを届ける 外部 Robo-Nurse ボトルに入った薬を把持するとともに、動作を認識して必要な支 援を行う フィールド Wake Me Up ユーザに注文された朝食を運ぶとともに、スマートホームの制御 を行う フィールド 決勝 Final 自由に選んだテーマに沿ったデモ フィールド
  24. 24. 24
  25. 25. タスクの難しさ • モバイルマニピュレーション – 未知環境における地図作成・移動 – 観客(移動障害物)の存在 – 実際の店舗の利用 – 日用品の物体認識・把持 • ヒューマンロボットインタラクション – 高騒音環境(Leq=75dB) – 頑健な対話処理 – ジェスチャ認識 25
  26. 26. LCore応用例1: 家事動作の模倣学習 模倣学習モジュールの内部構成「捨てる」動作の模倣学習例 「捨てる」と発話しながら 空き缶 を捨てる動作を数回見せる 空き缶 と ゴミ箱 が「捨てる」に関連することを自動推定。空き缶の移動軌道 を一般化して「捨てる」という音声と対応づける 教師: ロボット: 「ペットボトルをゴミ箱に捨てる」と指示 他の場所にある ペットボトル と ゴミ箱 を探し、「捨てる」軌道を実行 利用者: ロボット: 対話例 26
  27. 27. LCore応用例2: 未知語学習 • 未知語学習の難しさ:音素認識の精度は高くない • 提案手法 – 音素列(認識用) – EigenVoice Gaussian Mixture Modelによる声質変換(合成) Nakamura, T., Sugiura, K.et al, Learning Novel Objects for …", Journal of Intelligent and Robotic Systems, 2011 CMOS(2者の比較)を評価尺度として比較 • ベースライン手法(音素列を合成)より 提案手法が好まれた 27
  28. 28. 規定タスク例:Restaurant(2014年) 項目 配点 項目毎最高点 平均点 Guide phaseで5箇所移動 50 x 5 250 143 Navigation phaseで4箇所移動 100 x 4 200 50 オブジェクトを把持 250 x 3 500 45 • 未知環境(実際の店舗)で棚から3個のオブジェクトを持ってくる • ロボットを別の会場(実際の店舗)に輸送してタスクを行う
  29. 29. 標準タスクの中で最も難しいタスク: Enduring General Purpose Service Robots 29 NimbRo(ボン大学)
  30. 30. (補足)ロボカップ関連の社会展開 • Quince: ロボカップレスキューから原子炉建屋投入へ • Kiva SystemsをAmazonが7.75億ドルで買収 → 年間4.5 ~9億ドルのコスト削減効果* • ロボカップでのNAOの採用を機にAldebaranが業績を伸ば し、ソフトバンクが1億ドルを出資 →Pepperの原形 30 by Kiva SystemsQuince NAO *Janney Capital Marketsによる試算
  31. 31. 共通プラットフォームを用いた競技の可能性 • 背景:Soccer SPLにおけるNAOの成功 →ロボカップ@ホームについても標準プラットフォームを策定 • 現状 – 11社から有力なプラットフォームの応募があった – インテリジェントホームロボティクスにおける国際標準プラッ トフォームになる可能性 2015/7 標準プラットフォーム募集開始 2015/12 標準プラットフォーム第1次審査完了 2016/7 標準プラットフォームデモおよび最終審査 2016/7-9 標準プラットフォーム決定 2017/3 日本にてRoboCup@Home SPL試行 2017/7 RoboCup@Home SPL開始 2017年世界大会@名古屋に ぜひご参加ください (申込締切2017/1予定)
  32. 32. クラウドロボティクス基盤の構築とスパイラル 的改善 32
  33. 33. 背景:ロボット対話の開発において、音声認識や合成が 低コスト化を妨げている • 想定するタスク – サービスロボットとのインタラク ション • ロボット開発者が直面する壁 – コストと比較して、音声認識・合成の性能が悪い XIMERA 3 (読み上げ) 声優
  34. 34. デモ(「非モノローグ音声合成」で検索) 34
  35. 35. 非モノローグ音声合成 • 音声収録では「モノローグ収録」が 一般的 – メリット:ナレーションに向く。 コストが安い – デメリット:会話の特徴は収録さ れない 分野 代表的な既存研究 音声合成 • 感情音声合成サーベイ [Schroder 2001] • 製品・フリーソフト (VoiceText, AITalk, CeVIO, Open Jtalk等) ロボティクス • 感情ごとに合成パラメータ変更 [Breazeal 2004] 対話システム • 感情ごとにHMMモデル構築 [Iwata+ 2011] • 対話コーパスを用いたTTS [Koriyama+ 2011]
  36. 36. 非モノローグHMM音声合成により、対話に適した 音声合成が可能 • 声優の掛け合い対話コーパスを構築 – 約10時間(16,538文) • サービスロボットタスクでは上限に近い品質 • 読み上げタスクでもベースラインと同等 Sugiura, K.et al, ICRA14 36 上限 ベースライン 提案手法
  37. 37. デモ 37
  38. 38. Rospeex:多言語音声対話のためのクラウドロボティクス基盤* • 3万ユニークユーザ • ロボット向けに特化した音声合成 [Sugiura+ 2014] • 多言語の音声認識および合成 Python & C++のサンプル を公開中 rospeex Search * 研究開発目的の利用に限る
  39. 39. ネットワーク接続を前提とすれば音声対話に関する 問題を解決できる クラウドAPI型 (Google, Microsoft, Nuance, NTT docomo, Wit.ai,など) フリーソフト 商用ソフト OpenHRI, PocketSphinx, Festival クラウド型 スタンドアロン型 ロボットミドル ウェア対応 対応無 39 低スペックなマシン では非合理的  ロボット関連ログ が埋もれる  要認証 品質に問題  価格が疑問  rospeexユーザの分布 rospeexの利活用事例(3万ユニークユーザ*) 高齢者施設での会話活性化、サービスロボッ トへの音声指示、ヒューマノイド、対話エー ジェント、カーナビ・スマートホーム向け音 声インタフェース、など
  40. 40. rospeexが提供する機能 rospeex core Dialogue management (written by user) Speech synthesis Speech Output Speech recognition Rospeex cloud TTS Noise reduction Voice activity detection Third party’s ASR API Browser UI OR Smarphones On-board mic Task management Rospeex cloud ASR What time is it? It’s 6 pm. Third party’s TTS API Speech synthesis designed for robots WER = 7.9% for IWSLT tst2011 (1st Place Winner: IWSLT12, 13, 14)
  41. 41. 付録1:Q「クラウドって遅いんじゃないの?」 →A.分割送信を導入し必要時間は3.44→0.84秒に短縮された • 目的:代表的な利用環境での分割送信速度を計測する • コーパス:ATR503文の中からVADが成功した495文 • 通信環境:サーバと異なるIPドメインからの無線接続 短縮 音声 処理通 信 通 信一括 分割 頻 度 ※RTF≒0.7 ([Sugiura+ Adv Rob. 15]) 速度が大幅に向上した (中央値は3.44秒→0.8秒)
  42. 42. 付録2:ホームロボット関連の発話を解析し、5割は1問 1答的であることがわかった • 2014/1/1~11/28までのログ(日本語):44960発話 • 音声認識結果のうち、頻度3以上のものを抽出 カテゴリ 数 例 挨拶・雑談 1894 こんにちは、君は誰 1問1答型質問 1153 今何時、今日の予定を教えて 指示発話(移動・把持) 258 止まれ、右へ折れて 指示発話(家電操作) 229 テレビをつけて、電気を消して 指示発話(認識・学習) 215 ここはどこ、あれを見て 指示発話(その他) 41 手を上げろ、終わり その他(判別不能等) 2205 (検索・回答、誤認識、判別不能 など) 質問応答APIでの対応が楽 知覚運動系にグラウンドし ているが、1問1答型的 音声認識精度改善、 グラウンドした対話処理
  43. 43. 付録3:音声合成リクエストは個人依存性が高く、ローカ ルキャッシュを導入すれば高速化できることがわかった • 問題意識:開発者は同じ発話を使いまわしているのか?そうであれば、 将来的にローカルキャッシュを導入すれば体感的に高速化できる 2回以上使用 された文 1回のみ使用 された文 頻度 ユーザID • 上位88ユーザの結果 – 平均50.4%は履歴に含まれる文 – 各自が使用している文は200種類以下 クラウド基盤を構築してはじめて わかったロボット開発者の傾向 キャッシュを導入すれば、 通信時間が不要になる
  44. 44. rospeex.orgにチュートリアルが用意されています 44
  45. 45. 将来展望 45
  46. 46. 今後の世界をどう見ているか: 言語化できれば利用できる実世界情報は多い • 大規模データは研究テーマを生む – c.f. 音声認識分野のメインプレーヤは、数千時間規模のコーパスを 利用してサービスを行い、スパイラル的に改善を行っている 46 • ロボティクスでも同様の技術革新を起こせるはず – 軌道計画、物体認識、対話、シミュレーションなど – →「データ指向ロボティクス」 • 現状:全世界のデータのうち – 99.94%が検索エンジン対象外*(非言語非構造化データ)
  47. 47. 展望: 実世界の意味を扱う理論・機械知能を構築し、社会が必要とする 革新的サービスを実現します Cyber world(ウェブ知識源) 推薦予測 音声 対話 行動 認識 Physical world (実世界) サービス例 Human society (人間/社会) 生活 支援 マルチモーダル センサ統合 何か 食べたい キッチンにある クッキーを取っ てきますか? 社会的インパクト 広域データを用い た時系列予測 実世界意味の言語化理論 データ指向 ロボティクス 環境データ 動作理解 生活支援ロボット ユーザモデルの 推定と利用
  48. 48. 着手例:大気汚染の予測精度を向上させることで医療コス トを軽減できる可能性があるが、現状の精度は十分でない • PM2.5と大気汚染の損失 – 早期死亡者数=330万人/年 [Lelieveld, Nature, 2015] • PM2.5予測の難しさ – 政府勧告手法による精度:42%* (福岡, 2014) • 時系列に特化したdynamic pretrainingを提案し、DRNNと大規模データで 予測モデルを学習 →気象モデルを超える予測精度 *threat score=TP/(TP+FP+FN) 関東エリアの死者 ≒6000人(2010年) [Ong & Sugiura, IEEE BigData 2014]合肥(2015) スモッグで曇る
  49. 49. まとめ 49
  50. 50. 50 実世界の意味を扱う理論と機械知能の構築 - 実世界知識を扱う音声対話 - インテリジェントホームロボティクス - クラウドロボティクス基盤の構築とスパイラル的改善

×