Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
探索的検索のための 音声入力インタフェースの検討 西本卓也(東京大学) 岩田英三郎 ・ 櫻井 実 ・ 廣瀬治人 (ユニバーサルロボット)
探索的検索と音声入力 <ul><li>欲しい情報がどこにあるか分からない </li></ul><ul><ul><li>巨大なメニューを操作するタスク </li></ul></ul><ul><ul><ul><li>ショッピングサイト </li><...
HMI 原則と音声インタフェース <ul><li>原則に基づく音声認識の応用  [西本他 96 /予稿] </li></ul><ul><ul><li>基本原則 </li></ul></ul><ul><ul><ul><li>操作労力、システムの透...
システムの透過性 <ul><li>音声認識=広く使われているとは言えない </li></ul><ul><ul><li>課題:頑健性(耐雑音・残響・話者など)だけ? </li></ul></ul><ul><li>応答遅延は使いにくさの要因? </...
音声認識におけるリアルタイム性 <ul><li>リアルタイム音声認識の技術 </li></ul><ul><ul><li>例:放送字幕システム  [安藤 03 ] </li></ul></ul><ul><ul><ul><li>ニュース音声を遅れ2...
音声入力と効率性 <ul><li>すべて音声で操作を行うと最後はうんざり </li></ul><ul><ul><li>代替手段の方が妥当な場合も多い </li></ul></ul><ul><ul><li>全体として「楽であること」が考慮されてい...
対面朗読の分析とウェブ実装 <ul><li>探索的検索タスクとしての「お弁当選択」 </li></ul><ul><ul><li>対面朗読者の技能をシステム化 </li></ul></ul><ul><li>視覚障害者の指摘  [西本他 07 ] ...
効率性とインクリメンタル検索 <ul><li>候補が減っていくことを可視化 </li></ul><ul><ul><li>キーボード  : Emacs, iTunes, ... </li></ul></ul><ul><ul><li>ajax : ...
画面例:初期状態
画面例:詳細表示と決定操作
画面例:部分発話による絞り込み <ul><li>「ハンバーグ」->「チキン」と発話 </li></ul><ul><ul><li>認識結果=「ハンバーグ」「チキンカツ」 </li></ul></ul>
提案システム:設計と画面構成 <ul><li>クエリーと候補の視覚化 </li></ul><ul><ul><li>サーチ:音声入力、語彙 </li></ul></ul><ul><ul><li>リセット操作 </li></ul></ul><ul>...
システム透過性と直接操作 <ul><li>間接操作=秘書型 </li></ul><ul><ul><li>「対話」に主眼をおいた音声 IF </li></ul></ul><ul><ul><li>音声+間接操作 </li></ul></ul><ul...
HMI 基本原則への適合 <ul><li>操作労力最小化の原則 </li></ul><ul><ul><li>部分発話を許容:音声入力の労力を最小化 </li></ul></ul><ul><li>システム透過性の原則 </li></ul><ul>...
HMI 構成原則への適合 <ul><li>初心者保護の原則 </li></ul><ul><ul><li>直感的な操作と画面構成 </li></ul></ul><ul><li>熟練者優遇の原則 </li></ul><ul><ul><li>最後まで...
予備的評価 <ul><li>仮説 </li></ul><ul><ul><li>低遅延でユーザにフィードバックができれば、 完璧な認識でなくても許容されるのではないか? </li></ul></ul><ul><li>検証( 2007-07 ) <...
語彙と認識結果 <ul><li>多くの項目名=他の名前のサブワード </li></ul><ul><li>項目名とサブワード発話がマッチしやすい </li></ul><ul><ul><li>のりめんたい ← めんたい </li></ul></ul...
国際ロボット展( 2007 年 11 月)
国際ロボット展の反応 <ul><li>評価者=約 30 人 </li></ul><ul><li>接話マイク(ヘッドセット) </li></ul><ul><ul><li>PTT は使用しない </li></ul></ul><ul><ul><li>...
まとめ <ul><li>探索的検索のための音声入力利用 </li></ul><ul><ul><li>とにかく早く反応させたい </li></ul></ul><ul><ul><li>言いたいことが通じたら最後まで言う必要はない </li></ul...
音声による探索的検索の可能性 <ul><li>発声してみると自分の欲しいものが分かる </li></ul><ul><ul><li>とにかく喋ってみる </li></ul></ul><ul><ul><li>思っていること->求めていること </l...
今後の課題:評価 <ul><li>遅延の大小と使いやすさ </li></ul><ul><ul><li>入力発話に対してどのくらい低遅延になったか </li></ul></ul><ul><ul><ul><li>ロギング? </li></ul></...
実装の環境 <ul><li>Julian rev.3.5.2-galatea (fast) </li></ul><ul><ul><li>ネットワーク文法に対応する連続単語音声認識 </li></ul></ul><ul><ul><ul><li>孤...
タスク:認識候補語彙 <ul><li>孤立単語のみを認識する文法を作成 </li></ul><ul><li>弁当屋のメニュー( 73 種類) </li></ul><ul><ul><li>玉子丼、のり弁、おにぎりセット、のりメンタイ、チキンカツ、...
Julian が出力するイベントと情報 <ul><li>本実装では発話中に得られる情報のみ使用  </li></ul><ul><ul><li>発話開始を検出 </li></ul></ul><ul><ul><ul><li>入力同期で第 1 パスを...
実装(音声) <ul><li>入力音声を含む候補を選択して表示 </li></ul><ul><ul><li>Julian から得られる音声の音素記号 </li></ul></ul><ul><ul><li>第 1 パス実行中の結果を 50ms 毎...
評価:比較実験の可能性 <ul><li>候補数だけを視覚化すればいい? </li></ul><ul><ul><li>リスト表示ではなく </li></ul></ul><ul><ul><li>候補を数字で出す?棒グラフのような視覚化? </li>...
Upcoming SlideShare
Loading in …5
×

探索的検索のための音声入力インタフェースの検討

1,408 views

Published on

情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

探索的検索のための音声入力インタフェースの検討

  1. 1. 探索的検索のための 音声入力インタフェースの検討 西本卓也(東京大学) 岩田英三郎 ・ 櫻井 実 ・ 廣瀬治人 (ユニバーサルロボット)
  2. 2. 探索的検索と音声入力 <ul><li>欲しい情報がどこにあるか分からない </li></ul><ul><ul><li>巨大なメニューを操作するタスク </li></ul></ul><ul><ul><ul><li>ショッピングサイト </li></ul></ul></ul><ul><ul><ul><li>情報家電の操作も </li></ul></ul></ul><ul><ul><li>キーワード検索が有効 </li></ul></ul><ul><ul><li>ブラウジングも必要 自分の要求と候補を比較 </li></ul></ul><ul><li>キーボードの使えない情報機器 </li></ul><ul><ul><li>情報家電、モバイル </li></ul></ul><ul><ul><ul><li>PC ならキーボード入力による検索が可能 </li></ul></ul></ul><ul><ul><li>要求=音声入力を有効に使いたい </li></ul></ul>
  3. 3. HMI 原則と音声インタフェース <ul><li>原則に基づく音声認識の応用 [西本他 96 /予稿] </li></ul><ul><ul><li>基本原則 </li></ul></ul><ul><ul><ul><li>操作労力、システムの透過性、頑健性 </li></ul></ul></ul><ul><ul><li>構成原則 </li></ul></ul><ul><ul><ul><li>初心者保護、熟練者優遇、上級利用移行支援 </li></ul></ul></ul><ul><ul><li>導入原則 </li></ul></ul><ul><ul><ul><li>有用性、適合性、妥当性 </li></ul></ul></ul><ul><li>本研究の目的 </li></ul><ul><ul><li>探索的検索における音声利用の可能性を示す </li></ul></ul>
  4. 4. システムの透過性 <ul><li>音声認識=広く使われているとは言えない </li></ul><ul><ul><li>課題:頑健性(耐雑音・残響・話者など)だけ? </li></ul></ul><ul><li>応答遅延は使いにくさの要因? </li></ul><ul><ul><li>認識完了を待たなくてはならない </li></ul></ul><ul><ul><ul><li>人間は相手の表情から反応を読む </li></ul></ul></ul><ul><ul><ul><ul><li>一方が話している間も頷いたり首をかしげたり、 聞き取りにくければ直ちに「え?」と聞き返す </li></ul></ul></ul></ul><ul><ul><ul><ul><li>分かっているのか分かっていないのか 反応がある人とは会話しやすい [嵯峨山他 04 ] </li></ul></ul></ul></ul><ul><li>要求:入力発話中に逐次反応するシステム </li></ul><ul><ul><li>従来:性能は重視するが応答遅延に寛容 </li></ul></ul>
  5. 5. 音声認識におけるリアルタイム性 <ul><li>リアルタイム音声認識の技術 </li></ul><ul><ul><li>例:放送字幕システム [安藤 03 ] </li></ul></ul><ul><ul><ul><li>ニュース音声を遅れ2秒以内で(要求) </li></ul></ul></ul><ul><ul><ul><ul><li>2パスデコーダを改修して一定フレームごとに結果を確定 </li></ul></ul></ul></ul><ul><li>発話中にうなずく対話システムの試作 </li></ul><ul><ul><li>NTT や早稲田大学など </li></ul></ul><ul><ul><ul><li>WFST 利用の提案など </li></ul></ul></ul><ul><ul><li>可能性を示すデモ </li></ul></ul><ul><ul><ul><li>汎用的な枠組みとしての評価はなされていない </li></ul></ul></ul><ul><ul><ul><li>効率性には貢献していない </li></ul></ul></ul>
  6. 6. 音声入力と効率性 <ul><li>すべて音声で操作を行うと最後はうんざり </li></ul><ul><ul><li>代替手段の方が妥当な場合も多い </li></ul></ul><ul><ul><li>全体として「楽であること」が考慮されていない </li></ul></ul><ul><li>無駄な発話をさせない音声 IF が必要 </li></ul><ul><ul><li>音声認識は人間に不必要に喋らせる? </li></ul></ul><ul><li>マルチモーダル+インクリメンタル検索? </li></ul><ul><ul><li>無駄な入力をさせないために </li></ul></ul>
  7. 7. 対面朗読の分析とウェブ実装 <ul><li>探索的検索タスクとしての「お弁当選択」 </li></ul><ul><ul><li>対面朗読者の技能をシステム化 </li></ul></ul><ul><li>視覚障害者の指摘 [西本他 07 ] </li></ul><ul><ul><li>キーボードによる操作の方が効率的 </li></ul></ul><ul><ul><ul><li>音声対話は必ずしも快適ではない </li></ul></ul></ul><ul><ul><ul><li>選択肢が適切であれば音声入力は不要? </li></ul></ul></ul><ul><ul><li>常に取り消しができることが重要 </li></ul></ul><ul><ul><ul><li>試行錯誤を許容すること </li></ul></ul></ul><ul><ul><li>検索のフィードバック=候補数の減り方 </li></ul></ul><ul><ul><ul><li>効率的に操作できているという実感 </li></ul></ul></ul>
  8. 8. 効率性とインクリメンタル検索 <ul><li>候補が減っていくことを可視化 </li></ul><ul><ul><li>キーボード : Emacs, iTunes, ... </li></ul></ul><ul><ul><li>ajax : Google Suggest </li></ul></ul><ul><li>ラスキン「ヒューメイン・インタフェース」 </li></ul><ul><ul><li>インクリメンタル検索の有効性を主張 </li></ul></ul><ul><ul><li>音声入力での実現可能性も示唆 </li></ul></ul><ul><ul><ul><li>詳細は不明 </li></ul></ul></ul><ul><li>提案=「音声インクリメンタル・サーチ」 </li></ul><ul><ul><li>発話中に候補やその個数を逐次表示 </li></ul></ul><ul><ul><li>内容が確定したら発話を中断してもよい </li></ul></ul>
  9. 9. 画面例:初期状態
  10. 10. 画面例:詳細表示と決定操作
  11. 11. 画面例:部分発話による絞り込み <ul><li>「ハンバーグ」->「チキン」と発話 </li></ul><ul><ul><li>認識結果=「ハンバーグ」「チキンカツ」 </li></ul></ul>
  12. 12. 提案システム:設計と画面構成 <ul><li>クエリーと候補の視覚化 </li></ul><ul><ul><li>サーチ:音声入力、語彙 </li></ul></ul><ul><ul><li>リセット操作 </li></ul></ul><ul><ul><ul><li>タイマー:発話終了後 10 秒でクエリー消去 </li></ul></ul></ul><ul><ul><ul><li>「音声入力クリア」ボタン </li></ul></ul></ul><ul><li>比較パレット </li></ul><ul><ul><li>リセット操作:「開始」ボタン </li></ul></ul><ul><ul><li>インスペクター:乗せると詳細情報 </li></ul></ul><ul><ul><li>決定ボックス:乗せると決定 </li></ul></ul><ul><ul><ul><li>関連:オラビーの開発 [西本他 06 ] </li></ul></ul></ul>
  13. 13. システム透過性と直接操作 <ul><li>間接操作=秘書型 </li></ul><ul><ul><li>「対話」に主眼をおいた音声 IF </li></ul></ul><ul><ul><li>音声+間接操作 </li></ul></ul><ul><ul><ul><li>欠点:エージェントは直接の対象ではない </li></ul></ul></ul><ul><li>直接操作=道具型 </li></ul><ul><ul><li>「マルチモーダル」に主眼をおいた音声 IF </li></ul></ul><ul><ul><li>音声+直接操作 </li></ul></ul><ul><ul><ul><li>システム透過性に貢献? </li></ul></ul></ul><ul><ul><ul><li>視覚障害者が求めるものに近い? </li></ul></ul></ul><ul><li>文献: Interface as Mimesis [Laurel 86] </li></ul>
  14. 14. HMI 基本原則への適合 <ul><li>操作労力最小化の原則 </li></ul><ul><ul><li>部分発話を許容:音声入力の労力を最小化 </li></ul></ul><ul><li>システム透過性の原則 </li></ul><ul><ul><li>フィードバックの原則 </li></ul></ul><ul><ul><ul><li>より低遅延で多くの情報を </li></ul></ul></ul><ul><ul><ul><li>提案=データベース検索を用いて音声入力を可視化 </li></ul></ul></ul><ul><li>頑健性の原則 </li></ul><ul><ul><li>提案=音声で候補選択、他のモダリティで決定 </li></ul></ul>
  15. 15. HMI 構成原則への適合 <ul><li>初心者保護の原則 </li></ul><ul><ul><li>直感的な操作と画面構成 </li></ul></ul><ul><li>熟練者優遇の原則 </li></ul><ul><ul><li>最後まで発話しなくてもよい </li></ul></ul><ul><ul><li>省略を許すことがインクリメンタル検索の意義 </li></ul></ul><ul><li>上級利用移行支援の原則 </li></ul><ul><ul><li>語尾の省略が可能=逐次可視化で教示 </li></ul></ul>
  16. 16. 予備的評価 <ul><li>仮説 </li></ul><ul><ul><li>低遅延でユーザにフィードバックができれば、 完璧な認識でなくても許容されるのではないか? </li></ul></ul><ul><li>検証( 2007-07 ) </li></ul><ul><ul><li>2 種類のシステムを比較 </li></ul></ul><ul><ul><ul><li>検索結果をリアルタイムに表示するシステム </li></ul></ul></ul><ul><ul><ul><li>第 2 パスまでの認識結果を待って結果を返すシステム </li></ul></ul></ul><ul><ul><li>少人数ながら仮説に対して賛同が得られた </li></ul></ul><ul><ul><ul><li>被験者 5 名 </li></ul></ul></ul><ul><ul><ul><li>特に項目名が長い場合に有効、との意見 </li></ul></ul></ul>
  17. 17. 語彙と認識結果 <ul><li>多くの項目名=他の名前のサブワード </li></ul><ul><li>項目名とサブワード発話がマッチしやすい </li></ul><ul><ul><li>のりめんたい ← めんたい </li></ul></ul><ul><ul><li>ちきんかつ ← ちきん </li></ul></ul><ul><ul><li>ちんじゃおろーす ← ちんじゃお </li></ul></ul>
  18. 18. 国際ロボット展( 2007 年 11 月)
  19. 19. 国際ロボット展の反応 <ul><li>評価者=約 30 人 </li></ul><ul><li>接話マイク(ヘッドセット) </li></ul><ul><ul><li>PTT は使用しない </li></ul></ul><ul><ul><li>騒音の大きい展示会場 </li></ul></ul><ul><li>候補数を可視化する入力プロセス </li></ul><ul><ul><li>「途中まで音声で」「最後は手で」の有効性を評価 </li></ul></ul><ul><li>対象を直接操作する GUI </li></ul><ul><ul><li>ここまでの有効性は確認できず </li></ul></ul><ul><ul><li>ピンと来ていない? </li></ul></ul>
  20. 20. まとめ <ul><li>探索的検索のための音声入力利用 </li></ul><ul><ul><li>とにかく早く反応させたい </li></ul></ul><ul><ul><li>言いたいことが通じたら最後まで言う必要はない </li></ul></ul><ul><ul><li>可視化:人間のように素早く理解・応答させたい </li></ul></ul><ul><li>音声認識の実装に関する検討ではない </li></ul><ul><ul><li>WFST など既存提案も選択肢 </li></ul></ul><ul><li>意味的合理性と実時間性の重要性? </li></ul><ul><ul><li>意味的合理性=候補絞込みに有用な情報の増加 </li></ul></ul><ul><ul><li>擬人化エージェントを否定する提案ではない </li></ul></ul><ul><ul><ul><li>インクリメンタルサーチの知見をエージェント動作制御に? </li></ul></ul></ul>
  21. 21. 音声による探索的検索の可能性 <ul><li>発声してみると自分の欲しいものが分かる </li></ul><ul><ul><li>とにかく喋ってみる </li></ul></ul><ul><ul><li>思っていること->求めていること </li></ul></ul><ul><ul><li>試行錯誤を促す効果? </li></ul></ul><ul><li>展望:検索と推薦 </li></ul><ul><ul><li>候補の自動グループ化 </li></ul></ul><ul><ul><li>音声コマンドのヒント提示 </li></ul></ul><ul><ul><ul><li>属性検索の場合に有効 </li></ul></ul></ul>
  22. 22. 今後の課題:評価 <ul><li>遅延の大小と使いやすさ </li></ul><ul><ul><li>入力発話に対してどのくらい低遅延になったか </li></ul></ul><ul><ul><ul><li>ロギング? </li></ul></ul></ul><ul><ul><li>どのくらい早い応答が必要か </li></ul></ul><ul><li>低遅延であることがどう有効性につながる? </li></ul><ul><ul><li>不安を感じにくい </li></ul></ul><ul><ul><ul><li>心的負荷、主観評価 </li></ul></ul></ul><ul><ul><li>ユーザがコツをつかみやすい </li></ul></ul><ul><ul><ul><li>タスク成功率 </li></ul></ul></ul><ul><ul><ul><li>発話の音響的尤度 </li></ul></ul></ul>
  23. 23.
  24. 24. 実装の環境 <ul><li>Julian rev.3.5.2-galatea (fast) </li></ul><ul><ul><li>ネットワーク文法に対応する連続単語音声認識 </li></ul></ul><ul><ul><ul><li>孤立単語を受理する文法 </li></ul></ul></ul><ul><ul><li>第1パス結果の逐次出力機能 </li></ul></ul><ul><li>Visual C++ 2005 で実装 </li></ul><ul><ul><li>GLUT </li></ul></ul><ul><ul><li>サーバモードで実行される Julian と socket 通信 </li></ul></ul><ul><li>CodeGear C++Builder 2007 で実装 </li></ul><ul><ul><li>VCL を使用 </li></ul></ul><ul><ul><li>ドラッグ&ドロップの GUI </li></ul></ul>
  25. 25. タスク:認識候補語彙 <ul><li>孤立単語のみを認識する文法を作成 </li></ul><ul><li>弁当屋のメニュー( 73 種類) </li></ul><ul><ul><li>玉子丼、のり弁、おにぎりセット、のりメンタイ、チキンカツ、チキンカツ&ハンバーグ、シャケ弁、親子丼、ビーフカレー、五目ごはん、・・・ </li></ul></ul><ul><li>サブワード候補の選択 </li></ul><ul><ul><li>2 ~ 5 モーラの 12 単語 </li></ul></ul><ul><ul><ul><li>ハンバーグ、カレー、丼、カツ、和風、洋風、中華、 フライ、御膳、デラックス、天、鶏 </li></ul></ul></ul>
  26. 26. Julian が出力するイベントと情報 <ul><li>本実装では発話中に得られる情報のみ使用 </li></ul><ul><ul><li>発話開始を検出 </li></ul></ul><ul><ul><ul><li>入力同期で第 1 パスを実行(単語対文法を適用) </li></ul></ul></ul><ul><ul><ul><li>指定した間隔でフレームごとの 1 位候補を出力 </li></ul></ul></ul><ul><ul><li>発話終了を検出 </li></ul></ul><ul><ul><ul><li>第 1 パス終了イベント、 1 位候補を出力 </li></ul></ul></ul><ul><ul><li>第 2 パスを実行 </li></ul></ul><ul><ul><ul><li>ネットワーク文法を適用、 N-best 計算 </li></ul></ul></ul><ul><ul><ul><li>第 2 パス終了イベント、 N 位候補を出力 </li></ul></ul></ul>
  27. 27. 実装(音声) <ul><li>入力音声を含む候補を選択して表示 </li></ul><ul><ul><li>Julian から得られる音声の音素記号 </li></ul></ul><ul><ul><li>第 1 パス実行中の結果を 50ms 毎に取得 </li></ul></ul><ul><li>クエリーの追加 </li></ul><ul><ul><li>第 2 パス決定を入力終了イベントとして利用 </li></ul></ul><ul><ul><li>発話が完了すると、さらに絞込みが可能 </li></ul></ul>
  28. 28. 評価:比較実験の可能性 <ul><li>候補数だけを視覚化すればいい? </li></ul><ul><ul><li>リスト表示ではなく </li></ul></ul><ul><ul><li>候補を数字で出す?棒グラフのような視覚化? </li></ul></ul><ul><li>確定の仕方 </li></ul><ul><ul><li>アプリケーション情報を用いる必然性? </li></ul></ul><ul><ul><ul><li>1pass が一定フレーム不変になったら確定する </li></ul></ul></ul><ul><ul><ul><li>ユーザが PTT を離したら確定する </li></ul></ul></ul><ul><ul><ul><ul><li>実験用 PTT マイクを作りたい </li></ul></ul></ul></ul>

×