探索的検索のための音声入力インタフェースの検討

1,341 views

Published on

情報処理学会研究報告 2008-HCI-127(2), pp.9-14, Jan 2008.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,341
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • 音声応答システムと効果音の考察[西本 2001? ]
  • -progout # 第 1 パスで解析途中から漸次的に結果を出力 -proginterval 50 # -progout 時の出力のインターバル ( 単位: msec) -module # サーバーモジュールモードで起動 -outcode WLPSCwlps
  • 探索的検索のための音声入力インタフェースの検討

    1. 1. 探索的検索のための 音声入力インタフェースの検討 西本卓也(東京大学) 岩田英三郎 ・ 櫻井 実 ・ 廣瀬治人 (ユニバーサルロボット)
    2. 2. 探索的検索と音声入力 <ul><li>欲しい情報がどこにあるか分からない </li></ul><ul><ul><li>巨大なメニューを操作するタスク </li></ul></ul><ul><ul><ul><li>ショッピングサイト </li></ul></ul></ul><ul><ul><ul><li>情報家電の操作も </li></ul></ul></ul><ul><ul><li>キーワード検索が有効 </li></ul></ul><ul><ul><li>ブラウジングも必要 自分の要求と候補を比較 </li></ul></ul><ul><li>キーボードの使えない情報機器 </li></ul><ul><ul><li>情報家電、モバイル </li></ul></ul><ul><ul><ul><li>PC ならキーボード入力による検索が可能 </li></ul></ul></ul><ul><ul><li>要求=音声入力を有効に使いたい </li></ul></ul>
    3. 3. HMI 原則と音声インタフェース <ul><li>原則に基づく音声認識の応用 [西本他 96 /予稿] </li></ul><ul><ul><li>基本原則 </li></ul></ul><ul><ul><ul><li>操作労力、システムの透過性、頑健性 </li></ul></ul></ul><ul><ul><li>構成原則 </li></ul></ul><ul><ul><ul><li>初心者保護、熟練者優遇、上級利用移行支援 </li></ul></ul></ul><ul><ul><li>導入原則 </li></ul></ul><ul><ul><ul><li>有用性、適合性、妥当性 </li></ul></ul></ul><ul><li>本研究の目的 </li></ul><ul><ul><li>探索的検索における音声利用の可能性を示す </li></ul></ul>
    4. 4. システムの透過性 <ul><li>音声認識=広く使われているとは言えない </li></ul><ul><ul><li>課題:頑健性(耐雑音・残響・話者など)だけ? </li></ul></ul><ul><li>応答遅延は使いにくさの要因? </li></ul><ul><ul><li>認識完了を待たなくてはならない </li></ul></ul><ul><ul><ul><li>人間は相手の表情から反応を読む </li></ul></ul></ul><ul><ul><ul><ul><li>一方が話している間も頷いたり首をかしげたり、 聞き取りにくければ直ちに「え?」と聞き返す </li></ul></ul></ul></ul><ul><ul><ul><ul><li>分かっているのか分かっていないのか 反応がある人とは会話しやすい [嵯峨山他 04 ] </li></ul></ul></ul></ul><ul><li>要求:入力発話中に逐次反応するシステム </li></ul><ul><ul><li>従来:性能は重視するが応答遅延に寛容 </li></ul></ul>
    5. 5. 音声認識におけるリアルタイム性 <ul><li>リアルタイム音声認識の技術 </li></ul><ul><ul><li>例:放送字幕システム [安藤 03 ] </li></ul></ul><ul><ul><ul><li>ニュース音声を遅れ2秒以内で(要求) </li></ul></ul></ul><ul><ul><ul><ul><li>2パスデコーダを改修して一定フレームごとに結果を確定 </li></ul></ul></ul></ul><ul><li>発話中にうなずく対話システムの試作 </li></ul><ul><ul><li>NTT や早稲田大学など </li></ul></ul><ul><ul><ul><li>WFST 利用の提案など </li></ul></ul></ul><ul><ul><li>可能性を示すデモ </li></ul></ul><ul><ul><ul><li>汎用的な枠組みとしての評価はなされていない </li></ul></ul></ul><ul><ul><ul><li>効率性には貢献していない </li></ul></ul></ul>
    6. 6. 音声入力と効率性 <ul><li>すべて音声で操作を行うと最後はうんざり </li></ul><ul><ul><li>代替手段の方が妥当な場合も多い </li></ul></ul><ul><ul><li>全体として「楽であること」が考慮されていない </li></ul></ul><ul><li>無駄な発話をさせない音声 IF が必要 </li></ul><ul><ul><li>音声認識は人間に不必要に喋らせる? </li></ul></ul><ul><li>マルチモーダル+インクリメンタル検索? </li></ul><ul><ul><li>無駄な入力をさせないために </li></ul></ul>
    7. 7. 対面朗読の分析とウェブ実装 <ul><li>探索的検索タスクとしての「お弁当選択」 </li></ul><ul><ul><li>対面朗読者の技能をシステム化 </li></ul></ul><ul><li>視覚障害者の指摘 [西本他 07 ] </li></ul><ul><ul><li>キーボードによる操作の方が効率的 </li></ul></ul><ul><ul><ul><li>音声対話は必ずしも快適ではない </li></ul></ul></ul><ul><ul><ul><li>選択肢が適切であれば音声入力は不要? </li></ul></ul></ul><ul><ul><li>常に取り消しができることが重要 </li></ul></ul><ul><ul><ul><li>試行錯誤を許容すること </li></ul></ul></ul><ul><ul><li>検索のフィードバック=候補数の減り方 </li></ul></ul><ul><ul><ul><li>効率的に操作できているという実感 </li></ul></ul></ul>
    8. 8. 効率性とインクリメンタル検索 <ul><li>候補が減っていくことを可視化 </li></ul><ul><ul><li>キーボード : Emacs, iTunes, ... </li></ul></ul><ul><ul><li>ajax : Google Suggest </li></ul></ul><ul><li>ラスキン「ヒューメイン・インタフェース」 </li></ul><ul><ul><li>インクリメンタル検索の有効性を主張 </li></ul></ul><ul><ul><li>音声入力での実現可能性も示唆 </li></ul></ul><ul><ul><ul><li>詳細は不明 </li></ul></ul></ul><ul><li>提案=「音声インクリメンタル・サーチ」 </li></ul><ul><ul><li>発話中に候補やその個数を逐次表示 </li></ul></ul><ul><ul><li>内容が確定したら発話を中断してもよい </li></ul></ul>
    9. 9. 画面例:初期状態
    10. 10. 画面例:詳細表示と決定操作
    11. 11. 画面例:部分発話による絞り込み <ul><li>「ハンバーグ」->「チキン」と発話 </li></ul><ul><ul><li>認識結果=「ハンバーグ」「チキンカツ」 </li></ul></ul>
    12. 12. 提案システム:設計と画面構成 <ul><li>クエリーと候補の視覚化 </li></ul><ul><ul><li>サーチ:音声入力、語彙 </li></ul></ul><ul><ul><li>リセット操作 </li></ul></ul><ul><ul><ul><li>タイマー:発話終了後 10 秒でクエリー消去 </li></ul></ul></ul><ul><ul><ul><li>「音声入力クリア」ボタン </li></ul></ul></ul><ul><li>比較パレット </li></ul><ul><ul><li>リセット操作:「開始」ボタン </li></ul></ul><ul><ul><li>インスペクター:乗せると詳細情報 </li></ul></ul><ul><ul><li>決定ボックス:乗せると決定 </li></ul></ul><ul><ul><ul><li>関連:オラビーの開発 [西本他 06 ] </li></ul></ul></ul>
    13. 13. システム透過性と直接操作 <ul><li>間接操作=秘書型 </li></ul><ul><ul><li>「対話」に主眼をおいた音声 IF </li></ul></ul><ul><ul><li>音声+間接操作 </li></ul></ul><ul><ul><ul><li>欠点:エージェントは直接の対象ではない </li></ul></ul></ul><ul><li>直接操作=道具型 </li></ul><ul><ul><li>「マルチモーダル」に主眼をおいた音声 IF </li></ul></ul><ul><ul><li>音声+直接操作 </li></ul></ul><ul><ul><ul><li>システム透過性に貢献? </li></ul></ul></ul><ul><ul><ul><li>視覚障害者が求めるものに近い? </li></ul></ul></ul><ul><li>文献: Interface as Mimesis [Laurel 86] </li></ul>
    14. 14. HMI 基本原則への適合 <ul><li>操作労力最小化の原則 </li></ul><ul><ul><li>部分発話を許容:音声入力の労力を最小化 </li></ul></ul><ul><li>システム透過性の原則 </li></ul><ul><ul><li>フィードバックの原則 </li></ul></ul><ul><ul><ul><li>より低遅延で多くの情報を </li></ul></ul></ul><ul><ul><ul><li>提案=データベース検索を用いて音声入力を可視化 </li></ul></ul></ul><ul><li>頑健性の原則 </li></ul><ul><ul><li>提案=音声で候補選択、他のモダリティで決定 </li></ul></ul>
    15. 15. HMI 構成原則への適合 <ul><li>初心者保護の原則 </li></ul><ul><ul><li>直感的な操作と画面構成 </li></ul></ul><ul><li>熟練者優遇の原則 </li></ul><ul><ul><li>最後まで発話しなくてもよい </li></ul></ul><ul><ul><li>省略を許すことがインクリメンタル検索の意義 </li></ul></ul><ul><li>上級利用移行支援の原則 </li></ul><ul><ul><li>語尾の省略が可能=逐次可視化で教示 </li></ul></ul>
    16. 16. 予備的評価 <ul><li>仮説 </li></ul><ul><ul><li>低遅延でユーザにフィードバックができれば、 完璧な認識でなくても許容されるのではないか? </li></ul></ul><ul><li>検証( 2007-07 ) </li></ul><ul><ul><li>2 種類のシステムを比較 </li></ul></ul><ul><ul><ul><li>検索結果をリアルタイムに表示するシステム </li></ul></ul></ul><ul><ul><ul><li>第 2 パスまでの認識結果を待って結果を返すシステム </li></ul></ul></ul><ul><ul><li>少人数ながら仮説に対して賛同が得られた </li></ul></ul><ul><ul><ul><li>被験者 5 名 </li></ul></ul></ul><ul><ul><ul><li>特に項目名が長い場合に有効、との意見 </li></ul></ul></ul>
    17. 17. 語彙と認識結果 <ul><li>多くの項目名=他の名前のサブワード </li></ul><ul><li>項目名とサブワード発話がマッチしやすい </li></ul><ul><ul><li>のりめんたい ← めんたい </li></ul></ul><ul><ul><li>ちきんかつ ← ちきん </li></ul></ul><ul><ul><li>ちんじゃおろーす ← ちんじゃお </li></ul></ul>
    18. 18. 国際ロボット展( 2007 年 11 月)
    19. 19. 国際ロボット展の反応 <ul><li>評価者=約 30 人 </li></ul><ul><li>接話マイク(ヘッドセット) </li></ul><ul><ul><li>PTT は使用しない </li></ul></ul><ul><ul><li>騒音の大きい展示会場 </li></ul></ul><ul><li>候補数を可視化する入力プロセス </li></ul><ul><ul><li>「途中まで音声で」「最後は手で」の有効性を評価 </li></ul></ul><ul><li>対象を直接操作する GUI </li></ul><ul><ul><li>ここまでの有効性は確認できず </li></ul></ul><ul><ul><li>ピンと来ていない? </li></ul></ul>
    20. 20. まとめ <ul><li>探索的検索のための音声入力利用 </li></ul><ul><ul><li>とにかく早く反応させたい </li></ul></ul><ul><ul><li>言いたいことが通じたら最後まで言う必要はない </li></ul></ul><ul><ul><li>可視化:人間のように素早く理解・応答させたい </li></ul></ul><ul><li>音声認識の実装に関する検討ではない </li></ul><ul><ul><li>WFST など既存提案も選択肢 </li></ul></ul><ul><li>意味的合理性と実時間性の重要性? </li></ul><ul><ul><li>意味的合理性=候補絞込みに有用な情報の増加 </li></ul></ul><ul><ul><li>擬人化エージェントを否定する提案ではない </li></ul></ul><ul><ul><ul><li>インクリメンタルサーチの知見をエージェント動作制御に? </li></ul></ul></ul>
    21. 21. 音声による探索的検索の可能性 <ul><li>発声してみると自分の欲しいものが分かる </li></ul><ul><ul><li>とにかく喋ってみる </li></ul></ul><ul><ul><li>思っていること->求めていること </li></ul></ul><ul><ul><li>試行錯誤を促す効果? </li></ul></ul><ul><li>展望:検索と推薦 </li></ul><ul><ul><li>候補の自動グループ化 </li></ul></ul><ul><ul><li>音声コマンドのヒント提示 </li></ul></ul><ul><ul><ul><li>属性検索の場合に有効 </li></ul></ul></ul>
    22. 22. 今後の課題:評価 <ul><li>遅延の大小と使いやすさ </li></ul><ul><ul><li>入力発話に対してどのくらい低遅延になったか </li></ul></ul><ul><ul><ul><li>ロギング? </li></ul></ul></ul><ul><ul><li>どのくらい早い応答が必要か </li></ul></ul><ul><li>低遅延であることがどう有効性につながる? </li></ul><ul><ul><li>不安を感じにくい </li></ul></ul><ul><ul><ul><li>心的負荷、主観評価 </li></ul></ul></ul><ul><ul><li>ユーザがコツをつかみやすい </li></ul></ul><ul><ul><ul><li>タスク成功率 </li></ul></ul></ul><ul><ul><ul><li>発話の音響的尤度 </li></ul></ul></ul>
    23. 23.
    24. 24. 実装の環境 <ul><li>Julian rev.3.5.2-galatea (fast) </li></ul><ul><ul><li>ネットワーク文法に対応する連続単語音声認識 </li></ul></ul><ul><ul><ul><li>孤立単語を受理する文法 </li></ul></ul></ul><ul><ul><li>第1パス結果の逐次出力機能 </li></ul></ul><ul><li>Visual C++ 2005 で実装 </li></ul><ul><ul><li>GLUT </li></ul></ul><ul><ul><li>サーバモードで実行される Julian と socket 通信 </li></ul></ul><ul><li>CodeGear C++Builder 2007 で実装 </li></ul><ul><ul><li>VCL を使用 </li></ul></ul><ul><ul><li>ドラッグ&ドロップの GUI </li></ul></ul>
    25. 25. タスク:認識候補語彙 <ul><li>孤立単語のみを認識する文法を作成 </li></ul><ul><li>弁当屋のメニュー( 73 種類) </li></ul><ul><ul><li>玉子丼、のり弁、おにぎりセット、のりメンタイ、チキンカツ、チキンカツ&ハンバーグ、シャケ弁、親子丼、ビーフカレー、五目ごはん、・・・ </li></ul></ul><ul><li>サブワード候補の選択 </li></ul><ul><ul><li>2 ~ 5 モーラの 12 単語 </li></ul></ul><ul><ul><ul><li>ハンバーグ、カレー、丼、カツ、和風、洋風、中華、 フライ、御膳、デラックス、天、鶏 </li></ul></ul></ul>
    26. 26. Julian が出力するイベントと情報 <ul><li>本実装では発話中に得られる情報のみ使用 </li></ul><ul><ul><li>発話開始を検出 </li></ul></ul><ul><ul><ul><li>入力同期で第 1 パスを実行(単語対文法を適用) </li></ul></ul></ul><ul><ul><ul><li>指定した間隔でフレームごとの 1 位候補を出力 </li></ul></ul></ul><ul><ul><li>発話終了を検出 </li></ul></ul><ul><ul><ul><li>第 1 パス終了イベント、 1 位候補を出力 </li></ul></ul></ul><ul><ul><li>第 2 パスを実行 </li></ul></ul><ul><ul><ul><li>ネットワーク文法を適用、 N-best 計算 </li></ul></ul></ul><ul><ul><ul><li>第 2 パス終了イベント、 N 位候補を出力 </li></ul></ul></ul>
    27. 27. 実装(音声) <ul><li>入力音声を含む候補を選択して表示 </li></ul><ul><ul><li>Julian から得られる音声の音素記号 </li></ul></ul><ul><ul><li>第 1 パス実行中の結果を 50ms 毎に取得 </li></ul></ul><ul><li>クエリーの追加 </li></ul><ul><ul><li>第 2 パス決定を入力終了イベントとして利用 </li></ul></ul><ul><ul><li>発話が完了すると、さらに絞込みが可能 </li></ul></ul>
    28. 28. 評価:比較実験の可能性 <ul><li>候補数だけを視覚化すればいい? </li></ul><ul><ul><li>リスト表示ではなく </li></ul></ul><ul><ul><li>候補を数字で出す?棒グラフのような視覚化? </li></ul></ul><ul><li>確定の仕方 </li></ul><ul><ul><li>アプリケーション情報を用いる必然性? </li></ul></ul><ul><ul><ul><li>1pass が一定フレーム不変になったら確定する </li></ul></ul></ul><ul><ul><ul><li>ユーザが PTT を離したら確定する </li></ul></ul></ul><ul><ul><ul><ul><li>実験用 PTT マイクを作りたい </li></ul></ul></ul></ul>

    ×