大規模発話ログデータを活用した音声対話処理

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ヤフー株式会社上席研究員鍜治伸裕（@nobuhirokaji）
大規模発話ログデータを活用した
音声対話処理
情報処理学会第232回自然言語処理研究会招待講演資料

音声対話型インタフェースの時代
あらゆるデバイスに人工知能が搭載されるIoT時代の到来
ヒトとモノが音声対話でコミュニケーションできる世界が目前に
2
http://i.gzn.jp/img/2016/05/10/viv/s01.jpg
http://images.techhive.com/images/article/2017/01/echodothome-100704745-large.3x2.jpg

Yahoo! 音声アシスト
3
累計250万ダウンロード以上
音声対話でスマホを操作できるアプリ
https://www.amazon.co.jp/gp/product/B00OIWNED6

世の中の動向に反して
学会で音声対話は盛り上がっていない？
4
https://chairs-blog.acl2017.org/2017/02/15/statistics-on-submissions-and-status-update
ACL2017におけるエリアごとの論文投稿の状況
dialog and interactive
systems
（第９位）

5
新聞記事
ツイートブログ記事
医療系テキスト
近年のデータ駆動型NLPの進展は
大量のテキストデータの存在に支えられている

対話データは蓄積が進んでいない
6
独話データ量
対話データ量

我々のやり方：アプリを公開してデータ収集
7
累積250万以上のユーザ群
アプリサーバ
長年（５年）に渡って蓄積された
大規模な対話ログデータ
模擬ではない
リアルな対話のやりとり
世界的にも稀有な音声対話研究基盤を構築

発話のバリエーションと頻度が一目瞭然：
スマホの音量を上げる場合
8
頻度発話
8791 聞こえない
7334 音大きく
3323 音量上げて
1910 もっと大きく
1756 音量を上げて
1745 声が小さい
1736 音を大きく
1040 音が小さい
893 声を大きく
843 音大きくして
頻度発話
760 音量を大きく
707 音量大きくして
684 音量最大
641 音量大きく
546 音量を上げる
514 音量アップ
491 ボリュームアップ
407 ボリュームを上げて
394 音量を大きくして
… …

発話ログデータ収集と研究開発の
好循環を生み出す
9
発話ログを活用したデータ駆動型の対話研究の推進
大量の発話ログデータを収集研究成果に基づくシステム改善

Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
将来的ユーザエンゲージメントの予測
Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano.
Prediction of Prospective User Engagement with Intelligent
Assistants. In Proc. of ACL16.

“将来的エンゲージメント＝今後もシステムを
使い続けてもらえるかどうか”を予測
11
• ユーザの満足度(Jiang+ 15)を測る新しい指標になりうる
• 使わなくなりそうなユーザに集中的に働きかけることができる
？

エンゲージメントの研究に新しい視点を導入
12
従来研究におけるエンゲージメント（Wang and Hirschberg, 11）：
今、システムとの対話に没頭しているか
本研究におけるエンゲージメント：
将来的に対話システムを継続して使うか

Yahoo! 音声アシストの対話例
• マルチドメインなタスク型対話、雑談やゲームなども行う
13
今日も勉強
頑張って下さい！
今日の東京の天気
は晴れでしょう…
東京11時10分発の
新幹線があります…
東京から新大阪まで
何時に到着？
13時40分到着です
今日の天気は？
今日は朝から授業

発話ログデータ
User
ID
時刻発話システム応答応答型
（ドメイン）
A 3/1 23:50 明日8時に起こしてアラームを8時にセットしま
した
アラーム
3/2 08:10 おはようおはようございます雑談
3/2 08:13 今日の天気調べて今日の東京の天気は晴れ
でしょう
天気
B 3/1 08:00 東京駅から京都駅まで 9時30分発の新幹線があり
ます
路線案内
3/1 08:01 着くのは何時？京都には11時50分に到着し
ます
路線案内
3/5 19:10 しりとりしよういいですよ “りんご” しりとり
14
* 表はイメージです。実際のログとは一部異なっている場合があります。

２つのタスクを提案：
離脱予測とエンゲージメント度予測
• 16週間分のログから348,295のユーザを無作為抽出
• 対象ユーザの全7,472,915発話とそれに対する応答を抽出
15
観測期間の発話ログ
（最初8週間）
予測期間の発話ログ
（最後8週間）
……
……
……
……
……
……
……
……
発話があるかないかを予測
セッション数を予測
（4値に離散化）
ユーザごとに予測
離脱予測
エンゲージメント度予測
？

特徴量の設計（一部のみ抜粋）
種類具体例
観測期間の最後n週間における発話数（n=1, 2,…, 8）
発話数観測期間の最後n週間におけるセッション数（n=1, 2,…, 8）
k番目のクラスタに属する発話数（k=1, 2, …100）
ある応答型tの応答が返された回数(tは検索、アラームなど66種)
応答数長い（50文字以上の）応答が返された回数
エラーメッセージが返された回数
発話間隔時間（日数）の最大値
発話間隔発話間隔時間（日数）の最小値
発話間隔時間（日数）の平均値
ユーザ属性ニックネームの登録の有無
年齢（20代未満, 20代、30代、40代、50代、60代以上）
16
*実数値素性は自然対数で正規化

実験結果
• 学習アルゴリズムは SVM と SVR を使用
• ユーザを訓練、開発、評価に分割して実験
• セッション数素性のみを用いたベースラインを大きく改善
17
分類精度 F値 MSE ρ
ベースライン 0.568 0.482 0.784 0.595
提案法 0.776 0.623 0.578 0.727
発話数素性 0.702 0.578 0.632 0.693
応答数素性 0.548 0.489 0.798 0.584
発話間隔素性 0.746 0.617 0.645 0.692
ユーザ属性素性 0.399 0.406 1.231 0.146
離脱予測エンゲージメント度予測

観測期間の長さと予測精度の関係
• 基本的には観測期間が長いほど予測精度が向上
• 特に1週間から2週間に伸ばしたときの改善が顕著
18
観測期間の長さ観測期間の長さ
離脱予測エンゲージメント度予測

(Sano, Kaji, and Sassano, ACL16) のまとめ
• “将来的エンゲージメント”というエンゲージメントに対する
新しい視点を提案
• 大量の発話ログを活用することによって、将来のユーザ
行動（≒ 満足度）をある程度予測できることを示した
• 大規模なサービスを運用することによって、初めて見えて
くる/取り組むことのできる研究課題
19

修正発話の原因判定
Shumpei Sano, Nobuhiro Kaji, and Manabu Sassano.
Predicting Causes of Reformulation in Intelligent Assistants.
In Proc. of SIGDIAL17.

ユーザとの対話を通じて自立的に学習する
システムの実現に向けて
21
ユーザがシステムを“普通に”利用
（明示的な教師信号や報酬は与えない）
ユーザとの対話の経験を通して
自立的に学習、成長

ユーザの修正発話に着目
22
間違った応答
修正発話
“アラームの”ウェブ検索結果
はこちらです…
アラーム
アラームを起動して

本研究のゴール：
修正発話の原因となるエラー源の自動検出
23
音声認識
言語理解
言語生成
知識ベース
ユーザ発話
システム応答
ウェブAPI
対話システム
外部システム/資源
エラーの発生源が特定できれば（半）自動訂正につながる

ログから類似発話の繰り返しを抽出し
エラー原因をアノテーション
24
今日の東京の
天気は晴れ…
“アラーム”の
ウェブ検索結果は…
申し訳ありません
よく分かりません…
私の年齢は…
エラー無し（387発話）音声認識エラー（317発話）
言語理解エラー（173発話）言語生成エラー（51発話）
じゃあ明日の天気
今日の転勤
アラーム
アラームを起動
あなたの名前は
なんていうの？
あなたの名前は？

様々な特徴量を設計
25
“アラームの”ウェブ検索
結果はこちらです…
はい。アラームを起動します。
発話時間間隔
Domain: アラーム
ASR Conf.: 0.7
ASR Conf.: 0.9
修正タイプ（ADD, OMIT等）
…
編集距離
Domain: ウェブ検索
Intent: SEARCH(アラーム)
Intent: START
domain、intent（slot値など）などの一致
ASRの確信度
アラーム
アラームを起動して

原因判定実験の結果
• SVM を用いて10分割交差検定
• 発話の表層情報だけでなくエラー原因ごとに作りこまれた素
性を使うことでF1値が向上
26
エラー無し音声認識
エラー
言語理解
エラー
言語生成
エラー
ベースライン 0.58 0.59 0.36 0.03
＋音声認識素性 0.66†† 0.67†† 0.35 0.16
＋言語理解素性 0.71†† 0.65 0.43 0.25†
＋言語生成素性 0.55 0.57 0.32 0.08
提案法（＋全素性） 0.75†† 0.72†† 0.49† 0.33††

混同行列の分析
27
エラー無し音声認識
エラー
言語理解
エラー
言語生成
エラー
エラー無し 284 55 27 21
音声認識
エラー
38 230 37 12
言語理解
エラー
44 29 81 19
言語生成
エラー
8 12 11 20
正解
予測

(Sano, Kaji, and Sassano, SIGDIAL17) のまとめ
• ユーザとの対話の中で、システムが自立的に学習を行う
ことのできる枠組みの実現は、対話研究における大目標
の一つ
• 修正発話は、ユーザからの暗黙的フィードバックであり、こ
れを学習に活用することは非常に重要な課題
• 修正発話が行われたエラー原因を自動判定するという新
しい研究課題に取り組んだ
• エラーの自動訂正などが今後の課題
28

雑談発話の検出
Satoshi Akasaki and Nobuhiro Kaji.
Chat Detection in an Intelligent Assistant. In Proc. of ACL17.

これまでの音声対話システムは
タスク型と雑談型に分けて研究されてきた
• タスク型
30
• 雑談型
はい。豊田駅周辺の
イタリアンレストランは…
歩くといい運動になって
よいと思いますよ！
この近くにある
イタリアン料理の店調べて
駅から日野キャンパスまで
遠くない？

近年、アシスタント型システムの出現により
タスク型と雑談型の区別は曖昧に
31
A.L.I.C.E. (Wallace 09)
Eliza (Weizenbaum 66)SHRDLU (Winograd 72)
ATIS (Price 90)
Let’s GO (Raux+ 05)
しゃべってコンンシェル（吉村 12）
Siri (Bellegarda 14)
Cortana (Sarikaya 17)
Yahoo! 音声アシスト (磯+ 13)
雑談型タスク型
アシスタント型

雑談を意図したユーザ発話の検出が
新しい課題になる
32
気象情報 API の呼び出し
携帯端末の操作
雑談生成モデルの駆動
（seq2seqなど）
従来の雑談生成に関する研究では抜け落ちていたタスク
非雑談
雑談
今日の大阪の
天気は？
８時にアラーム
鳴らして
明日の仕事
休みたいなぁ

教師データを構築して分類器を学習
• 15160発話をクラウドソーシングを利用してラベル付与
• 各発話ごと7名の多数決（雑談/非雑談: 4833/10327）
• SVM と CNN の２つの分類器を学習、比較
33
ラベル発話得票数
雑談お話ししよう 5
趣味はなんですか？ 7
今月は休みがありません 5
非雑談富士山の写真みせて 6
近くのおいしいレストラン 7
9時10分に起こして 7

一工夫する：ツイートとウェブ検索ログを活用
• リプライのついたツイート≒雑談発話
34
やっと仕事終わったよー！
USER1 @xxx
@USER1 お疲れ様！
USER2 @xxx
おはようございます〜
USER3 @xxx
@USER3 おはよ！
USER4 @xxx
東京の天気
オムライスの作り方
君の名は。
ヤフー知恵袋
• ウェブ検索ログ≒タスク要求発話
それぞれGRU言語モデルを学習し対数尤度を特徴量に

実験結果
• ベースライン（ツイートLM、内製）の精度を大きく改善
• 言語モデル（LM）素性の有効性を確認
35
手法分類精度適合率再現率 F値
ツイート LM 72.07 54.54 74.48 62.94
内製の意図判定システム 78.31 62.57 79.51 70.03
SVM 91.35 87.62 84.88 86.21
SVM + ツイート/クエリ LM 92.15 88.61 86.50 87.53
CNN 90.84 87.03 83.80 85.36
CNN + ツイート/クエリ LM 91.48 87.78 85.18 86.56

発話長と分類精度の関係
• LM素性は極端に短いまたは長い発話に有効
36
分類精度
発話長（文字数）
SVM SVM+LM素性

(Akasaki and Kaji, ACL17) のまとめ
• タスク型と雑談型という音声対話システムの分類は過去の
ものになりつつあり、二つのシステムは融合し始めている
• タスク型と雑談型の切り替えが新しい技術課題になる
• 雑談をドメインの一つと捉えているという見方も
• ツイート等の外部資源の活用は、単純な教師有り学習から
の脱却に向けた有望なアプローチの一つ
37

Take Home Messages
• IoTの時代は必ずやって来る。音声対話はそのときに基盤を
担う可能性の高いNLP技術
• 大規模なサービスを運用することは、音声対話研究のため
のデータ収集に極めて有効な手段
• リアルな発話ログデータは面白いし、それを分析することに
よって新しい研究課題がどんどん見えてくる
38

We’re Hiring!
• ヤフー株式会社ではデータサイエンティスト（a.k.a., 機械
学習エンジニア）を新卒、経験者ともに通年募集中
• もちろんリサーチャー、エンジニア、デザイナーも
• 詳細は公式採用ページをご覧ください
http://hr.yahoo.co.jp
39

参考文献
• Price. 1990. Evaluation of spoken language systems: the ATIS Domain.
In Proc. DARPA Speech & Natural Language Workshop.
• Raux et al. 2005. Let's Go Public! Taking a spoken dialog system to
the real world. In Proc. InterSpeech.
• Weizenbaum. 1966. Eliza–a computer program for the study of natural
language communication between man and machine. Communications of
the ACM.
• Winograd. 1972. Understanding Natural Language. Academic Press.
• Wu et al. 2016. りんな: 女子高生人工知能. Proc. of NLP.
• 磯 et al. 2013. 「音声アシスト」の音声認識と自然言語処理の開発. 音声
言語情報処理研究会.
• 鹿野 et al. 2012. 音声情報案内システム「たけまるくん」の運用. 情報処
理学会全国大会
• 吉村. 2012. しゃべってコンシェルと言語処理. 音声言語情報処理研究会.
41

参考文献
• Akasaki and Kaji. 2017. Chat Detection in an Intelligent Assistant,
Proc. of ACL.
• Ballegarda. 2014. Spoken Language Understanding for Natural
Interaction: The Siri Experience. Natural Interaction with Robots,
Knowbots and Smartphones.
• Sano et al. 2016. Prediction of Prospective User Engagement with
Intelligent Assistants. Proc. of ACL.
• Sano et al. 2017. Predicting Causes of Reformulation in Intelligent
Assistants. Proc. of SIGDIAL.
• Sarikaya. 2017. The Technology Behind Personal Digital Assistants.
IEEE Signal Processing Magazine.
• Wallace. 2009. The Anatomy of A.L.I.C.E.
42

大規模発話ログデータを活用した音声対話処理

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to 大規模発話ログデータを活用した音声対話処理

Similar to 大規模発話ログデータを活用した音声対話処理 (20)

More from Yahoo!デベロッパーネットワーク

More from Yahoo!デベロッパーネットワーク (20)

Recently uploaded

Recently uploaded (15)

大規模発話ログデータを活用した音声対話処理