3. 論⽂情報 (1/2)
Key-Value Retrieval Networks for Task-Oriented
Dialogue
Mihail Eric, Christopher D. Manning
v1: 2017-05-15; 今のところarxiv preprintのみ
著者の所属: Stanford Computer Science Departement NLP研
Christopher D. Manning⽒は⾃然⾔語処理の教科書
『Foundations of Statistical Natural Language Processing』や
『Introduction to Information Retrieval』の著者
3
18. (参考) Wizard of Oz(WOz) ⼿法
18
Wizard of Oz
設計初期段階のユーザスタディで、⼀部の機能を⼈間が代⾏し(代⾏し
ていることは伝えない)、システムの実稼動時に近いデータを得る⽅法。
ユーザースタディ:
開発者以外の⼈に使ってもらってデータを収集、評価するプロセス
Ref. A network-based end-to-end trainable task-oriented dialogue system.
Tsung-Hsien Wen, David Vandyke, Milica Gasic, Nikola Mrksic,
Lina. M. Rojas-Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. 2016b.
対話のデータセット作成⽤にアレンジ
⼈間(対話のユーザーかシステムの代⾏者)は対話履歴と与えられた条件に
合った1⾏の発話を記⼊するのみ。⼀つの対話を何⼈かで完結させる。並列
して作業していける。
21. 関連する対話システムの研究 (1/2)
21
POMDP-based statistical spoken dialog systems: a review
Steve Young, Milica Gasic, Blaise Thomson, and Jason D. Williams. 2013.
• 部分観測マルコフ判断過程を利⽤。Action空間を作りこんだ強化学習。
• 明確に定義されたactionとstateは柔軟性に⽋け、⾼計算コストのことが多い。
A network-based end-to-end trainable task-oriented dialogue system
Tsung-Hsien Wen, David Vandyke, Milica Gasic, Nikola Mrksic, Lina. M. Rojas-
Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. 2016b.
• 表現、信念状態、⽣成を司る要素がモジュール形式で繋がれている。
• 中間的な教師信号でユーザー意図を表現できるよう明⽰的に学ぶ。
22. 関連する対話システムの研究 (2/2)
22
Learning end-to-end goal-oriented dialog.
Antoine Bordes and Jason Weston. 2016.
Gated end-to-end memory networks.
Fei Liu and Julien Perez. 2016.
• 対話のコンテキストをメモリーモジュールに保存して、コンテキストに関す
るクエリーと推論を繰り返し、応答候補の中から正確な応答を選ぶ
Hybrid code networks: practical and efficient end-to-end dialog
control with supervised and reinforcement learning.
Jason D. Williams, Kavosh Asadi, and Geoffrey Zweig. 2017.
• 教師あり学習と強化学習を使う。明⽰的に与えられる特徴量によるドメイ
ン限定の知識、モデル出⼒の制限が組み込まれたタスク志向モデル。
24. 評価
24
対話システムの⾃動評価
・・・⼈の評価と相関が少ないという報告[1]
→ 論⽂では⾃動評価と⼈⼿の評価の両⽅を実施
3つの対話システム(+⼈)を⽐較
1. ルールベースのモデル
2. Copy-Augmented Sequence-to-Sequence Network
(CopyNet)[2]
3. 本研究のモデル
[1] Chia-Wei Liu, Ryan Lowe, Iulian Serban, Mike Noseworthy, Laurent Charlin, and Joelle Pineau. 2016.
How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue
response generation.
[2] Mihail Eric and Christopher Manning. 2017.
A copy-augmented sequence-to-sequence architecture gives good performance on task-oriented dialogue.
27. ⾃動評価
27
2つの尺度で⽐較。本研究のエージェントが他のものを上回る。
注) Attn. Seq2Seq: 知識ベースなし
No enc. attn.: 知識ベースのみでエンコーダ隠れ層のattentionなし
• BLUE
機械翻訳の評価に使われる⼿法だが、対話評価にも使われる[1]。
どれくらい正確にデータに現れた⾔語パターンを⽣成できるかの⽬安。
• Entity F1 (F値)
どれくらい関連性のある固有表現を⽣成できるか、
ユーザーが開始した対話の意味を捉えているかの⽬安。
[1] Alan Ritter, Colin Cherry, and William B. Dolan. 2011.
Data-driven response generation in social media.