論文読み 20170525

株式会社 Nextremer
論⽂読み
Key-Value Retrieval Networks for Task-
Oriented Dialogue
1
2017-05-25
壹岐太⼀

2
• このスライドは個⼈的な調査です。
• できる限り正確な内容を書くように⼼がけていますが、ご利⽤は⾃⼰責任で
お願いします。
• 記載がない場合、図表は論⽂より引⽤しています。
問題点及びご指摘はtaichi.iki at nextremer.comまでご連絡ください。

論⽂情報 (1/2)
Key-Value Retrieval Networks for Task-Oriented
Dialogue
Mihail Eric, Christopher D. Manning
v1: 2017-05-15; 今のところarxiv preprintのみ
著者の所属: Stanford Computer Science Departement NLP研
Christopher D. Manning⽒は⾃然⾔語処理の教科書
『Foundations of Statistical Natural Language Processing』や
『Introduction to Information Retrieval』の著者
3

論⽂情報 (2/2)
問題意識
ニューラルタスク志向対話システムは
知識ベースとのスムーズな連携が難しい。
論⽂の主張・提案
• 新しいkey-value検索機構を通してマルチドメインで対話履歴を
維持できる対話システムを提案
• 対話状態・信念追跡の明⽰的なモデルは不要。End-to-end学習。
• ⾞内パーソナルアシスタント領域のタスク向けに対話のデータ
セットを近⽇中に公開予定
4* 対話履歴: discourse; 信念追跡:意図理解結果の更新・管理

ざっくり⾔うと
5
モデルの構造
• Attention付きencoder-decoderモデルの拡張
• 知識は(Subject, Relation, Object)に分解して保持
• Subject+Relationをkeyとしてattention計算
• 出⼒字句の正規化前確率に知識のattention結果も連結して出⼒
字句の確率分布を計算。
• 知識が出⼒に出た時はニューラルな処理後にObjectで置き換え
データセット
• ⾞内アシスタント向けのデータセットをWizard-of-Oz⼿法を
ベースに作成

6
詳細
モデル構造と学習

提案モデル Encoder
7
ニューラルネットワークへの⼊⼒単位: 字句(トークン)
システムのiターンまでの⽂脈対応するトークン
エンコーダ:
字句を字句埋め込みベクトルに変換してLSTMに⼊れ、
エンコーダ隠れ層のリストを得る。
⽂脈:
ユーザー発話(u)の字句、システム発話(s)の字句を逐次⼊⼒

提案モデル Decoder
8
デコーダ:
デコーダ隠れ層ℎ"#を計算(式はスライド作者が追加)
ℎ"# = RNN ℎ"#'(, 𝑦#'(
エンコーダ隠れ層のアテンションを計算して
出⼒字句の確率分布𝑦#を計算
出⼒字句の語彙数はV。学習時は対数尤度が最⼤になる𝑦#を選択
W1/2, w, Uは最適化対象
後で変更

提案モデル知識ベースのAttention (1/2)
9
Key-Value Retrieval Networks
知識ベースの情報も使⽤できるようデコーダの(5)式を変更。
知識ベースのデータ例
各⾏の事項を(Subject, Relation, Object)の複数tripleに分解。
例えば、(event=dinner, time=8pm, date=the 13th, party=Ana, agenda=“-”)
→ (dinner, time, 8pm) …
知識ベースの最⼤triple数は230
列挙されていないが、この場合4つに分かれるとあるのでおそらく
(dinner, time, 8pm) (dinner, date, the 13th) (dinner, party, Ana) (dinner, agenda, "-")

提案モデル知識ベースのAttention (2/2)
10
デコード時の追加計算:
Keyベクトル = subjectとrelationの字句埋め込みベクトルの和
j番⽬のtripleのkeyベクトルを𝑘,とすると
ネットワークの出⼒時はsubject_relationと表しておいて、実⾏時は
valueの値で置き換え。
スコアは
W’1/2, rは最適化対象
すべてのtripleについてスコアを計算し、もともとの字句語彙の部分は0
を⼊れたベクトルがv(つまり(5)式のoに全tripleのスコアをconcatenate)。
(出⼒字句にキーの数(n)だけ追加 V+n次元)

提案構造まとめ
11
V n
知識ベースtriple
文脈入力システム出力

プリプロセスとポストプロセス
12
発話 → プリプロセス → ニューラルネット → ポストプロセス → 発話
プリプロセス
字句埋め込み削減のため、複数の表層表現を⼀つの標準形に置換
(固有表現抽出とリンクを使⽤)
例: 20 Main Street → Pizza My Heart address
ポストプロセス
標準形についてtraining, validationセットではどのような表層表
現で現れるか確率分布を求めておき、それに従って表層表現に逆
変換(invert lexicon)

ハイパーパラメータ
13
次元字句埋め込み、隠れ層、LSTMのセルいずれ
も300次元
ロス cross entropy
ハイパーパラメータ探索ランダムサーチ(validation⽤セット)
最適化⼿法 Adam (𝛼~ 10'1, 10'2 )
Dropout LSTMの⼊出⼒に適⽤ (keep rate~ 0.8, 0.9 )
Weight decay decay rate~ 3 A 10'B, 10'C
Gradient clipping clip-value=10
パラメータの初期化スケールされた⼀様分布から乱択[1]
LSTMのトリックバイアスとして1をLSTMのforget gateに追
加[2]
[1] David Sussillo and L.F. Abbott. 2015.
Random walk initialization for training very deep feed forward networks.
[2] Minh-Thang Luong, Hieu Pham, and Christopher D.Manning. 2015.
Effective approaches to attention-based neural machine translation.

対話のデータセット
15
タスク志向対話の課題
標準的な公開データセットが少ない
これまでの公開データセットの例
• Hemphill et al., 1990 … ATIS(⾶⾏場情報放送業務)のコーパス
• Bennett and Rudnicky, 2002 … フライト予約
(Linguistic Data Consortium)
• Williams et al., 2013 … 対話状態追跡タスク⽤コーパス
(The dialog state tracking challenge)
• Asri et al., 2017 … ホテルと旅⾏の対話データ(Maluuba社)

Frames: A corpus for adding memory to goal-oriented dialogue systems.
L. El Asri, H. Schulz, S. Sharma, J. Zumer, J. Harris, E. Fine, R. Mehrotra, and K.
Suleman. 2017.
(参考) Malluba Frames
16
http://datasets.maluuba.com/Frames
• 1369 人-人の対話コーパス(英語)
• 1対話あたり平均: 15ターン
• ターゲット課題: Frame trackingタスク
(state trackingの拡張; 幾つかの状態を同時に追跡)
• 詳しくは上記の論文を参照

データセット
17
本研究
• ⾞内個⼈アシスタント⽤の３タスク領域の対話データ(3,031対話)
• スケジューリング・天気予報・⽬的地ナビゲーション
• Wizard-of-Oz⼿法をベースに作成
• 知識ベース不要の発話もしばしばあるらしい(「登録しました」など)
←
データセット例
→
統計的概要

(参考) Wizard of Oz(WOz) ⼿法
18
Wizard of Oz
設計初期段階のユーザスタディで、⼀部の機能を⼈間が代⾏し(代⾏し
ていることは伝えない)、システムの実稼動時に近いデータを得る⽅法。
ユーザースタディ:
開発者以外の⼈に使ってもらってデータを収集、評価するプロセス
Ref. A network-based end-to-end trainable task-oriented dialogue system.
Tsung-Hsien Wen, David Vandyke, Milica Gasic, Nikola Mrksic,
Lina. M. Rojas-Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. 2016b.
対話のデータセット作成⽤にアレンジ
⼈間(対話のユーザーかシステムの代⾏者)は対話履歴と与えられた条件に
合った１⾏の発話を記⼊するのみ。⼀つの対話を何⼈かで完結させる。並列
して作業していける。

提案研究の場合
19
↓ Driverの⽴場で、お題の指⽰を流れに続けてcarに出すとき何と⾔う？
→
Carの⽴場で、与えられた知識
ベースのもと、driverの指⽰に対
してどう応答する？
(意図理解の項⽬も埋める)

関連する対話システムの研究 (1/2)
21
POMDP-based statistical spoken dialog systems: a review
Steve Young, Milica Gasic, Blaise Thomson, and Jason D. Williams. 2013.
• 部分観測マルコフ判断過程を利⽤。Action空間を作りこんだ強化学習。
• 明確に定義されたactionとstateは柔軟性に⽋け、⾼計算コストのことが多い。
A network-based end-to-end trainable task-oriented dialogue system
Tsung-Hsien Wen, David Vandyke, Milica Gasic, Nikola Mrksic, Lina. M. Rojas-
Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. 2016b.
• 表現、信念状態、⽣成を司る要素がモジュール形式で繋がれている。
• 中間的な教師信号でユーザー意図を表現できるよう明⽰的に学ぶ。

関連する対話システムの研究 (2/2)
22
Learning end-to-end goal-oriented dialog.
Antoine Bordes and Jason Weston. 2016.
Gated end-to-end memory networks.
Fei Liu and Julien Perez. 2016.
• 対話のコンテキストをメモリーモジュールに保存して、コンテキストに関す
るクエリーと推論を繰り返し、応答候補の中から正確な応答を選ぶ
Hybrid code networks: practical and efficient end-to-end dialog
control with supervised and reinforcement learning.
Jason D. Williams, Kavosh Asadi, and Geoffrey Zweig. 2017.
• 教師あり学習と強化学習を使う。明⽰的に与えられる特徴量によるドメイ
ン限定の知識、モデル出⼒の制限が組み込まれたタスク志向モデル。

評価
24
対話システムの⾃動評価
・・・⼈の評価と相関が少ないという報告[1]
→ 論⽂では⾃動評価と⼈⼿の評価の両⽅を実施
3つの対話システム(+⼈)を⽐較
1. ルールベースのモデル
2. Copy-Augmented Sequence-to-Sequence Network
(CopyNet)[2]
3. 本研究のモデル
[1] Chia-Wei Liu, Ryan Lowe, Iulian Serban, Mike Noseworthy, Laurent Charlin, and Joelle Pineau. 2016.
How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue
response generation.
[2] Mihail Eric and Christopher Manning. 2017.
A copy-augmented sequence-to-sequence architecture gives good performance on task-oriented dialogue.

評価に⽤いたルールベースのモデル
複数モジュールからなるヒューリスティックなシステム
モジュール: 対話状態追跡・知識ベースクエリ・⾃然⾔語⽣成
処理の流れ:
意図検出
ユーザー発話を使って広範囲にドメイン依存のキー
ワードを検索
固有表現
抽出
ユーザー発話を解析器にかけて⾔及されている固有
表現を抽出
対話状態・
検索
意図検出と固有表現抽出の結果を現時点での対話状
態とし、必要ならば、知識ベースにクエリを与える
応答戻り値を発話のテンプレートに埋め込んで⽂を作成

提案モデルの対話例
26
結構しっかり応答出来ている印象

⾃動評価
27
2つの尺度で⽐較。本研究のエージェントが他のものを上回る。
注) Attn. Seq2Seq: 知識ベースなし
No enc. attn.: 知識ベースのみでエンコーダ隠れ層のattentionなし
• BLUE
機械翻訳の評価に使われる⼿法だが、対話評価にも使われる[1]。
どれくらい正確にデータに現れた⾔語パターンを⽣成できるかの⽬安。
• Entity F1 (F値)
どれくらい関連性のある固有表現を⽣成できるか、
ユーザーが開始した対話の意味を捉えているかの⽬安。
[1] Alan Ritter, Colin Cherry, and William B. Dolan. 2011.
Data-driven response generation in social media.

⼿動評価
28
３つの観点からそれぞれ1~5点で評価
• 流暢性 (fluency)
• 協調性 (cooperativeness)
• ⼈らしさ (humanlikeness)
Driverのタスクと知識ベースの内容に基づいて120シナリオを作成。
3つのモデルをAmazon Mechanical Turkersを使って評価。
それぞれの項⽬で、他のエージェントの性能を上回った。

Future work
29
Key-Value検索ネットワークを⼈のパフォーマンスに近づ
ける
• つなぎ合わされた知識ベースの属性をロバストに処理するた
めの新⽅法の開発
• 時間の流れの観念など、世界に関するより現実的な理解が必
要となる知識ベースの組み込み

30
調査の感想
• ハイパーパラメータなどある種の部分が細かく書かれていて興味
深かったが、逆にはっきり読み取れない部分もあった。
• Subject_relationが重複する知識ベースの場合どのように処
理されるのか？
• 知識ベースは⾊々な列タイトルのものが混ざっていても対応
できるのか？
• どれくらい学習させるのか？
• プリプロセスでの字句の標準化は具体的にどの程度⾃動的にでき
るのだろうか。

論文読み 20170525

Recommended

Recommended

More Related Content

What's hot

What's hot (12)

Similar to 論文読み 20170525

Similar to 論文読み 20170525 (20)

論文読み 20170525