対話テキストの自動要約

対話テキストの自動要約
2017/03/01
Masahiro Yamamoto

自己紹介
● 山本眞大
● 慶應 D2 (2015年9月入学)
● 2016年8月〜9月: 株式会社Preferred Infrastructureで
インターンシップ
(コールセンター対話の自動要約)

目次
1. はじめに
2. 要約の代表的な手法
3. 対話要約特有の問題
4. 評価方法
5. 対話要約の実際
6. おわりに
対話の自動要約に
関するサーベイ

1. はじめに
今日の話
● 対話テキストの自動要約に関するサーベイ
○ 要約の代表的な手法
○ 対話要約特有の問題
○ 評価方法
● 対話要約の実際
● 深層学習系の話はしません

1. はじめに
対話データ処理への関心
● SIGDIAL2015, Special Session, Multiing 2015
○ オンラインフォーラム、コールセンターの要約
● ACL2016, 3rd Workshp on Argument Mining
○ 議論データに関するWorkshop
○ 要約に関して2件の発表 [1, 2]
● COLING2016, Invited talk4
○ A Look at Computational Argumentation and Summarisation from a Text-Understanding Perspective
[1] Barker et al., "Summarizing Multi-Party Argumentative Conversations in Reader Comment on News", in Proc of 3rd Workshop on Argument Mining, 2016.
[2] Egan et al., Summarizng the points made in online politial deates", in Proc of 3rd Workshop on Argument Mining, 2016.

● 対話要約 (今回の対象)
○ 複数の話者による対話から成り立っている
テキスト (音声) の要約
○ 例：コールセンター、会議
● 非対話要約
○ 対話が存在しないテキストの要約
○ 例：ニュース記事、文献

● 対話要約手法
○ 大部分の研究は非対話要約の手法を利用 [3]
→ 2章では、テキスト要約の代表的な手法を説明
● テキスト要約に関する分かりやすいスライド
○ 西川先生のスライド [4]
○ yamao357様のスライド [5]
[3] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011.
[4] http://www.slideshare.net/hitoshin/automatic-summarization
[5] https://rpubs.com/yamano357/27317

要約の大分類 [4]
1. 要約の使い方
○ 指示的 / 報知的
1. 必要な情報の指定
○ クエリ依存 / クエリ非依存
1. 入力文書の数
○ 単一 / 複数
1. 要約を作る方法
○ 抽出型要約 / 生成型要約
● 指示的: 原文書を読むべきか判断する
ための要約
e.g. 新聞の見出し、スニペット
● 報知的: 原文書の代わりとする要約
e.g. ニュース番組の字幕

今回の話
1. 要約の使い方
○ 指示的 / 報知的
1. 必要な情報の指定
○ クエリ依存 / クエリ非依存
1. 入力文書の数
○ 単一 / 複数
1. 要約を作る方法
○ 抽出型要約 / 生成型要約

入出力
● 入力：原文書、要約文字数
● 出力：要約された文書

要約手法
● 様々な手法が存在
● 整数計画問題 (ILP) として定式化する手法を説明
○ 線形計画問題：目的関数と制約条件が1次式で
表される最適化問題
○ 整数計画問題：線形計画問題において解が整数と
なるような問題

整数計画問題の例: ナップザック問題
● 価値を最大化したい
● 制約: リュックの容量
● どのように選べば良いか？
● 整数計画問題として解ける
出典: ナップザック問題 Wikipedia

ナップザック問題に落とし込む
● 物の価値 = 文のスコア
● 物の重さ = 文の長さ
● リュックの容量 = 要約文字数
文のスコアはどうする？
→ 文中の各単語のTFIDF値の総和など出典: ナップザック問題 Wikipedia
文1
文5
文4
文3
文2

網羅性を向上
● 最大被覆問題に落とし込む [6]
○ 同じ内容が繰り返し述べられても
スコアを増加させない
○ 上記の条件を満たすように目的関数、制約条件を設定
[6] 高村ら, "最大被覆問題とその変種による文書要約モデル", 人工知能学会論文誌, 2008.

文短縮
● 文抽出と文短縮の同時モデル [7]
○ 各単語毎にスコアリング
○ 係り受け関係を保持したまま要約を作成
○ 係り受け関係は制約条件として記述
[7] 富田ら, "重要文抽出と文圧縮を組み合わせた新たな抽出的要約手法", 情報処理学会研究報告, 2009.

談話構造の考慮
● 入れ子依存木の刈り込みによる要約生成 [8]
○ 係り受け関係、談話関係を保持したまま要約を作成
○ 一貫性を保ちつつ、要約長に柔軟な要約が生成可能
○ 制約条件として上記を記述
[8] 菊池ら, "入れ子依存木の刈り込みによる単一文書要約", 自然言語処理, 2015.

ILPとして定式化している論文 [9-13]
[9] Automatic Summarization of Student Course Feedback, NAACL-HLT 2016.
[10]Generating Coherent Summaries of Scientific Articles Using Coherence Patterns,
EMNLP 2016.
[11] Exploring Text Links for Coherent Multi-Document Summarization, COLING
2016.
[12] Optimizing an Approximation of ROUGE – a Problem-Reduction Approach to
Extractive Multi-Document Summarization, ACL 2016.
[13] Learning-Based Single-Document Summarization with Compression and
Anaphoricity Constraints, ACL 2016.

ILP以外の要約手法 1
● PageRankアルゴリズムの利用 [14]
○ 各文をノードとして表現
○ 各文の類似度をエッジの重みとして表現
○ HITSアルゴリズムにより各文の重要度を計算
[14] Erkan et al., "LexRank: Graph-based Lexical Centrality as Salience in Text Summarization", Journal of Artificial Intelligence Research, 2004.

● MMR (Maximal Marginal Relevance) [15]
○ スコアの高い文から順番に選択
○ 1文選ばれる毎に各文のスコアを更新
○ 既に選ばれている文と似ている文のスコアを小さく
→ 網羅性が向上
[15] Goldstein et al., "Multi-document Summarization by Sentence Extraction", in Proc of the 2000 NAALP-ANLP Workshop on Automatic Summarization , 2000.

● 教師あり学習
○ 前提: 各文に "要約に含まれる" or "含まれない" のラベル
○ うまく分類できるように学習
○ 特徴量の選択方法
■ 文の長さ、スコア、位置 ... etc
○ 分類器
■ SVM、多層パーセプトロン ... etc

抽出型要約研究の焦点
● 網羅性
○ 原文書の重要な内容を網羅すること
● 一貫性
○ 原文書の談話構造 (論理構造) を保持すること
○ 文と文の大域的な関係を考慮
● トレンドは "網羅性" → "一貫性"
※網羅性に着目した研究もまだまだ現役 [16]
[16] Ren et al., "A Redundancy-Aware Sentence Regression Framework for Extractive Summarization", COLING, 2016.

2章の技術を適用することで要約が可能
● TFIDFを基にスコアリング + ナップザック問題として解く
● HITSアルゴリズムによるスコアリング + ナップザック
● MMRを用いて要約生成
● (学習データが充分にあれば) 教師あり学習として解く
→ 対話要約特有の問題は？

対話要約における3つの問題 [17]
1. 自動音声認識 (ASR) 誤りの問題
○ 音声認識のエラー
1. Disfluencyの問題
○ Filled Pauses (遊び言葉: uh, um, well ...)
○ Repetisions (繰り返し)
1. 抽出単位の問題
○ 質問と回答の一貫性
[17] Nenkova et al., "Automatic Summarization", Foundations and Trends in Information Retrieval, Vol 5, No 2-3, pp. 103-233, 2011.

1. 自動音声認識 (ASR) 誤りの問題
○ 10% - 40%程度の音声認識誤り [18]
○ AMI Meeting Corpus [19] の例
■ 人手書き起こし
"You look quite funny at the moment, Tim."
■ ASRの結果
"Great can implement that I"
[18] Glass et al., "Recent progress in the MIT spoken lecture processing project", in Proceedings of the Annual Conference of the International Speech Communication
Association, pp. 2553–2556, 2007.
[19] http://groups.inf.ed.ac.uk/ami/corpus/

2. Disfluencyの問題 (Filled Pauses and Repetitions)
○ Filled Pauses: uh, um, well ... などの遊び言葉
○ Repetitions: 同じ言葉が繰り返される
○ 全体の15 - 25%程度存在する [20]
○ 具体例
A: well I um I think we should discuss this you know with
her.
A’: I think we should discuss this with her.
[20] Zechner et al., "Summarization of spoken language - challenges, methods, and prospects,” Speech Technology Expert eZine, 2002.

2. Disfluencyの問題 (Filled Pauses and Repetitions)
○ Disfluencyの削除だけで1つの研究分野 [21-23]
○ 特徴量の1つとして利用 [24]
■ Disfluencyが存在する文は重要であるという仮説
■ ROUGE値の向上は1%未満
[21] Johnson et al., “A TAG-based noisy-channel model of speech repairs,” ACL, 2004.
[22] Miller et al., “A syntactic time-series model for parsing fluent and disfluent speech,” in Proceedings of the International Conference on Computational Linguistic,
pp. 569–576, 2008.
[23] Stolcke et al., “Statistical language modeling for speech disfluencies,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 405–408, 1996.
[24] Zhu et al., “Summarization of spontaneous conversations,” in Proceedings of the Annual Conference of the International Speech Communication Association,
pp. 1531–1534, 2006.

3. 抽出単位の問題 (質問と回答の一貫性)
○ 質問とそれに対する回答を一緒に抽出したい
○ もし一緒に抽出できないと ... ?
A: どこに住んでいますか？
B: 東京です。
A: 出身はどこですか?
B: 北海道です。
原文書要約

3. 抽出単位の問題 (質問と回答の一貫性)
○ ヒューリスティックルールで同定 [25]
■ 初めてこの問題について言及した論文
■ F1-scoreは0.5程度
○ 対話の談話解析 [26]
■ 対話ドメインにおける談話解析手法を提案
■ F1-scoreは0.5程度
[25] Zechner et al., “Increasing the coherence of spoken dialogue summaries by cross-speaker information linking,” NAACL Workshop on Automatic Summarization,
2001.
[26] Afantenos et al., “Discourse parsing for multi-party chat dialogues," EMNLP, 2015.

4. 評価方法
データセット
● AMI Meeting Corpus [19]
○ 会議のデータ
○ 人手の書き起こしや要約
○ Dialogue Act, Topic Segment などのアノテーション
○ 無料

4. 評価方法
データセット
● ICSI Meeting Corpus [27]
○ 会議のデータ
○ 人手の要約
○ 全75文書
○ 有料
[27] https://catalog.ldc.upenn.edu/LDC2004T04

4. 評価方法
評価指標
● 対話・非対話問わず同様の評価指標が用いられる
● 頻繁に用いられるものは以下の2つ
○ ROUGE
■ システム出力と人間が生成した要約の類似度
■ 単語N-gramの一致率が高いほど大きなスコア
○ 主観評価
■ システム出力を人間に見せて5段階などで評価

● 対話要約を実際にやってみて思ったことを述べます。
● 人手により書き起こされたデータの要約です。
音声認識関連についてはよく分かりません。
● 個人的な考えが多分に含まれます。

● 2章の技術でどれくらいできる？
○ 結構できる
○ パッと見て何を述べているのか何となく分かる程度

● TFIDFを計算するための文書
○ かなり結果が変わる
○ 同じドメインの文書 >>>> 別ドメインの文書
○ 量的には100文書程度あれば何とかなる
(当然、多ければ多い方が良い)

● 文抽出 (文単位の抽出) vs 文短縮 (単語単位の抽出)
○ ROUGE: 文抽出 <= 文短縮
○ 文短縮すると意味の分からない文が
生成されることがある
→ システムの信頼性を下げる要因になり得る
→ 実用的には文抽出

● 抽出単位 (質問と回答のペアを同時に要約に含める)の問題
は解決可能？
○ 技術的には難しそう
○ 文と文の関係の判定はタスクとして難しい
● 技術での解決を諦める

○ インターフェースで解決
B: 東京です。
原文書要約
Before

○ インターフェースで解決
B: 東京です。
原文書要約
B: 東京です。
After

● 2章で説明した技術で要約生成可能
● 対話要約における3つの問題も解決
○ 音声認識の問題 → 書き起こし
○ Disfluencyの問題 → 書き起こし
○ 抽出単位の問題 → インターフェース
→ インターンで何をやったのか？

● インターンで何をやったのか
○ "call reason"が述べられている発話を取りやすくした
○ call reason: 顧客が電話をかけてきた理由
→ 要約に含めるべき重要な内容
○ 既存のスコアリング方法では抽出しづらい
e.g. TFIDF値の合計を文のスコアとした場合
→ "call reason発話"が top-1 になったのは
21文書中5文書のみ

○ 対話データの分析から得られた知見
■ call reason発話には新情報が含まれ易い
新情報: その対話中で初出の単語
e.g. 「エアコンが故障したんですけれど...」
■ call reason発話中の単語は後の文脈で出現し易い
→ これらの知見に基づきスコアリング

○ 結果
■ 21文書中、17文書でcall reason発話が top-1 に
→ 従来のスコアリングに比べ、call reason発話が
要約に含まれ易くなった

6. おわりに
● 対話要約、非対話要約は多くの技術を共有
● 一方で対話要約特有の問題も存在
○ 音声認識のエラー
○ Disfluencyの問題
○ 抽出単位の問題
● 技術で解決困難なことは技術以外で解決
● "call reason発話"が要約に含まれ易くなるような手法を提案

対話テキストの自動要約

More Related Content

Similar to 対話テキストの自動要約

対話テキストの自動要約