【文献紹介】Automatic community creation for abstractive spoken conversation summarization

九州工業大学大学院情報工学府情報工学専攻
嶋田研究室山村崇
Automatic Community Creation
for Abstractive Spoken
Conversation Summarization
NFiS@EMNLP2017

Abstract
▶ Oyaらの手法を基にしたテンプレート型要約
参照要約から要約の雛型となるテンプレートを作成
• 最終的にスロットを補完して要約を生成
- Ex.) Project manager talked about [ ] .
要約と対話中の紐づけデータが必要
• 紐づけデータを利用してテンプレートを選択
- しかし，紐づけデータはあまりない・コストが高い
• 紐づけデータの代用となる‘Community’を自動生成
- 数種類の特徴量を用いて要約文と関連する発話
(Community) を紐づけデータとして用いる
2種類の実験データ
• AMI Corpus (Eng.) , LUNA Corpus (Eng. & It.) 2
Automatic Community Creation for Abs. … Summarization

Oya’s Model
参照要約から作成したテンプレートをもとに
スロットを埋め要約文として生成
3

Oya’s Model
4
人手で作成した要約
（参照要約）から
テンプレートを作成

Oya’s Model
5
テンプレートに
フレーズを埋めて
最終的な要約を生成

Model Overview
6

Slot Labeling & Clustering
▶ 名詞をWordNetで置き換えてスロット化
各名詞の上位語をスロットとして置換
• ただし，このままでは詳細すぎる文が多く存在
• テンプレートの一般化（統合）が必要
- 統合するために類似するテンプレートをクラスタリング
- WordNet上の主動詞観の距離で類似度を計算
7
Template Generation
参照要約の例文
The project manager introduced the upcoming project along
with more tools and equipment to the team members.
[speaker] introduced [act.n.02] along
with [artifact.n.01] and [artifact.n.01] to the team members.
：

Template Fusion
8
Template Generation
Start と end ノードをセット
□After introducing [situation.n.01], [speaker] then discussed [content.n.05] .
□Before beginning [act.n.02] of [artifact.n.01], [speaker] discussed [act.n.02] and
[content.n.05] for [artifact.n.01] .
□[speaker] discussed [content.n.05] of [artifact.n.01] and [material.n.01] .
□[speaker] discussed [act.n.02] and [asset.n.01] in attracting [living_thing.n.01] .

Template Fusion
9
Template Generation
Word Graphにノードと辺を登録

Template Fusion
10
Template Generation
既存の単語ノードがあればリンク

Template Fusion
11
Template Generation
既存の単語ノードがあればリンク（以下同様）

Path Ranking
▶ テンプレートとして適切な経路を選択
不適切な経路を除去
• ３つ以上のスロットをもつ経路
• スロットがない経路 …
残った経路に対してランキング
• エッジの重み順位で各クラスタ10個のテンプレを生成
- 重み付け：単語間の出現頻度，N-gram
12
Template Generation
× 10

Four Heuristics
▶ 参照要約と対話文の紐付けデータを自動生成
要約文とのコサイン類似度が高い４発話を選択
• AMIコーパスの紐付け数の平均が４発話
- H1 (Baseline)
⁃ 対話全体がCommunity
- H2
⁃ コサイン類似度の上位４発話
- H3
⁃ 動詞をWNで置き換えたものとの類似度の上位４発話
- H4
⁃ 単語の埋め込みベクトルの平均によるコサイン類似度
• English : Google News data
• Italian : Europarl Italian corpus
13
Community Creation

Topic Segmentation
▶ 対話文をトピック（セグメント）毎に分割
セグメント毎にテンプレートを選択して要約を生成
• 目的：対話中のトピックを網羅
セグメントからスロットを補完する語を抽出
• 出現頻度でランキング
Communityの類似度からテンプレートを決定
14
Summary Generation
：：
セグメントテンプレート参照要約対話文

Summary Selecting
▶ テンプレートのスロットを埋めて要約を生成
セグメントに対していくつかの要約文が生成される
• 似たような情報をもつ要約文が複数存在
• ランキングして一番良い要約文を選択
ランキング方法
• Oyaら
- Fluency Score : 文法性
⁃ 単語と品詞の3-gram
- Coverage Score : 単語の重要度
- “Meeting Specific Term” Score : 議論構造
• 提案手法
- N-gram : 参照要約から学習した単語と品詞の言語モデル
15
Sentence Ranking

Data Sets
▶ ２種類のコーパスで要約生成実験
The AMI meeting corpus [Carletta et al., 2006]
• 全139対話
- 開発データ : 20対話
- 実験データ : 119対話（3分割交差検定）
The LUNA Human-Human corpus [Dinarelli et al., 2009]
• コールセンタの Client-Agent 間による572対話
• イタリア語の200対話に各5つの要約
- train : test = 100 : 100
• 100対話が英語に翻訳
- Train : test = 50 : 50
16
Experiments

Results on AMI
▶ AMI Corpus 上での評価実験
先行研究 (Mehdad, Oya) と ROUGE-2 を比較
より単純な要約文ランキングとCommunity生成
で先行研究を上回る
H[2-4] が人手の紐づけデータよりも性能が良い
17
Experiments
有意差あり

Results on LUNA
▶ LUNA Corpus 上での評価実験
3つのベースラインと比較
• Baseline-L : 長い発話を要約長 (7%) まで選択
• Baseline-LB : 対話の冒頭から長い発話を選択
• MMR : 𝜆 = 0.7
対話の冒頭を抽出するモデルは強力なベースライン
• 議論の問題定義など重要な話題が多いため
• CCCS Shared Task (2015) では，どのモデルも
上回ることができなかった
18
Experiments

Results on LUNA
▶ Word2Vec (H4) によるモデルが一番良い結果
H2 : Token < H3 : WordNet < H4 : Word2Vec
• Word2Vec によって，WordNetのスパース性を回避
• English では H2, H3 もベースラインを上回る
全体的に Eng. > It.
• 言語性か学習データ数やドメインに依るのかは今後
Experiments

Conclusion
▶ Community 生成によるテンプレート型要約
Word2Vec によってより適切にテンプレートを選択
AMI Corpus と LUNA Corpus 上で最も良い結果
▶ 今後の課題
全体的に英語の方が精度が良かった
• イタリア語の Word2Vec の学習データは小規模
- より大規模なデータで精度を検証
20

【文献紹介】Automatic community creation for abstractive spoken conversation summarization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【文献紹介】Automatic community creation for abstractive spoken conversation summarization

Similar to 【文献紹介】Automatic community creation for abstractive spoken conversation summarization (20)

Recently uploaded

Recently uploaded (10)

【文献紹介】Automatic community creation for abstractive spoken conversation summarization