[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks

1
“Fast Abstractive Summarization with Reinforce-Selected
Sentence Rewriting (NAACL2018)”
Atsushi Kayama M3.Inc
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Abstractive Summarization of Reddit Posts with Multi-
level Memory Networks ”
Atsushi Kayama M3.Inc

 Abstractive Summarization of Reddit Posts with Multi-level Memory Networks
 Byeongchang Kim, Hyunwoo Kim, Gunhee Kim ：Seoul National Univ, Dept of CS
 arXiv 2 Nov 2018
 Reddit TIFU dataset (提案したデータセット)
 既存のデータセットの欠点を補うデータセットを提案，そのデータセットに対し
てSOTA な Abstract 要約モデルを提案
 非news text を用いた Abstract 要約データセット Reddit TIFU を提案
 Memory network (階層的な1次元畳み込み + attention ) を用いた Abstract 要約モデルを提案
 提案した Reddit TIFU dataset, 既存の Newsroom dataset に対して SOTA
書誌情報・概要
2

文章（ドキュメント)要約タスク概要
 Extract 要約
 ドキュメントの中からセンテンスを抜き出したものを要約とする
- 各センテンスをドキュメント全体を表す情報を多く含んでいるか等でスコアリング
- スコア上位から数センテンス抜き出したものを要約とみなす
 Abstract 要約
 ドキュメントから新しいセンテンスを１単語ずつ生成し，生成されたセンテンス群を要約とする
- Seq2Seq による翻訳文生成と基本同じ
3
Article Reference Summary
Created Abstract Summary
出典: A.See et al, Get To The Point: Summarization with Pointer-Generator Networks (2017)
例

 ROUGE-N
 参照要約（正解）に含まれる n-gram が生成した要約にどれくらい含まれるかで生成された要約
の良さを定量化した指標
- precision, recall, f1 score の３種類存在
- N = 1, 2 が一般的に用いられている
 ROUGE-L
 一致する最大のシーケンス (Longest common subsequence) の長さを評価
- precision, recall, f1 score の３種類存在
文章（ドキュメント)要約タスク評価指標
4
Japan defeated Columbia 2-1, first game in 2018 FIFA world cup Russia.
Surprise in world cup group stage, Japan scored 2 goal and defeated Columbia.
Japan defeated Columbia 2-1, first game in 2018 FIFA world cup Russia.
Surprise in world cup group stage, Japan scored 2 goal and defeated Columbia.
Recall例
ROUGE 2
ROUGE L

先行研究との差分
 非news text を用いた Abstract 要約データセット Reddit TIFUを提案
 従来のデータセットはニュース文が主でバイアスが存在している
- 重要な内容がドキュメントの先頭に存在する
- 理想的な要約の形になっているセンテンスが文章内にすでに存在する
 TIFU (今日やらかしたこと) subreddit をクローリングして新たなデータセットを作成
- ドキュメント先頭に全体を要約したセンテンスがあるとは限らない
- 参照要約に出てくる言い回しはドキュメント内にあまり出てこない
 Dilated convolution + Attention を用いた非RNN構造の Abstract要約モデルを提案
 従来のHierarchical RNN Encoder ではEncode の粒度は単語，センテンス，ドキュメントに限る
 提案モデルは Reddit TIFU, 既存のデータセット両方に対して SOTA
 人間の評価でも従来のモデルより高評価
5

既存の要約データセット
 ニュース記事を用いたデータセット
 DUC (2007), Giga word (2012), CNN/DailyMail (2016), News room (2018), Xsum (2018)
 arXiv, PubMed 上の学術誌を用いたデータセット(2018)
 A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents
 https://github.com/acohan/long-summarization
 レビュー・ディベートを用いたデータセット
 Neural Network-Based Abstract Generation for Opinions and Arguments (2016)
 データ数が Rotten Tomato : 3.7 K , IDebate : 2.2K と少ない
 Rotten Tomato は複数人のレビューとproレビュワーがまとめたセンテンスを対にしたデータ
- 意見の取捨選択が行われており，ドキュメントと参照要約の間の対応に一貫性が無い
 IDebate はディベートをまとめたものであり，Formal (要旨が端的）なデータになっている
6

提案：Reddit TIFU dataset
 Reddit の TIFU ( Today, I FUCKED UP ) の投稿をクローリングして作成した
Abstract 要約データセット
 https://www.reddit.com/r/tifu/
 やらかした内容についての投稿に特化した掲示板．要約も一緒に投稿しなくてはいけない規約
- タイトルは投稿内容を要約していなければならない
- 投稿の最後に内容を要約した TL; DR をつけなければならない
 2013/3 ~ 2018/3 の間での投稿をクローリングして２種類のデータセットを作成
- TIFU-short : [ 投稿本文, タイトル(要約) ]
- TIFU-long : [ 投稿本文, TL;DR(要約) ]
7
平均値 (中央値)

8
 タイトル
 文末 TL; DR
 投稿本文

 各データセットに対する既存のAbstract, Extract 要約手法でのパフォーマンス
 Reddit TIFU は Extract 要約手法のパフォーマンスが低く，よりAbstract 要約が必要になっている
 参照要約の 2-gram のドキュメント内での相対位置分布
 Reddit TIFU は既存データセットに比べてより一様に分布している
9

モデル提案：Multi-level Memory Network
10

モデル概要：Multi-level Memory
 入力ドキュメントに対して L 層の
dilated convolution を重ねることで, 広
い範囲から情報を集約
 畳み込みに合わせて Normalized
Gated Tanh Units (本論文提案)を適応
11

モデル概要：Multi-level Memory
 入力ドキュメントに対して L 層の dilated
convolution を重ねることで, 広い範囲か
ら情報を集約
 畳み込みに合わせて Normalized Gated
Tanh Units (本論文提案)を適応
 各層の出力を Memory (Ma
s, Mc
s ) に
 Dilated convolution により広い範囲の情報を
畳み込んだ結果が Memory に保存される
- ４層では周囲31単語(センテンスレベル)
- ８層では周囲511単語（ドキュメント全体）
 各Output Memory には skip connection とし
て入力embedding を付加 12

モデル概要：Sequence Decoder
 単方向の dilated convolution と Attention 機構で自己回帰的に単語を生成
13

 単方向の dilated convolution と Attention 機構で自己回帰的に単語を生成
1. Encoder 最終層を max pooling
2. 前層の出力に dwhole を加えて
dilated conv + normalized gated tanh 計算を
繰り返す
14

3. 最終層 t 単語目の出力から S個の Memory に対してそれぞれ query を計算
4. 異なる範囲の情報を encode した S 個のmemory に query を適用
5. S 個のクエリ結果と, dilated convolution 結果を concat, 語彙ベクトルに変換
-> softmax を適用し, 生成確率最大の単語を生成
6. 2 ~ 5 を EoS token を生成するまで
繰り返す 15

学習の設定
16
 語彙には各データセットで最も出現頻度が高い単語 15K を選択
 単語の埋め込み行列 (V x 300)の初期値には Common Crawl コーパスで学習した
fastText を使用
 一様分布で平滑化を行ったラベルに対して学習 ( p(正解) = 1-ε, p(not正解) = ε / V )
 データセットはtrain : 95%, test : 5% として実験
 投稿の長さが500文字以内，要約が20文字以内(TIFU-short), 50文字以内 (TIFU-long) のものを使用
 12epoch (TIFU-short), 60epoch(TIFU-short) を 4epoch 毎に学習率を 1/10 にしていき学習

実験結果
 提案モデルが TIFU-short, long 両方で最もよいパフォーマンスを示した
 Pointer Generator (PG)
- Attention を用いた本文のコピーと Coverage 機構
 Selective Encoding for ASS (SEASS)
- 双方向GRUで全体をEncode し本文全体との関係で
各単語の隠れ状態を Gating
- GRU + attention で decode
 Deep Recurrent Generative Decoder (DRGD)
- 要約の構造的なパターンを捉えて，要約を生成する
変分オートエンコーダを用いたモデル
17

実験結果
 提案モデルが Newsroom dataset の Abstract 要約データセットに対しても最も良
いパフォーマンスを示した
 AMT で100サンプルについて評価したところ，参照要約に次いで提案モデルの要
約結果が選ばれた
 投稿により関連があるものを選択
 提案モデル vs その他モデル生成結果の２択
 モデルの組み合わせごとの勝敗(%)を右表に示す
18

実験結果
 提案モデルが Newsroom dataset の Abstract 要約データセットに対しても最も良
いパフォーマンスを示した
19

まとめ，気になる点
 非news text を用いた Abstract 要約データセット Reddit TIFUを提案
 Dilated convolution + Attention を用いた非RNN構造の Abstract要約モデルを提案
 提案モデルは Reddit TIFU, 既存のデータセット両方に対して SOTA
 既存の Extractive な傾向が強いデータセットに対するパフォーマンスはどうか？
 データセットをアンサンブルさせることで異なるタイプの要約にも適応可能か？
 既存のデータセットに比べて抽象的な表現が多い気がする
 生成した要約は意味的には正しいものになっているか？
 Abstract 要約では生成した要約が本文と異なる内容になってしまうことが大きな問題
20

[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks

Similar to [DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks (20)

More from Deep Learning JP

More from Deep Learning JP (20)

[DL輪読会]Abstractive Summarization of Reddit Posts with Multi-level Memory Networks

Editor's Notes