論文紹介 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

LexRank: Graph-based Lexical Centrality
as Salience in Text Summarization
Gunes Erkan, Dragomir R. Radev
法政大学大学院理工学研究科システム理工学専攻
辺見一成
論文紹介

Abstract
• テキスト要約においてグラフに基づいてテキスト単位の相対的重要度を
算出する手法をテストする
• 文のグラフ表現における固有ベクトル中心性をコンセプトとして
文の重要度を計算する新しいアプローチであるLexRankを検討する
• degree-basedの手法(LexRankを含む)がcentroid-basedの手法および
それ以外よりも優れている
• しきい値LexRankの手法はcontinuous LexRankを含むdegree-basedの
手法よりも優れている

1. Introduction
• 自然言語処理は数学的な基盤に移行している
• 抽出型要約とは文章から重要な文を抽出して要約を行うこと
• IDFを用いて文の重要度を測る
𝑖𝑑𝑓𝑖 = log
𝑁
𝑛𝑖
N : 文の総数, 𝑛𝑖 : 単語iが出現する文の数

2. Sentence Centrality and Centroid-based
Summarization
• クラスタのメインテーマに関連し，必要かつ十分な量の情報を
提供する(複数文書)クラスタ内の最も中心的な文を特定すること
• 文の中心性は単語の中心性から定義される
• 単語の中心性を評価する一般的な方法は，ベクトル空間における
文書クラスタのセントロイド(重心)をみること
• クラスタ内のセントロイド(重心)からより多くの単語を含む文が
中心とみなす

3. Centrality-based Sentence Salience(1/3)
• 文書クラスタはお互いに関連している文のネットワークとみなすことが
できる
• クラスタ内の他の文とより多く類似した文がそのトピックにとって
中心的であると仮説を立てた
• 中心性の仮説を立てるにあたり明確にしておくべき２つのポイント
• ２つの文の間の類似性を定義する方法
• 他の文との類似性を考慮して全体の文章からある文の中心性を計算する方法

２つの文の間の類似性を定義する方法
• N次元ベクトルでそれぞれの文を表すbag-of-wordsモデルを使用する
• 2つの文の類似性はコサイン類似度によって定義される
3. Centrality-based Sentence Salience (2/3)
𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑥, 𝑦) =
𝑤∈𝑥,𝑦 𝑡𝑓𝑤,𝑥 𝑡𝑓𝑤,𝑦 𝑖𝑑𝑓𝑤
2
𝑥𝑖∈𝑥
𝑡𝑓𝑥𝑖,𝑥𝑖𝑑𝑓𝑥𝑖
2
× 𝑦𝑖∈𝑦
𝑡𝑓𝑦𝑖,𝑦𝑖𝑑𝑓𝑦𝑖
2
𝑡𝑓𝑤,𝑠 :文sの中で単語wが出現する数

他の文との類似性を考慮して全体の文章からある文の中心性を
計算する方法
3. Centrality-based Sentence Salience (3/3)
図1 : DUC 2004で使用されたクラスタのサブセットとそれに対応するコサイン類似度行列図2 : クラスタの重み付きコサイン類似度グラフ

3.1 Degree Centrality
• クラスタ内の各文がノードであり有意に類似した文が互いに接続している
(無向)グラフを作成する
• しきい値を設定することでコサイン類似度行列内のいくつかの低い値を除
いた
th=0.1
th=0.2
th=0.3
図3 : 図1に含まれるクラスタのしきい値0.1, 0.2, 0.3に
それぞれ対応する類似度グラフ
表1 : 図3中のグラフの次数中心スコア

3.2 Eigenvector Centrality and LexRank
𝑝 𝑢 =
𝑑
𝑁
+ 1 − 𝑑
𝑣 ∈𝑎𝑑𝑗 𝑢
𝑝 𝑣
𝑑𝑒𝑔 𝑣
• 次数の中心性はいくつかの望ましくない文章同士が互いに投票して
その中心性を上げている場合がある
• 中心値を有するすべてのノードを考慮してそれぞれの中心値を隣接ノード
に分配する
𝑎𝑑𝑗 𝑢 : ノードuに隣接しているノードの集合, 𝑑𝑒𝑔 𝑣 はノードvの次数
𝑝 𝑢 :ノードuの中心値, N:文の総数, d:減衰係数
表2 : 図3のグラフのLexRankスコア

3.3 Continuous LexRank
𝑝 𝑢 =
𝑑
𝑁
+ 1 − 𝑑
𝑣∈𝑎𝑑𝑗 𝑢
𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑢, 𝑣)
𝑧∈𝑎𝑑𝑗 𝑣 𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑧, 𝑣)
𝑝 𝑣
• Degree centralityとLexRankの類似度グラフでは重み付けがされていない
• コサイン値を直接使用して類似度グラフを作成して類似リンクを強くする

3.4 Centrality vs. Centroid
Centrality-basedの利点
• 文の間の情報の包含を考慮する
• 不自然に高いIDFスコアがトピックに無関係の文のスコアを
上げるのを防ぐことができる

4. Experimental Setup
• データセット DUC 2003 and 2004 data sets
• 評価指標 ROUGE
• MEAD Summarization Toolkit
マルチドキュメントの抽出型要約を行うためのツールキット
𝑅𝑂𝑈𝐺𝐸 − 𝑁 =
𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ
𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒
𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ ∶ 正解テキストと生成テキストとの間で一致するN-gramの数
𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 : 正解テキストに含まれるN-gramの数

5. Results and Discussion
• MEADの別の特徴としてDegree centrality,
しきい値LexRank, continuous LexRankを実装する
• すべての特徴量は正規化する
• 9語未満の文はすべて捨てる
• それぞれに対応する重みを0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 5.0, 10.0に
設定する

5.1 Effect of Threshold on Degree and
LexRank Centrality
図4 : DUCタスク2004データ２における(a)Degree centralityと(b)LexRank centralityの
異なるしきい値によるROUGE-1スコア

5.2 Comparison of Centrality Methods(1/2)
表3 : ROUGE-1 scores for different MEAD policies
on DUC 2003 and 2004 data.

5.2 Comparision of Centrality Methods (2/2)
表4 : Summary of official ROUGE
socres for DUC 2003 Task 2.
表5 : Summary of official ROUGE socres for DUC 2004 Task 2 and 4.

5.3 Experiments on Noisy Data
表6 : ROUGE-1 scores for different MEAD
policies on 17% noisy DUC 2003 and 2004 data.
表3 : ROUGE-1 scores for different MEAD policies
on DUC 2003 and 2004 data.

6. Related Work
• Salton et al. (1997)
単一文書のテキスト要約にdegree Centralityを利用する最初の試み
• Moens, Uyttendaele, and Dumortier (1999)
文のコサイン類似度を用いてテキストを異なるトピック領域に
クラスタリングする
• Zha (2002)
用語の集合から文の集合まで2部グラフを定義する
• Mihalcea and Tarau (2004)
重み付きグラフにおける固有ベクトル中心性アルゴリズムを
単一文章要約のために提案する
• Mihalcea, Tarau, and Figa (2004)
PageRankを自然言語処理の別の問題である語義曖昧性解消に適用する

7. Conclusion
• 文の類似性グラフを構築することで重要な文を適切に
選択できるようになった
• 類似度グラフにおける中心性の計算方法の3種類を
抽出的要約に適用した結果はかなり有望である
• これらの手法はノイズが多いデータに対して全く影響を
受けない

論文紹介 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

More Related Content

Featured

論文紹介 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

Editor's Notes