SlideShare a Scribd company logo
1 of 19
LexRank: Graph-based Lexical Centrality
as Salience in Text Summarization
Gunes Erkan, Dragomir R. Radev
法政大学大学院理工学研究科システム理工学専攻
辺見一成
論文紹介
Abstract
• テキスト要約においてグラフに基づいてテキスト単位の相対的重要度を
算出する手法をテストする
• 文のグラフ表現における固有ベクトル中心性をコンセプトとして
文の重要度を計算する新しいアプローチであるLexRankを検討する
• degree-basedの手法(LexRankを含む)がcentroid-basedの手法および
それ以外よりも優れている
• しきい値LexRankの手法はcontinuous LexRankを含むdegree-basedの
手法よりも優れている
1. Introduction
• 自然言語処理は数学的な基盤に移行している
• 抽出型要約とは文章から重要な文を抽出して要約を行うこと
• IDFを用いて文の重要度を測る
𝑖𝑑𝑓𝑖 = log
𝑁
𝑛𝑖
N : 文の総数, 𝑛𝑖 : 単語iが出現する文の数
2. Sentence Centrality and Centroid-based
Summarization
• クラスタのメインテーマに関連し,必要かつ十分な量の情報を
提供する(複数文書)クラスタ内の最も中心的な文を特定すること
• 文の中心性は単語の中心性から定義される
• 単語の中心性を評価する一般的な方法は,ベクトル空間における
文書クラスタのセントロイド(重心)をみること
• クラスタ内のセントロイド(重心)からより多くの単語を含む文が
中心とみなす
3. Centrality-based Sentence Salience(1/3)
• 文書クラスタはお互いに関連している文のネットワークとみなすことが
できる
• クラスタ内の他の文とより多く類似した文がそのトピックにとって
中心的であると仮説を立てた
• 中心性の仮説を立てるにあたり明確にしておくべき2つのポイント
• 2つの文の間の類似性を定義する方法
• 他の文との類似性を考慮して全体の文章からある文の中心性を計算する方法
2つの文の間の類似性を定義する方法
• N次元ベクトルでそれぞれの文を表すbag-of-wordsモデルを使用する
• 2つの文の類似性はコサイン類似度によって定義される
3. Centrality-based Sentence Salience (2/3)
𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑥, 𝑦) =
𝑤∈𝑥,𝑦 𝑡𝑓𝑤,𝑥 𝑡𝑓𝑤,𝑦 𝑖𝑑𝑓𝑤
2
𝑥𝑖∈𝑥
𝑡𝑓𝑥𝑖,𝑥𝑖𝑑𝑓𝑥𝑖
2
× 𝑦𝑖∈𝑦
𝑡𝑓𝑦𝑖,𝑦𝑖𝑑𝑓𝑦𝑖
2
𝑡𝑓𝑤,𝑠 :文sの中で単語wが出現する数
他の文との類似性を考慮して全体の文章からある文の中心性を
計算する方法
3. Centrality-based Sentence Salience (3/3)
図1 : DUC 2004で使用されたクラスタのサブセットとそれに対応するコサイン類似度行列 図2 : クラスタの重み付きコサイン類似度グラフ
3.1 Degree Centrality
• クラスタ内の各文がノードであり有意に類似した文が互いに接続している
(無向)グラフを作成する
• しきい値を設定することでコサイン類似度行列内のいくつかの低い値を除
いた
th=0.1
th=0.2
th=0.3
図3 : 図1に含まれるクラスタのしきい値0.1, 0.2, 0.3に
それぞれ対応する類似度グラフ
表1 : 図3中のグラフの次数中心スコア
3.2 Eigenvector Centrality and LexRank
𝑝 𝑢 =
𝑑
𝑁
+ 1 − 𝑑
𝑣 ∈𝑎𝑑𝑗 𝑢
𝑝 𝑣
𝑑𝑒𝑔 𝑣
• 次数の中心性はいくつかの望ましくない文章同士が互いに投票して
その中心性を上げている場合がある
• 中心値を有するすべてのノードを考慮してそれぞれの中心値を隣接ノード
に分配する
𝑎𝑑𝑗 𝑢 : ノードuに隣接しているノードの集合, 𝑑𝑒𝑔 𝑣 はノードvの次数
𝑝 𝑢 :ノードuの中心値, N:文の総数, d:減衰係数
表2 : 図3のグラフのLexRankスコア
3.3 Continuous LexRank
𝑝 𝑢 =
𝑑
𝑁
+ 1 − 𝑑
𝑣∈𝑎𝑑𝑗 𝑢
𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑢, 𝑣)
𝑧∈𝑎𝑑𝑗 𝑣 𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑧, 𝑣)
𝑝 𝑣
• Degree centralityとLexRankの類似度グラフでは重み付けがされていない
• コサイン値を直接使用して類似度グラフを作成して類似リンクを強くする
3.4 Centrality vs. Centroid
Centrality-basedの利点
• 文の間の情報の包含を考慮する
• 不自然に高いIDFスコアがトピックに無関係の文のスコアを
上げるのを防ぐことができる
4. Experimental Setup
• データセット DUC 2003 and 2004 data sets
• 評価指標 ROUGE
• MEAD Summarization Toolkit
マルチドキュメントの抽出型要約を行うためのツールキット
𝑅𝑂𝑈𝐺𝐸 − 𝑁 =
𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ
𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒
𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ ∶ 正解テキストと生成テキストとの間で一致するN-gramの数
𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 : 正解テキストに含まれるN-gramの数
5. Results and Discussion
• MEADの別の特徴としてDegree centrality,
しきい値LexRank, continuous LexRankを実装する
• すべての特徴量は正規化する
• 9語未満の文はすべて捨てる
• それぞれに対応する重みを0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 5.0, 10.0に
設定する
5.1 Effect of Threshold on Degree and
LexRank Centrality
図4 : DUCタスク2004データ2における(a)Degree centralityと(b)LexRank centralityの
異なるしきい値によるROUGE-1スコア
5.2 Comparison of Centrality Methods(1/2)
表3 : ROUGE-1 scores for different MEAD policies
on DUC 2003 and 2004 data.
5.2 Comparision of Centrality Methods (2/2)
表4 : Summary of official ROUGE
socres for DUC 2003 Task 2.
表5 : Summary of official ROUGE socres for DUC 2004 Task 2 and 4.
5.3 Experiments on Noisy Data
表6 : ROUGE-1 scores for different MEAD
policies on 17% noisy DUC 2003 and 2004 data.
表3 : ROUGE-1 scores for different MEAD policies
on DUC 2003 and 2004 data.
6. Related Work
• Salton et al. (1997)
単一文書のテキスト要約にdegree Centralityを利用する最初の試み
• Moens, Uyttendaele, and Dumortier (1999)
文のコサイン類似度を用いてテキストを異なるトピック領域に
クラスタリングする
• Zha (2002)
用語の集合から文の集合まで2部グラフを定義する
• Mihalcea and Tarau (2004)
重み付きグラフにおける固有ベクトル中心性アルゴリズムを
単一文章要約のために提案する
• Mihalcea, Tarau, and Figa (2004)
PageRankを自然言語処理の別の問題である語義曖昧性解消に適用する
7. Conclusion
• 文の類似性グラフを構築することで重要な文を適切に
選択できるようになった
• 類似度グラフにおける中心性の計算方法の3種類を
抽出的要約に適用した結果はかなり有望である
• これらの手法はノイズが多いデータに対して全く影響を
受けない

More Related Content

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

論文紹介 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

  • 1. LexRank: Graph-based Lexical Centrality as Salience in Text Summarization Gunes Erkan, Dragomir R. Radev 法政大学大学院理工学研究科システム理工学専攻 辺見一成 論文紹介
  • 2. Abstract • テキスト要約においてグラフに基づいてテキスト単位の相対的重要度を 算出する手法をテストする • 文のグラフ表現における固有ベクトル中心性をコンセプトとして 文の重要度を計算する新しいアプローチであるLexRankを検討する • degree-basedの手法(LexRankを含む)がcentroid-basedの手法および それ以外よりも優れている • しきい値LexRankの手法はcontinuous LexRankを含むdegree-basedの 手法よりも優れている
  • 3. 1. Introduction • 自然言語処理は数学的な基盤に移行している • 抽出型要約とは文章から重要な文を抽出して要約を行うこと • IDFを用いて文の重要度を測る 𝑖𝑑𝑓𝑖 = log 𝑁 𝑛𝑖 N : 文の総数, 𝑛𝑖 : 単語iが出現する文の数
  • 4. 2. Sentence Centrality and Centroid-based Summarization • クラスタのメインテーマに関連し,必要かつ十分な量の情報を 提供する(複数文書)クラスタ内の最も中心的な文を特定すること • 文の中心性は単語の中心性から定義される • 単語の中心性を評価する一般的な方法は,ベクトル空間における 文書クラスタのセントロイド(重心)をみること • クラスタ内のセントロイド(重心)からより多くの単語を含む文が 中心とみなす
  • 5. 3. Centrality-based Sentence Salience(1/3) • 文書クラスタはお互いに関連している文のネットワークとみなすことが できる • クラスタ内の他の文とより多く類似した文がそのトピックにとって 中心的であると仮説を立てた • 中心性の仮説を立てるにあたり明確にしておくべき2つのポイント • 2つの文の間の類似性を定義する方法 • 他の文との類似性を考慮して全体の文章からある文の中心性を計算する方法
  • 6. 2つの文の間の類似性を定義する方法 • N次元ベクトルでそれぞれの文を表すbag-of-wordsモデルを使用する • 2つの文の類似性はコサイン類似度によって定義される 3. Centrality-based Sentence Salience (2/3) 𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑥, 𝑦) = 𝑤∈𝑥,𝑦 𝑡𝑓𝑤,𝑥 𝑡𝑓𝑤,𝑦 𝑖𝑑𝑓𝑤 2 𝑥𝑖∈𝑥 𝑡𝑓𝑥𝑖,𝑥𝑖𝑑𝑓𝑥𝑖 2 × 𝑦𝑖∈𝑦 𝑡𝑓𝑦𝑖,𝑦𝑖𝑑𝑓𝑦𝑖 2 𝑡𝑓𝑤,𝑠 :文sの中で単語wが出現する数
  • 7. 他の文との類似性を考慮して全体の文章からある文の中心性を 計算する方法 3. Centrality-based Sentence Salience (3/3) 図1 : DUC 2004で使用されたクラスタのサブセットとそれに対応するコサイン類似度行列 図2 : クラスタの重み付きコサイン類似度グラフ
  • 8. 3.1 Degree Centrality • クラスタ内の各文がノードであり有意に類似した文が互いに接続している (無向)グラフを作成する • しきい値を設定することでコサイン類似度行列内のいくつかの低い値を除 いた th=0.1 th=0.2 th=0.3 図3 : 図1に含まれるクラスタのしきい値0.1, 0.2, 0.3に それぞれ対応する類似度グラフ 表1 : 図3中のグラフの次数中心スコア
  • 9. 3.2 Eigenvector Centrality and LexRank 𝑝 𝑢 = 𝑑 𝑁 + 1 − 𝑑 𝑣 ∈𝑎𝑑𝑗 𝑢 𝑝 𝑣 𝑑𝑒𝑔 𝑣 • 次数の中心性はいくつかの望ましくない文章同士が互いに投票して その中心性を上げている場合がある • 中心値を有するすべてのノードを考慮してそれぞれの中心値を隣接ノード に分配する 𝑎𝑑𝑗 𝑢 : ノードuに隣接しているノードの集合, 𝑑𝑒𝑔 𝑣 はノードvの次数 𝑝 𝑢 :ノードuの中心値, N:文の総数, d:減衰係数 表2 : 図3のグラフのLexRankスコア
  • 10. 3.3 Continuous LexRank 𝑝 𝑢 = 𝑑 𝑁 + 1 − 𝑑 𝑣∈𝑎𝑑𝑗 𝑢 𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑢, 𝑣) 𝑧∈𝑎𝑑𝑗 𝑣 𝑖𝑑𝑓 − 𝑚𝑜𝑑𝑖𝑓𝑖𝑒𝑑 − 𝑐𝑜𝑠𝑖𝑛𝑒(𝑧, 𝑣) 𝑝 𝑣 • Degree centralityとLexRankの類似度グラフでは重み付けがされていない • コサイン値を直接使用して類似度グラフを作成して類似リンクを強くする
  • 11. 3.4 Centrality vs. Centroid Centrality-basedの利点 • 文の間の情報の包含を考慮する • 不自然に高いIDFスコアがトピックに無関係の文のスコアを 上げるのを防ぐことができる
  • 12. 4. Experimental Setup • データセット DUC 2003 and 2004 data sets • 評価指標 ROUGE • MEAD Summarization Toolkit マルチドキュメントの抽出型要約を行うためのツールキット 𝑅𝑂𝑈𝐺𝐸 − 𝑁 = 𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ 𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝐶𝑜𝑢𝑛𝑡𝐸𝑥𝑎𝑐𝑡𝑀𝑎𝑡𝑐ℎ ∶ 正解テキストと生成テキストとの間で一致するN-gramの数 𝐶𝑜𝑢𝑛𝑡𝑟𝑒𝑓𝑒𝑟𝑒𝑛𝑐𝑒 : 正解テキストに含まれるN-gramの数
  • 13. 5. Results and Discussion • MEADの別の特徴としてDegree centrality, しきい値LexRank, continuous LexRankを実装する • すべての特徴量は正規化する • 9語未満の文はすべて捨てる • それぞれに対応する重みを0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 5.0, 10.0に 設定する
  • 14. 5.1 Effect of Threshold on Degree and LexRank Centrality 図4 : DUCタスク2004データ2における(a)Degree centralityと(b)LexRank centralityの 異なるしきい値によるROUGE-1スコア
  • 15. 5.2 Comparison of Centrality Methods(1/2) 表3 : ROUGE-1 scores for different MEAD policies on DUC 2003 and 2004 data.
  • 16. 5.2 Comparision of Centrality Methods (2/2) 表4 : Summary of official ROUGE socres for DUC 2003 Task 2. 表5 : Summary of official ROUGE socres for DUC 2004 Task 2 and 4.
  • 17. 5.3 Experiments on Noisy Data 表6 : ROUGE-1 scores for different MEAD policies on 17% noisy DUC 2003 and 2004 data. 表3 : ROUGE-1 scores for different MEAD policies on DUC 2003 and 2004 data.
  • 18. 6. Related Work • Salton et al. (1997) 単一文書のテキスト要約にdegree Centralityを利用する最初の試み • Moens, Uyttendaele, and Dumortier (1999) 文のコサイン類似度を用いてテキストを異なるトピック領域に クラスタリングする • Zha (2002) 用語の集合から文の集合まで2部グラフを定義する • Mihalcea and Tarau (2004) 重み付きグラフにおける固有ベクトル中心性アルゴリズムを 単一文章要約のために提案する • Mihalcea, Tarau, and Figa (2004) PageRankを自然言語処理の別の問題である語義曖昧性解消に適用する
  • 19. 7. Conclusion • 文の類似性グラフを構築することで重要な文を適切に 選択できるようになった • 類似度グラフにおける中心性の計算方法の3種類を 抽出的要約に適用した結果はかなり有望である • これらの手法はノイズが多いデータに対して全く影響を 受けない

Editor's Notes

  1. まず,abstractです. 本論文では,テキスト要約においてグラフに基づいてテキスト単位の相対的重要度を算出する手法をテストしています. その中で文のグラフ表現における固有ベクトル中心性をコンセプトとして 文の重要度を計算する新しいアプローチであるLexRankを検討しています. また,類似度グラフを用いて中心性を算出するためのいくつかの手法を論議しています. 結果はdegree-basedの手法がcentroid-basedの手法およびそれ以外よりも優れていました. さらにしきい値LexRankの手法はcontinuous LexRankを含むdegree-basedの手法よりも優れていました.
  2. 次にintroductionです. 近年,自然言語処理は数学的基盤へと移行しています. 例えば,解析,語義の曖昧性の解消,自動言い換えなどは統計的手法の導入によって 大きな恩恵を受けています. その中でも本論文では,テキスト要約のうち,抽出型要約に注視しています. 抽出型要約とは文章から重要な文を抽出して要約を行うことです. また,対照的な要約手法として文章内の言いかえが行われる抽象型要約が挙げられます. 次に,文の重要度を測るidf(Inverse Document Frequency)についてです. それぞれの単語についてidfは以下のような式で求めることができます. 多くの文章によく出現する単語であれば低い値を示し,稀な単語であれば高い値を示します. https://dev.classmethod.jp/articles/yoshim_2017ad_tfidf_1-2/ 英語 a,the 日本語 助詞 の,に, て
  3. 次はSentence Centrality and Centroid-based Summarization 文の中心性と重心をベースとした要約の章です. まず,抽出型要約は元の文章に含まれる文のサブセットを選択することですが, これは,クラスタのメインテーマに関連し,必要かつ十分な量の情報を提供する 最も中心的な文を特定するものとみなすことができます. 次に文の中心性についてですが,これは単語の中心性から定義されることが多いです. 単語の中心性を評価する一般的な方法として,ベクトル空間における文章クラスタの セントロイド(重心)をみることがあります. クラスタ内のセントロイド(重心)からより多くの単語を含む文が中心とみなされます. セントロイドベースの要約は過去に有望な結果を出しており、最初のウェブベースの マルチドキュメント要約システムをもたらしました
  4. 次はCentrality-based Sentence Salience 中心性に基づく文の顕著性の章です. まず,文書クラスタはお互いに関連している文のネットワークとみなすことができます. そこでクラスタ内の他の文とより多く類似した文がそのトピックにとって中心的であると仮説を立てました. ここで中心性の仮説を立てるにあたり明確にしておくべきポイントが2つあります. 1つ目が2つの文の間の類似性を定義する方法で 2つ目がほかの文との類似性を考慮して全体の文章からある文の中心性を計算する方法です. 以上の2つに関しては次のスライドで説明します. #本論文のアプローチはすべてソーシャルネットワークの重要性というコンセプトに基づいている
  5. まず,2つの文の間の類似性を定義する方法ですが 類似性を定義するために, N次元ベクトルでそれぞれの文を表すbag-of-wordsモデルを使用します. ここでNは対象とする言語のとり得るすべての単語の数です. このとき2つの文の類似性は2つの対応するベクトル間のコサイン類似度によって定義されます. 以下がその式です. Tfwsが文sの中で単語wが出現する数になっています.
  6. 次にほかの文との類似性を考慮して全体の文章からある分の中心性を計算する方法についてです. まず,文書クラスタはコサイン類似度行列によって表すことができます. 以下の左2つの表はDUC 2004で使用されたクラスタのサブセットとそれに対応するコサイン類似度行列になっています. また,この行列は各エッジが文の間のコサイン類似度となる重み付きグラフでも表す事ができ、それが右の図になっています. 以降の章でコサイン類似度行列とそれに対応するグラフ表現を用いていくつかの文の中心性を計算する方法について論議していきます.
  7. 次はDegree Centrality 次数の中心性の章です. まず,関連した文書クラスタ内では多くの文がお互いにやや似ていることが予想できます. ここで本論文では有意な類似性に関心があることから,クラスタ内の各文がノードであり,有意に類似した文が互いに接続しているグラフを作成することにしました. そこでしきい値を設定することでコサイン類似度行列内のいくつかの低い値は削除します. その結果の類似度グラフが図3になります. また図3の次数を示した表1から,コサインしきい値の選択は中心性の解釈に劇的な影響を与得ることが分かります. 低すぎるしきい値は誤った類似性を考慮させる可能性がありますが、高すぎるしきい値もクラスタ内の類似関係の情報を多くを失う可能性があります. #しきい値 0.1 と 0.2 で d4s1 が最も中心的な文。
  8. 次はEigenvector Centrality and LexRank 固有ベクトル中心性とLexRankの章です. まず,次数の中心性には問題があります.それはいくつかの望ましくない文章が互いに投票してその中心性を上げている場合があり,これは要約の質を下げることにつながります. そこで中心値を有するすべてのノードを考慮してそれぞれの中心値を隣接ノードに分配することで先ほど述べた問題を避けることができます. 以上のことは以下の式で表されます. 表2は図3におけるグラフの減衰係数0.85でのLexRankを示しており,文d4s1がしきい値0.1, 0.2の場合に最も中心的であるという結果がでています. #隣接(adjacent) 次数(degree)
  9. 次はContinuous LexRank 連続性LexRankの章です. まず, Degree CentralityとLexRankを計算するために作成した類似度グラフでは重み付けが行われていません. 理由としては,しきい値を使用してコサイン行列を0,1にしたためです. ただこれは情報損失をしてしまっています. そこでLexRankの1つの改善策としてコサイン値を直接使用して類似度グラフを作成し,類似リンクを強くすることが考えられます. それが以下の式になります. このように文のLexRankを計算する際にリンクしている文のLexRank値にリンクの重みを乗算します. 重みは行の合計によって正規化されており,メソッドの収束のために減衰係数が加算されます.
  10. 次はCentrality vs(versus) Centroid 中心性 対 重心の章です. ここではCentrality-basedの利点について述べられていました. まず1つ目は,文の間の情報の包含(ほうがん)を考慮することです. 要約にはより多くの情報を含めることが望ましいとされています. 図1の文d4s1では,クラスタの最初の2つの文の情報をほぼ包含しており,ほかの文ともいくつかの共通する 情報を持っているため,高いスコアを得ていました. もう1つの利点は,不自然に高いIDFスコアがトピックに無関係の文のスコアを上げるのを防ぐことができることです. #Centroid-basedの場合は,単語の頻度が考慮されるが、高い IDF を持つような希少単語が多数含まれている文は、クラスタ内の他の場所に単語が存在しない場合でも高い重心スコアを付けることがある。
  11. 次はExperimental Setup 実験のセットアップの章です. 使用するデータセットはDUC 2003と2004のデータセット, 評価指標はROUGE(ルージュ), またMEAD Summarization Toolkitというマルチドキュメントの抽出型要約を行うためのツールキットが 使用されていました.
  12. 次はResults and Discussion 結果と考察の章です. まず,以降の章ではMEADの別の特徴として Degree centrality, しきい値LexRank, continuous LexRankを実装しています. また,すべての特徴量は正規化されており,9語未満の文はすべて捨てています. さらに,それぞれに対応する重みを0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 5.0, 10.0に設定して8種類のMEAD機能を実行しました.
  13. 次はEffect of Threshold on Degree and Lexrank Centrality DegreeとLexRankの中心性に対するしきい値の影響の章です. ここでは,非常に高いしきい値が類似性マトリックスのほとんどすべての情報を失う可能性があることを実証しています. データセットに対してDegreeとLexRank Centralityを4つのしきい値(0.1, 0.2, 0.3, 0.4)で実行しています. また8つの異なる重みで実験した平均値が水平線で示されています. 図から明らかなように最も低いしきい値である0.1が最も良い要約を生成しています. これは,高いしきい値では情報損失が大きく,ROUGEスコアが悪くなることを意味しています.
  14. 次は Comparison of Centrality Methods 中心性手法の比較の章です. 表3は4つのデータセットに対する実験のROUGEスコアをそれぞれ示したものです. 8種類の特徴量に対応する各手法に対して実験の最小値,最大値,平均値を示しています. #DegreeとLexRankではしきい値を0.1としています. また各データセットに対してbaselineが示されており,randomがクラスタからランダムに文章を抽出した結果で,lead-basedは中心性の手法を用いず,位置の特徴のみを用いたものです. 今回提案した3つの手法は(Degree, LexRank with threshold, continuous LexRank)は、全てのデータセットにおいてベースラインよりも有意に良い結果を示しています. またDUC2003データセットを除いた3つのデータセットにおいてCentroidベースの要約よりも今回提案した手法のほうが よい結果を示しています.
  15. また先ほどのROUGEスコアとほかの参加者のROUGEスコアを比較したところ, ほとんどがDUC2003で1番目には及ばないものの,2番目のスコアよりは良い結果でした. また,DUC2004の2つのデータセットではすべてにおいて,提案した手法のうち少なくとも1つが, 1番目のスコアよりも良いスコアを示していました.
  16. 次はExperiments on Noisy Data ノイズの多いデータに対する実験の章です. ここではノイズの多いデータに対する本論文の手法の挙動を観察するために実験を行っていました. データセットには約17%のノイズが含まれるようにしていました.# 2/12 ノイズの多いデータに対する結果は表6のとおりです.5.2で示した表3と比べると Baselineがノイズの影響を受けていることを除けば,表3と同様な結果が得られており,グラフベースの中心性手法では性能の低下は非常に小さいです. また,Centroid-basedの要約も良い結果は出しているものの,ほとんどの場合でほかの手法より悪い結果を出していました.
  17. 次はRelated Work 関連研究の章です. 関連研究はこれら5つが挙げられており, 単位区文書のテキスト要約にdegree Centralityを利用する試み, 文のコサイン類似度を用いてテキストを行るトピック領域にクラスタリングする, 用語の集合から文の集合まで2部グラフを定義する, 重み付きグラフにおける固有ベクトル中心性アルゴリズムを単一文章要約のために提案する, PageRankを自然言語処理の別の問題である語彙曖昧性解消に適用する, などがありました.
  18. 最後にConclusion 結論の章です. まず,文の類似性グラフを構築することで重要な文を適切に選択できるようになりました. また,類似度グラフにおける中心性の計算方法の3種類を抽出的要約に適用した結果はかなり有望でした. また,これらの手法はノイズが多いデータに対して全く影響を受けないことが分かりました. 以上で論文紹介を終わります.ありがとうございました.