論⽂文架構
1. Introduc+on
2. Related
work
3. CN-‐summary
4. Informa+veness
results
and
discussion
5. Correla+ons
betweens
CN-‐Summ
strategies
6. Final
remarks
2

Introduction
• 本段介紹兩種不同的摘要產⽣生⽅方式的優缺點以及⽂文字網路
的基礎介紹。
• 摘要產⽣生⽅方式:
• Abstract
• 產⽣生摘要並且改變來源⽂文本的⽂文字，為⼀一種概括或是意
譯，通常⼈人類產⽣生的都是abstract
• 產⽣生abstracts的系統需要複雜的機制例如話語以及語意分析
器以找出原⽂文的意義，還有語⾔言產⽣生器來編成摘要
• Extract
• 當摘要藉由選擇或排列原⽂文的部份時便為extract
• 不需要上述複雜的語⾔言知識來選擇最有關的原⽂文組成摘要
4

Introduction
• ⼀一個圖形或是網路，可以是⼀一個⽂文字架構的多種表現⽅方
法，因此可說是適合⽤用於extract摘要⽅方法
• 節點(Network
nodes
(ver+ces)
)
• 代表字詞、句⼦子或是段落。
• 連結(Network
edges
(links)
)
• 依據某些訂定條件關係來連接節點
• hubs
• ⼀一些⾼高度連接的節點組成⼀一個hub
• 本論⽂文使⽤用只需要簡單的⽂文字預先處理動作的⽂文句網路，
這讓系統不需要複雜的語⾔言類知識
• 如果以⼀一個網路來代表原⽂文，每個節點將代表為⼀一句原⽂文
並且以具相同的原型名詞來決定是否連結。
5

Related
Work
• 本段介紹其他學者所研究的⾃自動產⽣生摘要之演算法以及本
論⽂文所提出的⽅方法之不同。
• Salton
et
al
• 以段落為節點，並以共通的字詞數量為判斷是否連結
• 雖然簡單，但以段落為基礎的⽅方式會被壓縮率給限制，因為⼀一
個段落無法被打散來放進 extract
裡
• Mihalcea
• 藉由⽤用來分類網際網路上的網⾴頁的演算法評估截取原⽂文來產⽣生
extract
，例如:Google的 PageRank以及HITS(Hyperlink-‐Induced

Topic
Search)
7

Related
Work
• 本段上述所提及的各種⽅方法⽤用了不同的語⾔言學知識去建⽴立
網路中節點的連結
• 雖然有些語⾔言，例如英⽂文，已經有了許多複雜的資源(例如:
語意分析等等)可以使⽤用，但對於其他語⾔言來說仍然是這種
資源還是稀少的
• 在這論⽂文提出的⽅方法要求只需淺顯的語⾔言學知識即可產⽣生
• 論⽂文的⽅方法只⽤用了⼀一個詞性還原(lemma+zer)以及詞性分類
器(Part-‐of-‐Speech
Tager)去決定節點是否互相連結
8

CN-‐Summ
• 節點代表句⼦子，如果兩個節點之間有連結存在代表句⼦子之
間⾄至少有⼀一個詞彙重複。並且只有詞性還原的名詞才列⼊入
考慮
• ⽂文中提到重覆的字詞代表兩個句⼦子之間可能會有重複意思
的潛在問題
• 但論⽂文認為重複出現的字詞在⼤大多數的情況下是互補⽽而⾮非
重複意義。因為⼈人們寫作的習慣鮮少⽤用多句話重複同樣的
內容。
10

CN-‐Summ
• 具體分為四步驟：
A. 將⽂文章進⾏行預處理，根據句⼦子分隔符將句⼦子分開，並將名詞
提取出。
B. 根據⽂文章構建成兩個N*N的矩陣，⼀一個是表⽰示鄰接關係的矩
陣，⼀一個是表⽰示權重的矩陣，分別叫做A和W，N為句⼦子的個
數。
C. 計算節點的值
D. 根據壓縮⽐比例並使⽤用使⽤用14種不同的策略之⼀一，取出前n個
句⼦子組成摘要。
11

INFORMATIVENESS
RESULTS
AND

DISCUSSION
20

Result
and
discussion
• 進⾏行了兩個實驗，使⽤用葡萄⽛牙語的語料庫。
• 100則新聞為摘要擷取對象(平均613字，29句話)
• 第⼀一項實驗依Precision/Recall
score為基準(sec+on
4.1)
• 第⼆二項實驗依Rouge
metric為基準(sec+on
4.2)
• 也進⾏行了補充的實驗以評估不同的⽂文章壓縮率是否會影響
CN-‐Summ的成效
21

Result
and
discussion
•

22

23
實驗⼀一之數據
CN-‐Vo0ng
⽐比起ClassSumm,
SuPor

以及 SuPor-‐v2有著較⾼高的
Precision
,⽐比起
ClassSumm
有較
⾼高的Recall
⼀一個顯卓的成績是所有的CN-‐Summ版本都
超越了TF-‐ISF-‐Summ,
GistSumm
以及

NeuralSumm。這些系統也和CN-‐Summ⼀一樣
僅⽤用淺顯的語⾔言資源

Result
and
discussion
• 總結來說CN-‐Summ策略可分類為兩個群組，超過或低於
40%的平均F-‐measure。

• 最低的p值⼀一般來說分布於兩個群組之間，⽽而最⾼高的p值則
通常位於群組之內
24
SuPor-‐v2
不能被認為⽐比CN-‐
Vo0ng,
CN-‐SP
wc;
CN-‐Rings
k,

CN-‐Degree
and
CN-‐SPwi,
更好，
因為其相對應的p值皆⼤大於
0.05(統計上的顯著性差異)

Result
and
discussion
Second
Experiment
• 在第⼆二個實驗中採⽤用了 ROUGE
metric來評估摘要的效果
25

Result
and
discussion
• 使⽤用度數、最短路徑、d-‐rings跟k-‐core的CN-‐Summ版本在兩
次實驗中皆展現了良好的表現。
• 這表⽰示當在為新聞擷取摘要⽽而選擇節點的時候，連結的數
⺫⽬目(度數)、與其他節點的距離、離Hub的距離(d-‐ring)以及是
否為核⼼心群組的節點(k-‐core)以上各種因素看似佔了⼗十分重
要的⾓角⾊色
26

Result
and
discussion
•

27

CORRELATIONS
BETWEENS
CN-‐SUMM

STRATEGIES
28

Correlations
betweens
CN-‐Summ
29

• 右圖中⾼高度相關的策略被刻意
的放在左上⽅方的位置來強化視
覺效果。
• 從CN-‐Degreee開始到CN-‐Vo0ng
為⽌止這⼀一區塊涵蓋了幾乎所有
的⾼高度相關策略(29個其中的27
個)

Correlations
betweens
CN-‐Summ
•

30

Final
Remark
• 論⽂文中的⽅方法只定義了⼀一個只需簡單的⽂文字預先處理步驟
的網路來代表⽂文章中的語句。因此此⽅方法的潛⼒力可以藉由
注重在摘要演算法的⾝身上⽽而⾮非網路的架構⽅方法
• 某些CN-‐Summ的版本在同樣的實驗背景下，其效果與葡萄
⽛牙語中數⼀一數⼆二的⾃自動摘要器之表現不分上下。
32

Final
Remark
• 網路的定義是極為重要的，因為它很有可能對基於網路的
摘要策略的成效產⽣生巨⼤大的影響
• 改善⽅方法如下:
1. 照應詞的解決⽅方法(anaphor
resolu+on)
找出照應詞與對應的先⾏行詞之間的關係，因⽽而能夠創造之前所被忽
略的連結。
2.
多重組合字的識別(recogni+on
of
mul+word
expressions)
論⽂文中預先處理的步驟中只⼀一次辨識⼀一個單字，並且將複合名詞當
作個別不同的名詞。
3.
同義字庫或詞彙鏈(a
thesaurus
or
lexical
chains)
如果能夠偵測語義或詞彙上的關係，例如同義詞/反義詞、下位詞/
上位詞，將能夠允許給予不同型態的詞彙連結不同的edge
weight
33

Final
Remark
更進⼀一步的改進:
• 將全部的CN-‐Summ策略加⼊入到⼀一個機器學習的⽅方法
• 整合兩個或多個不相關的摘要策略形成新的摘要策略
結論:
• 基於網路的摘要擷取⽅方法並不依靠語⾔言或是其他領域，但
⼜又能夠得到與使⽤用更複雜語⾔言處理以及冗⻑⾧長運算的系統幾
乎⼀一樣的成效。
34

A complex network approach to text summarization

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (13)

A complex network approach to text summarization