SlideShare a Scribd company logo
1 of 34
Download to read offline
A	
  complex	
  network	
  approach	
  to	
  
text	
  summarization
1
論⽂文架構
1. Introduc+on
2. Related	
  work
3. CN-­‐summary
4. Informa+veness	
  results	
  and	
  discussion
5. Correla+ons	
  betweens	
  CN-­‐Summ	
  strategies
6. Final	
  remarks
2
INTRODUCTION 3
Introduction
• 本段介紹兩種不同的摘要產⽣生⽅方式的優缺點以及⽂文字網路
的基礎介紹。
• 摘要產⽣生⽅方式:
• Abstract
• 產⽣生摘要並且改變來源⽂文本的⽂文字,為⼀一種概括或是意
譯,通常⼈人類產⽣生的都是abstract
• 產⽣生abstracts的系統需要複雜的機制例如話語以及語意分析
器以找出原⽂文的意義,還有語⾔言產⽣生器來編成摘要
• Extract
• 當摘要藉由選擇或排列原⽂文的部份時便為extract
• 不需要上述複雜的語⾔言知識來選擇最有關的原⽂文組成摘要
4
Introduction
• ⼀一個圖形或是網路,可以是⼀一個⽂文字架構的多種表現⽅方
法,因此可說是適合⽤用於extract摘要⽅方法
• 節點(Network	
  nodes	
  (ver+ces)	
  )
• 代表字詞、句⼦子或是段落。
• 連結(Network	
  edges	
  (links)	
  )
• 依據某些訂定條件關係來連接節點
• hubs
• ⼀一些⾼高度連接的節點組成⼀一個hub
• 本論⽂文使⽤用只需要簡單的⽂文字預先處理動作的⽂文句網路,
這讓系統不需要複雜的語⾔言類知識
• 如果以⼀一個網路來代表原⽂文,每個節點將代表為⼀一句原⽂文
並且以具相同的原型名詞來決定是否連結。
5
RELATED	
  WORK 6
Related	
  Work
• 本段介紹其他學者所研究的⾃自動產⽣生摘要之演算法以及本
論⽂文所提出的⽅方法之不同。
• Salton	
  et	
  al
• 以段落為節點,並以共通的字詞數量為判斷是否連結
• 雖然簡單,但以段落為基礎的⽅方式會被壓縮率給限制,因為⼀一
個段落無法被打散來放進 extract	
  裡
• Mihalcea
• 藉由⽤用來分類網際網路上的網⾴頁的演算法評估截取原⽂文來產⽣生
extract	
  ,例如:Google的 PageRank以及HITS(Hyperlink-­‐Induced	
  
Topic	
  Search)
7
Related	
  Work
• 本段上述所提及的各種⽅方法⽤用了不同的語⾔言學知識去建⽴立
網路中節點的連結
• 雖然有些語⾔言,例如英⽂文,已經有了許多複雜的資源(例如:
語意分析等等)可以使⽤用,但對於其他語⾔言來說仍然是這種
資源還是稀少的
• 在這論⽂文提出的⽅方法要求只需淺顯的語⾔言學知識即可產⽣生
• 論⽂文的⽅方法只⽤用了⼀一個詞性還原(lemma+zer)以及詞性分類
器(Part-­‐of-­‐Speech	
  Tager)去決定節點是否互相連結
8
CN-­‐SUMMARY 9
CN-­‐Summ
• 節點代表句⼦子,如果兩個節點之間有連結存在代表句⼦子之
間⾄至少有⼀一個詞彙重複。並且只有詞性還原的名詞才列⼊入
考慮
• ⽂文中提到重覆的字詞代表兩個句⼦子之間可能會有重複意思
的潛在問題
• 但論⽂文認為重複出現的字詞在⼤大多數的情況下是互補⽽而⾮非
重複意義。因為⼈人們寫作的習慣鮮少⽤用多句話重複同樣的
內容。
10
CN-­‐Summ
• 具體分為四步驟:
A. 將⽂文章進⾏行預處理,根據句⼦子分隔符將句⼦子分開,並將名詞
提取出。
B. 根據⽂文章構建成兩個N*N的矩陣,⼀一個是表⽰示鄰接關係的矩
陣,⼀一個是表⽰示權重的矩陣,分別叫做A和W,N為句⼦子的個
數。
C. 計算節點的值
D. 根據壓縮⽐比例並使⽤用使⽤用14種不同的策略之⼀一,取出前n個
句⼦子組成摘要。
11
CN-­‐Summ
• 	
  
12
CN-­‐Summ
• 	
  
13
CN-­‐Summ
• 	
  
14
CN-­‐Summ
• 	
  
15
CN-­‐Summ
• 	
  
16
CN-­‐Summ
• 	
  
17
CN-­‐Summ
• 	
  
18
CN-­‐Summ
• 	
  
19
INFORMATIVENESS	
  RESULTS	
  AND	
  
DISCUSSION
20
Result	
  and	
  discussion
• 進⾏行了兩個實驗,使⽤用葡萄⽛牙語的語料庫。
• 100則新聞為摘要擷取對象(平均613字,29句話)
• 第⼀一項實驗依Precision/Recall	
  score為基準(sec+on	
  4.1)
• 第⼆二項實驗依Rouge	
  metric為基準(sec+on	
  4.2)
• 也進⾏行了補充的實驗以評估不同的⽂文章壓縮率是否會影響
CN-­‐Summ的成效
21
Result	
  and	
  discussion
• 	
  
22
23
實驗⼀一之數據
CN-­‐Vo0ng	
  ⽐比起ClassSumm,	
  SuPor	
  
以及 SuPor-­‐v2有著較⾼高的
Precision	
  ,⽐比起	
  ClassSumm	
  有較
⾼高的Recall
⼀一個顯卓的成績是所有的CN-­‐Summ版本都
超越了TF-­‐ISF-­‐Summ,	
  GistSumm	
  以及	
  
NeuralSumm。這些系統也和CN-­‐Summ⼀一樣
僅⽤用淺顯的語⾔言資源
Result	
  and	
  discussion
• 總結來說CN-­‐Summ策略可分類為兩個群組,超過或低於
40%的平均F-­‐measure。	
  
• 最低的p值⼀一般來說分布於兩個群組之間,⽽而最⾼高的p值則
通常位於群組之內
24
SuPor-­‐v2	
  不能被認為⽐比CN-­‐
Vo0ng,	
  CN-­‐SP	
  wc;	
  CN-­‐Rings	
  k,	
  
CN-­‐Degree	
  and	
  CN-­‐SPwi,	
  更好,
因為其相對應的p值皆⼤大於
0.05(統計上的顯著性差異)
Result	
  and	
  discussion
Second	
  Experiment
• 在第⼆二個實驗中採⽤用了 ROUGE	
  metric來評估摘要的效果
25
Result	
  and	
  discussion
• 使⽤用度數、最短路徑、d-­‐rings跟k-­‐core的CN-­‐Summ版本在兩
次實驗中皆展現了良好的表現。
• 這表⽰示當在為新聞擷取摘要⽽而選擇節點的時候,連結的數
⺫⽬目(度數)、與其他節點的距離、離Hub的距離(d-­‐ring)以及是
否為核⼼心群組的節點(k-­‐core)以上各種因素看似佔了⼗十分重
要的⾓角⾊色
26
Result	
  and	
  discussion
• 	
  
27
CORRELATIONS	
  BETWEENS	
  CN-­‐SUMM	
  
STRATEGIES
28
Correlations	
  betweens	
  CN-­‐Summ
29
	
  
• 右圖中⾼高度相關的策略被刻意
的放在左上⽅方的位置來強化視
覺效果。
• 從CN-­‐Degreee開始到CN-­‐Vo0ng
為⽌止這⼀一區塊涵蓋了幾乎所有
的⾼高度相關策略(29個其中的27
個)
Correlations	
  betweens	
  CN-­‐Summ
• 	
  
30
FINAL	
  REMARKS 31
Final	
  Remark
• 論⽂文中的⽅方法只定義了⼀一個只需簡單的⽂文字預先處理步驟
的網路來代表⽂文章中的語句。因此此⽅方法的潛⼒力可以藉由
注重在摘要演算法的⾝身上⽽而⾮非網路的架構⽅方法
• 某些CN-­‐Summ的版本在同樣的實驗背景下,其效果與葡萄
⽛牙語中數⼀一數⼆二的⾃自動摘要器之表現不分上下。
32
Final	
  Remark
• 網路的定義是極為重要的,因為它很有可能對基於網路的
摘要策略的成效產⽣生巨⼤大的影響
• 改善⽅方法如下:
1. 照應詞的解決⽅方法(anaphor	
  resolu+on)
找出照應詞與對應的先⾏行詞之間的關係,因⽽而能夠創造之前所被忽
略的連結。
2. 	
  多重組合字的識別(recogni+on	
  of	
  mul+word	
  expressions)
論⽂文中預先處理的步驟中只⼀一次辨識⼀一個單字,並且將複合名詞當
作個別不同的名詞。
3. 	
  同義字庫或詞彙鏈(a	
  thesaurus	
  or	
  lexical	
  chains)
如果能夠偵測語義或詞彙上的關係,例如同義詞/反義詞、下位詞/
上位詞,將能夠允許給予不同型態的詞彙連結不同的edge	
  weight
33
Final	
  Remark
更進⼀一步的改進:
• 將全部的CN-­‐Summ策略加⼊入到⼀一個機器學習的⽅方法
• 整合兩個或多個不相關的摘要策略形成新的摘要策略
結論:
• 基於網路的摘要擷取⽅方法並不依靠語⾔言或是其他領域,但
⼜又能夠得到與使⽤用更複雜語⾔言處理以及冗⻑⾧長運算的系統幾
乎⼀一樣的成效。
34

More Related Content

Viewers also liked

презентация досвід
презентация досвідпрезентация досвід
презентация досвідirinashabelyan
 
28 DE SEP 2013 PASEO ROSARITO ENSENADA
28 DE SEP 2013 PASEO ROSARITO ENSENADA28 DE SEP 2013 PASEO ROSARITO ENSENADA
28 DE SEP 2013 PASEO ROSARITO ENSENADAMuerto Viviente
 
recom_Cesar.Lopez
recom_Cesar.Lopezrecom_Cesar.Lopez
recom_Cesar.LopezC L
 
Nuevas tecnologías
Nuevas tecnologíasNuevas tecnologías
Nuevas tecnologíasanasalomon44
 
Parem as empresas
Parem as empresasParem as empresas
Parem as empresasAldan Neto
 
CNN - Socially responsible IT has soul
CNN - Socially responsible IT has soulCNN - Socially responsible IT has soul
CNN - Socially responsible IT has soulabandonedregion54
 
Hacking brains
Hacking brainsHacking brains
Hacking brainsjuliomayol
 
Final Presentation - UCHC College Summer Fellowship
Final Presentation - UCHC College Summer FellowshipFinal Presentation - UCHC College Summer Fellowship
Final Presentation - UCHC College Summer FellowshipAlexandria Irace
 

Viewers also liked (13)

Estimulacion
Estimulacion Estimulacion
Estimulacion
 
презентация досвід
презентация досвідпрезентация досвід
презентация досвід
 
28 DE SEP 2013 PASEO ROSARITO ENSENADA
28 DE SEP 2013 PASEO ROSARITO ENSENADA28 DE SEP 2013 PASEO ROSARITO ENSENADA
28 DE SEP 2013 PASEO ROSARITO ENSENADA
 
recom_Cesar.Lopez
recom_Cesar.Lopezrecom_Cesar.Lopez
recom_Cesar.Lopez
 
Nuevas tecnologías
Nuevas tecnologíasNuevas tecnologías
Nuevas tecnologías
 
Parem as empresas
Parem as empresasParem as empresas
Parem as empresas
 
Npwp
NpwpNpwp
Npwp
 
CNN - Socially responsible IT has soul
CNN - Socially responsible IT has soulCNN - Socially responsible IT has soul
CNN - Socially responsible IT has soul
 
latest_resume
latest_resumelatest_resume
latest_resume
 
The Real Face of Men with Eating Disorders
The Real Face of Men with Eating DisordersThe Real Face of Men with Eating Disorders
The Real Face of Men with Eating Disorders
 
Value-driven approach to software development
Value-driven approach to software developmentValue-driven approach to software development
Value-driven approach to software development
 
Hacking brains
Hacking brainsHacking brains
Hacking brains
 
Final Presentation - UCHC College Summer Fellowship
Final Presentation - UCHC College Summer FellowshipFinal Presentation - UCHC College Summer Fellowship
Final Presentation - UCHC College Summer Fellowship
 

A complex network approach to text summarization