A complex network approach to text summarization
- 2. 論⽂文架構
1. Introduc+on
2. Related
work
3. CN-‐summary
4. Informa+veness
results
and
discussion
5. Correla+ons
betweens
CN-‐Summ
strategies
6. Final
remarks
2
- 21. Result
and
discussion
• 進⾏行了兩個實驗,使⽤用葡萄⽛牙語的語料庫。
• 100則新聞為摘要擷取對象(平均613字,29句話)
• 第⼀一項實驗依Precision/Recall
score為基準(sec+on
4.1)
• 第⼆二項實驗依Rouge
metric為基準(sec+on
4.2)
• 也進⾏行了補充的實驗以評估不同的⽂文章壓縮率是否會影響
CN-‐Summ的成效
21
- 24. Result
and
discussion
• 總結來說CN-‐Summ策略可分類為兩個群組,超過或低於
40%的平均F-‐measure。
• 最低的p值⼀一般來說分布於兩個群組之間,⽽而最⾼高的p值則
通常位於群組之內
24
SuPor-‐v2
不能被認為⽐比CN-‐
Vo0ng,
CN-‐SP
wc;
CN-‐Rings
k,
CN-‐Degree
and
CN-‐SPwi,
更好,
因為其相對應的p值皆⼤大於
0.05(統計上的顯著性差異)
- 26. Result
and
discussion
• 使⽤用度數、最短路徑、d-‐rings跟k-‐core的CN-‐Summ版本在兩
次實驗中皆展現了良好的表現。
• 這表⽰示當在為新聞擷取摘要⽽而選擇節點的時候,連結的數
⺫⽬目(度數)、與其他節點的距離、離Hub的距離(d-‐ring)以及是
否為核⼼心群組的節點(k-‐core)以上各種因素看似佔了⼗十分重
要的⾓角⾊色
26
- 33. Final
Remark
• 網路的定義是極為重要的,因為它很有可能對基於網路的
摘要策略的成效產⽣生巨⼤大的影響
• 改善⽅方法如下:
1. 照應詞的解決⽅方法(anaphor
resolu+on)
找出照應詞與對應的先⾏行詞之間的關係,因⽽而能夠創造之前所被忽
略的連結。
2.
多重組合字的識別(recogni+on
of
mul+word
expressions)
論⽂文中預先處理的步驟中只⼀一次辨識⼀一個單字,並且將複合名詞當
作個別不同的名詞。
3.
同義字庫或詞彙鏈(a
thesaurus
or
lexical
chains)
如果能夠偵測語義或詞彙上的關係,例如同義詞/反義詞、下位詞/
上位詞,將能夠允許給予不同型態的詞彙連結不同的edge
weight
33