Simple English Wikipedia: A New Text Simplification Task
- 1. Coster and Kauchak. “Simple English
Wikipedia: A New Text Simplification Task.”
In Proc. of ACL, pp.665-669, 2011.
B4 西原 大貴
- 6. コーパス生成:段落対
単一言語アライメント
Barzilay and Elhadad, 2003; Nelken and Shieber, 2006
段落は、記事の書式設定情報で識別
平易文と難解文をアライメント
◦ TF-IDF Cos類似度:閾値0.5以上
段落クラスタリング手法(Barzilay and Elhadad, 2003)は、
TF-IDFと差がなかった
- 7. コーパス生成:文対
動的計画法で最良のアライメント
◦ Barzilay and Elhadad (2003)
𝑛 個の難解文を 𝑚個の平易文にアライメント
𝑠𝑖𝑚(𝑖, 𝑗) は 𝑖 番目難解文と 𝑗 番目平易文の類似度
◦ TF-IDF Cos類似度
……………………… 平易文をとばす
……………………… 難解文をとばす
……………………… 1難解文→1平易文
…… 1難解文→2平易文
…… 2難解文→1平易文
… 2難解文→2平易文
𝑠𝑘𝑖𝑝_𝑝𝑒𝑛𝑎𝑙𝑡𝑦 = 0.0001
- 10. コーパス分析
閾値を 0.5 → 0.75 にしてみた
ペア数 137K → 90K
人手評価 91/100 → 98/100
今後、0.5で議論するが0.75で同様の傾向
- 11. コーパス分析
平易文の数
40文/平易記事 → 14文対/記事 を得た
難解記事が、文レベルの変更のみで平易記事に
なるケースは稀
2つのデータセットに相関
◦ アライメント文27%が不変
◦ 文を平易化しないケースも必要として、残した