読解支援プレゼン 4 21
- 17. 整数計画法の利用
・De Belderの(1)式を拡張したもの
文章の難易度を表す式
vn = β1W + β2S + β3D
・・・(5)
やさしい日本語ニュースに近づけるための特徴P、Cを加えた式
vl = γ1W + γ2S + γ3D + γ4P + γ5C
・・・(6)
文書中の単語数W、分数S、全単語の係り受け間の距離の合計値D
ΔPの合計値P、全分割候補点におけるcの合計値C
β1∼β3、γ1∼γ5はNWEニュースの30対のデータから、線形回帰を使って求め
た
‹#›
- 18. 整数計画法の利用
max : ∑ij(γ1ΔWij + γ2ΔSij + γ3Δdij + γ4Δpij + γ5cij) aij
・・・(7)
式(6)の変化を表す式(7)が最大となる分割点を求める。
このときに次の制約条件を使った。
‹#›
- 19. 整数計画法の利用
subj.to aij ∈ {0,1}
・・・(8)
∑nij=0aij = 1, ∀ i ≥ 1
・・・(9)
(3),(4)と同様に分割点の決定を表す。
Δdij ≥ 1, ∀ i ≥ 1, ∀ j ≥ 1
・・・(10)
各分割点の係り受け間の距離が1以上あることを表している。
「歩いて/帰る」など係り受け間の距離が0の場合「歩いて」は除外
‹#›
- 20. 整数計画法の利用
(β1ΔWij + β2ΔSij + β3Δdij)aij ≤ max_d
・・・(11)
-∑ij aij Δ Sij ≤ max_s
・・・(12)
・(11)式は(5)式の難易度を下げすぎないための条件式
難易度の変化がmax_d(元ニュースとNWEニュースの30対のデータを
用いて式(5)の難易度を計算した際の上限値)以下であることを表す
・(12)式は過度に文分割が行われないための条件式
文分割後の分数の増加がmax_s(元ニュースとNWEニュースの30対のデータ
を用いて文数の増加を計算した際の上限値)以下であることを表す
‹#›
- 22. 分割規則の実験結果
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
‹#›
- 24. 分割規則の実験結果
‹#›
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
これらは係り受け解析誤りによるものがほとんどであった。
- 25. 分割規則の実験結果
‹#›
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
この結果は、適切な規則がないために不適切となったものが多かった。
20種類の節境界情報を用いて作成した26の規則で適切な接続詞を付与するに
は限界がある。
解決するためには、節境界情報の細分化をして規則を追加する必要がある。
- 27. 分割精度 A / (A + C)
分割再現率 A / (A + B)
全体精度 A + D / (A + B + C + D)
‹#›
提案手法適用結果
分割した
分割しなかった
正解:分割する A B
- 28. 最適分割点の判定方法
分割精度 分割再現率 全体精度
ベースライン 0.33 1.00 0.33
De Belder 0.28 0.24 0.55
提案手法 0.37 0.64 0.52
‹#›
分割精度、分割再現率ともに提案手法がDe Belderの手法を上回った。
一方で、全体精度はDe Belderの手法が上回った。
これは、全ての分割候補点を分割しない場合の全体精度が
0.67(1 - 0.33(ベースラインの全体精度))と高い値であること、De Belderの手法
の分割再現率が低いことが原因であると思われる。