SlideShare a Scribd company logo
1 of 29
Download to read offline
やさしい日本語ニュースのための
自動文分割
‹#›
概要
・ニュースを外国人住民のためにやさしく書き換える
・やさしくする方法
→単語をやさしくする
(削除 消す)
→構文をやさしくする
(∼したところ ∼しました。そして∼)
‹#›
概要
・やさしいニュースに書き換えるために、、、
「文分割の実施の判定に関係する特徴を用い、
文分割を整数計画問題として定式化して解く」
‹#›
先行研究
・聴覚障害者向け字幕放送のためのニュース文自動短文分割(江原)
・接続構造解析に基づく日本語複文の分割(武石)
→文の表層情報、分割点前後の形態素解析などを用いて分割規則を作成
しかし、分割後の文全体の自然さは考慮していない
・Text Simplification for Children.(De Belder)
→整数計画法で文の難易度を最低にしている
しかし、文の自然さについては考慮していない
‹#›
先攻研究
難易度をやさしくすることに加え、
既にあるやさしい日本語ニュースに近づけ、文の自然さの
条件を満たした文分割の手法を提案する。
‹#›
手法
De Belderの手法を参考に
1.
対象のニュースに対して文節間の係り受け解析を行い、解
析結果から分割候補点を抽出する。
2.
分割候補点全てに分割規則を適用して、
「主語の補完」「文末表現の補完」「接続詞の補完」の3
つの文分割処理を行う。
‹#›
手法
3.
予備的な文分割処理の結果を用いて分割候補点の中から最
適な分割点を求めて、それらの文分割処理のみを採用す
る。
‹#›
分割候補点
・ここでの分割候補点は、用言を含む文節を修飾する従属
節の直後を分割候補点とする。
・これら分割候補点をCaboChaを用いて抽出した。
例)
関東では/今日も/雨が/続き、/土砂災害の/危険性が/高くなっている/
地域が/あります。
‹#›
分割規則
江原氏、武石氏の手法を参考に
・分割規則の一部に節境界情報を用いた。
節境界情報とは、、
→連用節、連体節、並列節などの文節の種類を表す名称。
今回は、節境界解析ツールCBAPを用いた。
‹#›
分割規則
・規則の拡張のために作成した規則を訓練用のデータ200文に適用し、誤った
箇所に規則の追加、修正を加えた。
主語の補完に関する規則:2
文末表現の補完に関する規則:23
接続詞の補完に関する規則:26
‹#›
分割規則
主語の補完例
A(CBAP:主題ハ)B/C。 → AB。AC。
文末表現の補完例
∼、/∼ました。 → ∼ました。∼ました。
∼ず、/∼ました。 → ∼ませんでした。∼ました。
∼ており、/∼ました。 → ∼ました。∼ました。
接続詞の補完例
A(CBAP:並列節ガ)/B → A。しかし、B
A(CBAP:ナド節)/B → A。このように、B
A(CBAP:理由節ノデ)/B → A。このため、B
‹#›
分割規則
このつがいは、4個の卵を産んだとみられていましたが、観察のカメラが故障
して撮影できなくなり、22日、改めてカメラを設置して映像を確認したとこ
ろ、ひなの姿が映っているのが確認されました。
このつがいは、4個の卵を産んだとみられていました。しかし、観察のカメラ
が故障して撮影できなくなりました。そして、22日、改めてカメラを設置しま
した。そして、映像を確認しました。すると、ひなの姿が映っているのが確認
されました。
‹#›
最適分割点
・CaboChaを用いて抽出した分割候補点の中から、最適な
分割点を求める。
文書中の単語数Wと分数Sを用いて文書全体の難易度を次
式で表す。
v = αW + βS (1)
ここでαとβは、難易度が付与された正解データを使い、線
形回帰を用いて求める。
‹#›
最適分割点
max : ∑ij(αΔwij + βΔsij)aij
(2)
subj.to aij ∈ {0, 1}
(3)
∑nij=0aij = 1, ∀i ≧ 1
(4)
‹#›
分割に使う特徴
1.難易度を表す特徴
・単語数の変化ΔWと分数ΔSの変化
・係り受け間の距離Δdの変化
例 g1.g2 …….giにおいてgiとg1の距離はgi - g1
2.やさしい日本語ニュースに近づけるための特徴
・1文の平均長との差の変化(Δp = |l - 35|)
1文の文字数lと1次編集ニュース(NWEニュース)30記事の1文の平均長
35文字との差の絶対値
‹#›
分割に使う特徴
・節境界の相対頻度(c = nr/Nr)
元ニュースとNWEニュースの30対のデータを対象に、元
ニュース中の分割候補点に節境界rが現れる頻度N rとNWE
ニュースで分割されている頻度n rの相対頻度を調べたとこ
ろ、節境界の種類によってこの値に大きな差があったた
め、この値を特徴に用いた。
並列節ガ 連用節 並列節デ テ節 ナド節
‹#›
整数計画法の利用
・De Belderの(1)式を拡張したもの
文章の難易度を表す式
vn = β1W + β2S + β3D
・・・(5)
やさしい日本語ニュースに近づけるための特徴P、Cを加えた式
vl = γ1W + γ2S + γ3D + γ4P + γ5C
・・・(6)
文書中の単語数W、分数S、全単語の係り受け間の距離の合計値D
ΔPの合計値P、全分割候補点におけるcの合計値C
β1∼β3、γ1∼γ5はNWEニュースの30対のデータから、線形回帰を使って求め
た
‹#›
整数計画法の利用
max : ∑ij(γ1ΔWij + γ2ΔSij + γ3Δdij + γ4Δpij + γ5cij) aij
・・・(7)
式(6)の変化を表す式(7)が最大となる分割点を求める。
このときに次の制約条件を使った。
‹#›
整数計画法の利用
subj.to aij ∈ {0,1}
・・・(8)
∑nij=0aij = 1, ∀ i ≥ 1
・・・(9)
(3),(4)と同様に分割点の決定を表す。
Δdij ≥ 1, ∀ i ≥ 1, ∀ j ≥ 1
・・・(10)
各分割点の係り受け間の距離が1以上あることを表している。
「歩いて/帰る」など係り受け間の距離が0の場合「歩いて」は除外
‹#›
整数計画法の利用
(β1ΔWij + β2ΔSij + β3Δdij)aij ≤ max_d
・・・(11)
-∑ij aij Δ Sij ≤ max_s
・・・(12)
・(11)式は(5)式の難易度を下げすぎないための条件式
難易度の変化がmax_d(元ニュースとNWEニュースの30対のデータを
用いて式(5)の難易度を計算した際の上限値)以下であることを表す
・(12)式は過度に文分割が行われないための条件式
文分割後の分数の増加がmax_s(元ニュースとNWEニュースの30対のデータ
を用いて文数の増加を計算した際の上限値)以下であることを表す
‹#›
評価実験 実験概要
NHKニュースからランダムに抽出した450文を用いて、分
割規則の評価を行った。
1. 1文ごとに文中の全ての分割候補点に分割規則を適用
し、文分割処理を行う
2. 分割した箇所1つごとに「分割点」「主語の補完」
「文末の補完」「接続詞の補完」の4つの評価項目に関
して、適切か不適切かの2値で評価した。
‹#›
分割規則の実験結果
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
‹#›
不適切評価の考察
分割点で不適切と評価されたもので係り受け解析誤りを除いて以下の場合がほ
とんどであった。
・混乱の収拾に向け、(分割点)/与野党が支持した。
・ダルビッシュ投手はユニフォームを 着て、(分割点)/チーム
メートと2時間練習を行いました。
これらは分割点の用言が副詞的や役割をもつため、分割すると不適切になった
と考えられる。
‹#›
分割規則の実験結果
‹#›
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
これらは係り受け解析誤りによるものがほとんどであった。
分割規則の実験結果
‹#›
評価項目 評価数 適切 不適切
分割点 325 237 (72.9%) 88(27.1%)
主語の補完 64 47 (73.4%) 17(26.6%)
文末の補完 237 156 (65.8%) 81(34.2%)
接続詞の補完 237 118 (49.8%) 119(50.2%)
この結果は、適切な規則がないために不適切となったものが多かった。
20種類の節境界情報を用いて作成した26の規則で適切な接続詞を付与するに
は限界がある。
解決するためには、節境界情報の細分化をして規則を追加する必要がある。
最適分割点の判定方法
1. 元ニュースに最適分割点を入れる
2. NWEニュースで分割されている箇所を最適な分割点
として1.で求めた分割点と比較を行い、その結果を用い
て分割精度、分割再現率、全体精度式を求める。
‹#›
分割精度 A / (A + C)
分割再現率 A / (A + B)
全体精度 A + D / (A + B + C + D)
‹#›
提案手法適用結果
分割した
分割しなかった
正解:分割する A B
最適分割点の判定方法
分割精度 分割再現率 全体精度
ベースライン 0.33 1.00 0.33
De Belder 0.28 0.24 0.55
提案手法 0.37 0.64 0.52
‹#›
分割精度、分割再現率ともに提案手法がDe Belderの手法を上回った。
一方で、全体精度はDe Belderの手法が上回った。
これは、全ての分割候補点を分割しない場合の全体精度が
0.67(1 - 0.33(ベースラインの全体精度))と高い値であること、De Belderの手法
の分割再現率が低いことが原因であると思われる。
まとめ
・提案手法がやさしい日本語ニュースのための最適分割点の判定に有効に働い
ている。
・しかし、分割精度、全体精度ともに十分ではなく、
難易度や、やさしい日本語ニュースの特徴をさらに増やしていく必要がある。
・今回は1人の作業者が書き換えたNWEニュースを用いた。
複数の作業者が書き換えたニュースを用意して、作業者間の分割点の一致を調
べる必要がある。
‹#›

More Related Content

More from kentshioda

読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10kentshioda
 
読解支援7 3
読解支援7 3読解支援7 3
読解支援7 3kentshioda
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26kentshioda
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会kentshioda
 
読解支援6 19
読解支援6 19読解支援6 19
読解支援6 19kentshioda
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5kentshioda
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26kentshioda
 
読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19kentshioda
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28kentshioda
 

More from kentshioda (9)

読解支援7 10
読解支援7 10読解支援7 10
読解支援7 10
 
読解支援7 3
読解支援7 3読解支援7 3
読解支援7 3
 
読解支援6 26
読解支援6 26読解支援6 26
読解支援6 26
 
Naacl 読み会
Naacl 読み会Naacl 読み会
Naacl 読み会
 
読解支援6 19
読解支援6 19読解支援6 19
読解支援6 19
 
読解支援6 5
読解支援6 5読解支援6 5
読解支援6 5
 
読解支援 5 26
読解支援 5 26読解支援 5 26
読解支援 5 26
 
読解支援 5 19
読解支援 5 19読解支援 5 19
読解支援 5 19
 
読解支援プレゼン 4 28
読解支援プレゼン 4 28読解支援プレゼン 4 28
読解支援プレゼン 4 28
 

読解支援プレゼン 4 21