Sotsuken final

1,446 views
1,395 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,446
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
7
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Sotsuken final

  1. 1. コーパスを用いた 学習手法に基づく照応解析 発表者:浜田恭平 所属研究室:武藤研究室
  2. 2. 研究の目的 Web データを用いた自動辞書構築に関する研究 Soon らの提案したモデル (コーパスを用いた学習手 法に基づいた照応解析) + 先行詞の同定 ⇒ 照応解析の必要性を指摘 Web 文書 2 段落1 段落2 段落1 段落2 Web 文書 1 説明文を・・・ この規則は・・・ “ ”説明文らしい段落 抽出 抽出 指示対象不明 照応解析・ ・ ・ ・ ・ ・ ・ ・ ・ 飯田らの提案した素性 のうち主に文法的素性
  3. 3. Soon らのモデル(1) NP1 NP2 NP3 NP4 ANPNP5 文章 Positive ペア Negative ペア Negative ペア 先行詞 照応詞 照応解析の問題 与えられた照応詞に対して , 先行詞の候補となる名詞 句の各々が先行詞となるかならないかを判別する 2 値分類問題に分解 . 訓練時 先行詞と照応詞の対を positive ペア , 先行詞と照応詞 の間の各名詞句と照応詞の対を negative ペアとして 学習 .
  4. 4. Soon らのモデル(2) NP1 NP2 NP3 NP4 ANPNP5 文章 Positive ペア Negative ペア Negative ペア 先行詞 照応詞 新しい照応問題を解 く際照応詞から先行文脈に向かって , 先行詞候補となる 名詞句の一つ一つについて , それが先行詞かどうか 分類. いずれかの名詞句を先行詞として決定した時点で解 析を終了 .
  5. 5. 実験に用いた素性 素性の種類 素性名 詳細 Grammatical pos NP の品詞 . definite NP がソ系の代名詞である場合は Y. それ以外は N. demonstrative NP がコ系の代名詞もしくはア系の代名詞である 場合は Y. それ以外は N. particle NP に続く助詞 . ないときは O. Semantic ne NP の固有表現の種類: PERSON,ORGANIZATION,LOCATION,ARTIFACT,DATE,TI ME,MONEY,PERCENT ないときは O. log_like NP-ANP の対の log-likelihood 係数の値 . animacy NP が PERSON または ORGANIZATION である場合は Y. それ以外は N. Positional sentnum_anp NP と ANP の文間の距離 . beginning NP が文頭にある場合は Y. それ以外は N. (NP:Noun Phrase, ANP:Anaphoric Noun Phrase) ( 注 ) 固有表現の抽出には形態素解析ツール“ CaboCha” を用
  6. 6. 素性の抽出 照応タグ付きの 京都テキストコーパス ・名詞句と照応詞の対に関する素性 ・ラベル( positive/negative) (レコード数:約 60000 件) ※ 一部を抜粋
  7. 7. 分類木の生成・剪定 コーパスから抽出した データの半数を訓練デー タとして , 分類木を生成・ 剪定
  8. 8. 分類木による判別実験 テストデー タ 分類結果 精度 negative positive negative 26573 610 97.8% positive 488 401 45.1%negative: 高い分類精度が得られ た .positive: 十分な分類精度が得られなかっ た . positive の精度が十分でない原因 positive の学習データ数が negative に 比べて極端に少ないこと . テストデータ:コーパスから抽出したデータの半数
  9. 9. まとめ ・意味素性などを実装せずに実験を行ったことを 考慮 ⇒ 満足できる分類精度が得られたと考えられ る 本研究の目的及び実験結果 今後の課題 ・意味素性や選択制限の実装 ・新たなる素性の導 入 更なる精度の向上 ・現実的な分類精度は得られなかった . ・ Soon らのモデルと一部の素性を用いた照応解 析 .
  10. 10. l og_likelihood 係数 全文章における NP と ANP の頻度 NP,ANP が共起 =a, NP だけ =b, ANP だけ =c, 両方ともない =d (NP:Noun Phrase, ANP:Anaphoric Noun Phrase) a+b+c+d= 全文章数 ))(( log ))(( log ))(( log ))(( loglog2 dcdb dN d dbca cN c dbba bN b caba aN a ++ + ++ + ++ + ++ =− λ
  11. 11. 意味素性と選択制限 意味素性 選択制限 EDR 概念辞書を用いた素性 日本語語彙体系で定義される選択制限を用いた素 性 ( NP と ANP の対に関係) この2つの素性は分類木を作る上で重要になり そう
  12. 12. 形態素解析ツール“ CaboCha” 0 5D 0/1 4.52155167 太郎 タロウ 太郎 名詞 - 固有名詞 - 人名 - 名 B- PERSON は ハ は 助詞 - 係助詞 O * 1 2D 0/1 1.88996940 次郎 ジロウ 次郎 名詞 - 固有名詞 - 人名 - 名 B- PERSON が ガ が 助詞 - 格助詞 - 一般 O * 2 3D 0/2 1.05423213 持っ モッ 持つ 動詞 - 自立 五段・タ行 連用タ接続 O て テ て 助詞 - 接続助詞 O いる イル いる 動詞 - 非自立 一段 基本形 O * 3 5D 0/1 4.99698811 本 ホン 本 名詞 - 一般 O を ヲ を 助詞 - 格助詞 - 一般 O * 4 5D 1/2 0.00000000 花 ハナ 花 名詞 - 一般 O 子 コ 子 名詞 - 一般 O に ニ に 助詞 - 格助詞 - 一般 O * 5 -1O 0/1 0.00000000 渡し ワタシ 渡す 動詞 - 自立 五段・サ行 連用形 O た タ た 助動詞 特殊・タ 基本形 O <生文>太郎は次郎が持っている本を花子に渡した。 固有表現
  13. 13. 分類木の剪定(枝刈り) 剪定前 剪定後 1.cross validation (CV :交差妥当化 ) を利用して  最適な木の大きさを求める .( 今回は 48) 2. 求めた木の大きさを指定して剪定 ( 枝刈り ). <結果>無駄を省いたことで精度がわずかながら向上し
  14. 14. # 木の剪定を行う (CV を利用 ) > avg <- 0 #CV により木の大きさの尤離度を求める . > for(i in 1:10) avg <- avg + cv.tree(feature2.tree, FUN=prune.tree)$dev > avg <- avg / 10 > avg [1] 4748.920 4748.899 4748.632 4748.445 4748.445 4743.486 4739.324 4737.974 4737.331 4714.376 4709.070 4707.646 4707.594 4704.279 4699.246 [16] 4691.232 4688.087 4683.014 4681.078 4676.417 4664.720 4658.646 4636.679 4635.973 4621.928 4617.153 4612.610 4611.461 4600.262 4591.874 [31] 4586.615 4574.758 4573.631 4563.791 4561.607 4561.296 4553.548 4549.340 4548.291 4547.535 4543.489 4544.900 4544.881 4542.437 4527.048 [46] 4519.015 4516.082 4507.505 4507.680 4511.842 4513.970 4513.122 4513.351 4508.919 4511.320 4509.193 4509.392 4509.915 4515.774 4518.057 [61] 4516.638 4513.920 4509.550 4531.643 4553.819 4555.263 4556.999 4575.359 4606.090 4648.158 4877.350 5007.182 5015.449 5076.536 5231.795 [76] 5248.736 5349.774 5384.476 5556.298 5801.638 5860.898 6034.608 6959.078 8647.036 > min(avg) [1] 4507.505 #CV の結果 , 尤離度 (min.avg) が最小になるのは 48 番目 ( 値は 4507.505) # よって木の大きさは 48 が最適である . # 木の大きさを 48 に指定して , 枝刈りする . > feature2.tree.remake <- prune.tree(feature2.tree, best=48) 分類木の剪定(枝刈り)補足
  15. 15. Positive の精度が十分でない原因 negative のテス トデータが positive に分類さ れる件数 (精度) positive のテスト データが negative に分類 される件数(精 度) negative positive 610 ( 2.2% ) 488 ( 54.9% )
  16. 16. Positive の精度が十分でない原因 negative positive 610488 negative のテス トデータが positive に分類さ れる件数 (精度) positive のテスト データが negative に分類 される件数(精 度) ( 54.9% )( 2.2% )

×