Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

Sotsuken final

on

  • 929 views

 

Statistics

Views

Total Views
929
Views on SlideShare
928
Embed Views
1

Actions

Likes
0
Downloads
3
Comments
0

1 Embed 1

https://si0.twimg.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Sotsuken final Sotsuken final Presentation Transcript

  • コーパスを用いた 学習手法に基づく照応解析 発表者:浜田恭平 所属研究室:武藤研究室
  • 研究の目的 Web データを用いた自動辞書構築に関する研究 Soon らの提案したモデル (コーパスを用いた学習手法に基づいた照応解析) + 先行詞の同定 ⇒ 照応解析の必要性を指摘 飯田らの提案した素性 のうち主に文法的素性 Web 文書2 段落1 段落2 段落1 段落2 Web 文書1 説明文を・・・ この 規則は・・・ “ 説明文らしい段落” 抽出 抽出 指示対象不明 照応解析 ・・・ ・・・ ・・・
  • Soon らのモデル(1) 照応解析の問題 与えられた 照応詞に対して , 先行詞の候補となる名詞句の各々が先行詞となるかならないかを判別する 2 値分類問題に分解 . 訓練時 先行詞と照応詞の対を positive ペア , 先行詞と照応詞の間の各名詞句と照応詞の対を negative ペアとして学習 . NP1 NP2 NP3 NP4 ANP NP5 文章 Positive ペア Negative ペア Negative ペア 先行詞 照応詞
  • Soon らのモデル(2) 新しい照応問題を解く際 照応詞から先行文脈に向かって , 先行詞候補となる 名詞句の一つ一つについて , それが先行詞かどうか分類. いずれかの名詞句を先行詞として決定した時点で解析を終了 . NP1 NP2 NP3 NP4 ANP NP5 文章 Positive ペア Negative ペア Negative ペア 先行詞 照応詞
  • 実験に用いた素性 (NP:Noun Phrase, ANP:Anaphoric Noun Phrase) ( 注 ) 固有表現の抽出には形態素解析ツール“ CaboCha” を用いた . 素性の種類 素性名 詳細 Grammatical pos NP の品詞 . definite NP がソ系の代名詞である場合は Y. それ以外は N. demonstrative NP がコ系の代名詞もしくはア系の代名詞である場合は Y. それ以外は N. particle NP に続く助詞 . ないときは O. Semantic ne NP の固有表現の種類: PERSON,ORGANIZATION,LOCATION,ARTIFACT,DATE,TIME,MONEY,PERCENT ないときは O. log_like NP-ANP の対の log-likelihood 係数の値 . animacy NP が PERSON または ORGANIZATION である場合は Y. それ以外は N. Positional sentnum_anp NP と ANP の文間の距離 . beginning NP が文頭にある場合は Y. それ以外は N.
  • 素性の抽出 照応タグ付きの 京都テキストコーパス ・名詞句と照応詞の対に関する素性 ・ラベル( positive / negative ) (レコード数:約 60000 件) ※ 一部を抜粋
  • 分類木の生成・剪定 コーパスから抽出した データの半数を訓練データとして , 分類木を生成・剪定
  • 分類木による判別実験 negative: 高い分類精度が得られた . positive: 十分な分類精度が得られなかった . positive の精度が十分でない原因 positive の学習データ数が negative に 比べて極端に少ないこと . テストデータ:コーパスから抽出したデータの半数 テストデータ 分類結果 精度 negative positive negative 26573 610 97.8% positive 488 401 45.1%
  • まとめ ・意味素性などを実装せずに実験を行ったことを考慮 ⇒ 満足できる分類精度が得られたと考えられる 本研究の目的及び実験結果 今後の課題 ・意味素性や選択制限の実装 ・新たなる素性の導入 更なる精度の向上 ・現実的な分類精度は得られなかった . ・ Soon らのモデルと一部の素性を用いた照応解析 .
  • l og_likelihood 係数 全文章における NP と ANP の頻度 NP,ANP が共起 =a, NP だけ =b, ANP だけ =c, 両方ともない =d (NP:Noun Phrase, ANP:Anaphoric Noun Phrase) a+b+c+d= 全文章数
  • 意味素性と選択制限 意味素性 選択制限 EDR 概念辞書を用いた素性 日本語語彙体系で定義される選択制限を用いた素性 ( NP と ANP の対に関係) この2つの素性は分類木を作る上で重要になりそう
  • 形態素解析ツール“ CaboCha” 0 5D 0/1 4.52155167 太郎 タロウ 太郎 名詞 - 固有名詞 - 人名 - 名 B-PERSON は ハ は 助詞 - 係助詞 O * 1 2D 0/1 1.88996940 次郎 ジロウ 次郎 名詞 - 固有名詞 - 人名 - 名 B-PERSON が ガ が 助詞 - 格助詞 - 一般 O * 2 3D 0/2 1.05423213 持っ モッ 持つ 動詞 - 自立 五段・タ行 連用タ接続 O て テ て 助詞 - 接続助詞 O いる イル いる 動詞 - 非自立 一段 基本形 O * 3 5D 0/1 4.99698811 本 ホン 本 名詞 - 一般 O を ヲ を 助詞 - 格助詞 - 一般 O * 4 5D 1/2 0.00000000 花 ハナ 花 名詞 - 一般 O 子 コ 子 名詞 - 一般 O に ニ に 助詞 - 格助詞 - 一般 O * 5 -1O 0/1 0.00000000 渡し ワタシ 渡す 動詞 - 自立 五段・サ行 連用形 O た タ た 助動詞 特殊・タ 基本形 O 。 。 。 記号 - 句点 O <生文>太郎は次郎が持っている本を花子に渡した。 固有表現
  • 分類木の剪定(枝刈り) 剪定前 剪定後 1.cross validation (CV :交差妥当化 ) を利用して  最適な木の大きさを求める .( 今回は 48) 2. 求めた木の大きさを指定して剪定 ( 枝刈り ). <結果>無駄を省いたことで精度がわずかながら向上した .
  • # 木の剪定を行う (CV を利用 ) > avg <- 0 #CV により木の大きさの尤離度を求める . > for(i in 1:10) avg <- avg + cv.tree(feature2.tree, FUN=prune.tree)$dev > avg <- avg / 10 > avg [1] 4748.920 4748.899 4748.632 4748.445 4748.445 4743.486 4739.324 4737.974 4737.331 4714.376 4709.070 4707.646 4707.594 4704.279 4699.246 [16] 4691.232 4688.087 4683.014 4681.078 4676.417 4664.720 4658.646 4636.679 4635.973 4621.928 4617.153 4612.610 4611.461 4600.262 4591.874 [31] 4586.615 4574.758 4573.631 4563.791 4561.607 4561.296 4553.548 4549.340 4548.291 4547.535 4543.489 4544.900 4544.881 4542.437 4527.048 [46] 4519.015 4516.082 4507.505 4507.680 4511.842 4513.970 4513.122 4513.351 4508.919 4511.320 4509.193 4509.392 4509.915 4515.774 4518.057 [61] 4516.638 4513.920 4509.550 4531.643 4553.819 4555.263 4556.999 4575.359 4606.090 4648.158 4877.350 5007.182 5015.449 5076.536 5231.795 [76] 5248.736 5349.774 5384.476 5556.298 5801.638 5860.898 6034.608 6959.078 8647.036 > min(avg) [1] 4507.505 #CV の結果 , 尤離度 (min.avg) が最小になるのは 48 番目 ( 値は 4507.505) # よって木の大きさは 48 が最適である . # 木の大きさを 48 に指定して , 枝刈りする . > feature2.tree.remake <- prune.tree(feature2.tree, best=48) 分類木の剪定(枝刈り)補足
  • Positive の精度が十分でない原因 negative のテストデータが positive に分類される件数 (精度) positive のテストデータが negative に分類される件数(精度) negative positive 610 ( 2.2% ) 488 ( 54.9% )
  • Positive の精度が十分でない原因 negative positive 610 488 negative のテストデータが positive に分類される件数 (精度) positive のテストデータが negative に分類される件数(精度) ( 54.9% ) ( 2.2% )