More Related Content
Similar to Sotsuken final
Similar to Sotsuken final (7)
More from Kyohei Hamada (6)
Sotsuken final
- 3. Soon らのモデル(1)
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞 照応詞
照応解析の問題
与えられた照応詞に対して , 先行詞の候補となる名詞
句の各々が先行詞となるかならないかを判別する 2
値分類問題に分解 .
訓練時
先行詞と照応詞の対を positive ペア , 先行詞と照応詞
の間の各名詞句と照応詞の対を negative ペアとして
学習 .
- 4. Soon らのモデル(2)
NP1 NP2 NP3 NP4 ANPNP5
文章
Positive ペア
Negative ペア
Negative ペア
先行詞 照応詞
新しい照応問題を解
く際照応詞から先行文脈に向かって , 先行詞候補となる
名詞句の一つ一つについて , それが先行詞かどうか
分類.
いずれかの名詞句を先行詞として決定した時点で解
析を終了 .
- 5. 実験に用いた素性
素性の種類 素性名 詳細
Grammatical pos NP の品詞 .
definite NP がソ系の代名詞である場合は Y. それ以外は N.
demonstrative NP がコ系の代名詞もしくはア系の代名詞である
場合は Y. それ以外は N.
particle NP に続く助詞 . ないときは O.
Semantic ne NP の固有表現の種類:
PERSON,ORGANIZATION,LOCATION,ARTIFACT,DATE,TI
ME,MONEY,PERCENT ないときは O.
log_like NP-ANP の対の log-likelihood 係数の値 .
animacy NP が PERSON または ORGANIZATION である場合は
Y. それ以外は N.
Positional sentnum_anp NP と ANP の文間の距離 .
beginning NP が文頭にある場合は Y. それ以外は N.
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
( 注 ) 固有表現の抽出には形態素解析ツール“ CaboCha” を用
- 10. l og_likelihood 係数
全文章における NP と ANP の頻度
NP,ANP が共起 =a, NP だけ =b, ANP だけ =c, 両方ともない =d
(NP:Noun Phrase, ANP:Anaphoric Noun Phrase)
a+b+c+d= 全文章数
))((
log
))((
log
))((
log
))((
loglog2
dcdb
dN
d
dbca
cN
c
dbba
bN
b
caba
aN
a
++
+
++
+
++
+
++
=− λ
- 12. 形態素解析ツール“ CaboCha”
0 5D 0/1 4.52155167
太郎 タロウ 太郎 名詞 - 固有名詞 - 人名 - 名 B-
PERSON
は ハ は 助詞 - 係助詞 O *
1 2D 0/1 1.88996940
次郎 ジロウ 次郎 名詞 - 固有名詞 - 人名 - 名 B-
PERSON
が ガ が 助詞 - 格助詞 - 一般 O *
2 3D 0/2 1.05423213
持っ モッ 持つ 動詞 - 自立 五段・タ行 連用タ接続 O
て テ て 助詞 - 接続助詞 O
いる イル いる 動詞 - 非自立 一段 基本形 O *
3 5D 0/1 4.99698811
本 ホン 本 名詞 - 一般 O
を ヲ を 助詞 - 格助詞 - 一般 O *
4 5D 1/2 0.00000000
花 ハナ 花 名詞 - 一般 O
子 コ 子 名詞 - 一般 O
に ニ に 助詞 - 格助詞 - 一般 O *
5 -1O 0/1 0.00000000
渡し ワタシ 渡す 動詞 - 自立 五段・サ行 連用形 O
た タ た 助動詞 特殊・タ 基本形 O
<生文>太郎は次郎が持っている本を花子に渡した。
固有表現
- 14. # 木の剪定を行う (CV を利用 )
> avg <- 0
#CV により木の大きさの尤離度を求める .
> for(i in 1:10) avg <- avg + cv.tree(feature2.tree, FUN=prune.tree)$dev
> avg <- avg / 10
> avg
[1] 4748.920 4748.899 4748.632 4748.445 4748.445 4743.486 4739.324 4737.974 4737.331
4714.376 4709.070 4707.646 4707.594 4704.279 4699.246
[16] 4691.232 4688.087 4683.014 4681.078 4676.417 4664.720 4658.646 4636.679 4635.973
4621.928 4617.153 4612.610 4611.461 4600.262 4591.874
[31] 4586.615 4574.758 4573.631 4563.791 4561.607 4561.296 4553.548 4549.340 4548.291
4547.535 4543.489 4544.900 4544.881 4542.437 4527.048
[46] 4519.015 4516.082 4507.505 4507.680 4511.842 4513.970 4513.122 4513.351 4508.919
4511.320 4509.193 4509.392 4509.915 4515.774 4518.057
[61] 4516.638 4513.920 4509.550 4531.643 4553.819 4555.263 4556.999 4575.359 4606.090
4648.158 4877.350 5007.182 5015.449 5076.536 5231.795
[76] 5248.736 5349.774 5384.476 5556.298 5801.638 5860.898 6034.608 6959.078 8647.036
> min(avg)
[1] 4507.505
#CV の結果 , 尤離度 (min.avg) が最小になるのは 48 番目 ( 値は 4507.505)
# よって木の大きさは 48 が最適である .
# 木の大きさを 48 に指定して , 枝刈りする .
> feature2.tree.remake <- prune.tree(feature2.tree, best=48)
分類木の剪定(枝刈り)補足