Eda学習戦略
- 6. Materials <コーパス>
• コーパスとしてはBCCWJ を用いる。
• BCCWJは均衡コーパスで
1. OB, (説明)
2. OW ,(…)
3. OC,
4. PB
5. PM
6. PN
の6分野から成る。[http://pj.ninjal.ac.jp/corpus_center/bccwj/]
[どこに記載があるのかわからない]
• 日本語学術研究で広く使用されていて、一般性を確保できる。
• ターゲットコーパスとして、[園芸]に属するある企業のコーパスを用いる。こ
のコーパスはすでに依存構造のアノテーションが行われている。
- 7. Materials <コーパス>
OC OW OY PB PM PN SKT
文数 2,114 2.056 2367 2,765 3,009 3095 2,021
単語数 42,924 86,687 40,802 64,829 50,215 69,940 44,743
文字数 60,817 124,817 59,821 89,706 75,641 102,441 64,234
BCCWJ(training)+SKT(target)
諸元[単語数を合わせる]
- 8. Method <モデル>
• [OC,OW,OY,PB,PM,PN]
2^6 -1の63通りでグループを構成
• Cut-off = [1,2,4,8,16,32]
6通りのcutoffを用意
- 12. Experiment<精度>
上位3つ
g62 96.94OC OW OY PB PM PN
g54 96.939OC OW PB PM PN
g30 96.931OW OY PB PM PN
下位3つ
g32 0.9560OC PN
g8 0.9555OW PN
g16 0.9530OW PN
参考:精度0.001 = 約4問に相当
g_x はx番目のグループに相当し、それは左のようなコーパスで構成されている。