Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

表層語形から品詞はどれぐらい正確に予測可能か?

908 views

Published on

NLP20, 2014/03/20 北海道大学での口頭発表で使ったスライド

Published in: Education
  • Be the first to comment

  • Be the first to like this

表層語形から品詞はどれぐらい正確に予測可能か?

  1. 1. 言語の表層語形から品詞は と の程度正確に予測て きるか?? 語彙獲得難度の絶対指標の提唱 黒 田  航 杏 林 大 学 医 学 部 言語処理学会第2200回年次大会 [[22001144//0033//2200,, 北海道大学]] Sunday, March 23, 14
  2. 2. 事の始まり11//55 22001122年度の終わりに新しい言語 ((チェ コ語)) を学ぶ事に決めた 22001111年度から英語の専任講師に 目的 英語が使えなかった頃を思い出すため 自分が学生に勧めている学習法の有効性を 実証するため 2 Sunday, March 23, 14
  3. 3. 事の始まり22//55 結果 半年ぐらいで辞書があれば読めるように ただ,産出は今だに難しい チェコ語は(世界でもっとも習得の難しい言語 の一つに入�り)簡単に習得できる言語ではない 英語の修得と比較して痛感した事 チェコ語は表記と発音の対応が良い チェコ語は品詞と語形の対応が良い 3 Sunday, March 23, 14
  4. 4. 事の始まり33//55 学び初めで特に苦労した事 単語が覚えられない!! 理由は三つ 発音が覚えられない! 意味の類推が効かない! 品詞の類推できない! 4 Sunday, March 23, 14
  5. 5. 例 čtyřicet [[1144]] 発音が難しい,他言語発音知識が邪魔する osvobozovat [[開放する]] の発音と分解 o + svoboz + ovat (svoboz <= svoboda (自由)) setkat s(e) X [[誰かXXと会う]] の分解が *set + kat でなく se + tkat [se <= s (と一緒に), tkat ((縫い)合わせる)] 5 Sunday, March 23, 14
  6. 6. 事の始まり44//55 語彙獲得の際の派生形態論の役割 wwの語構成==派生形態論がわからないと覚え にくい 症状 チェコ語はスラヴ系の言語で,語源や形態 論がラテン系やゲルマン系と違うため, 知っている言語 ((ee..gg..,, 英語,フランス語, ドイツ語)) の知識の転用ができない 6 Sunday, March 23, 14
  7. 7. 事の始まり55//55 思いつき もしかして「語彙獲得の壁」のようなもの があるのでは?! この壁の正体がわかれば,英語教育の現状 打破に繋がるのでは?! 現状では 英語の苦手な学生が実に多いのに,彼らを 効果的に指導する方法が知られていない 7 Sunday, March 23, 14
  8. 8. 発表の流れ 問題設定 次の想定を確かめるための理論化と調査 英語の語彙獲得は他の言語と比較して困難なの ではないのか? 理論化と調査方法 調査結果 結果のまとめと展開 8 Sunday, March 23, 14
  9. 9. 語彙獲得の壁の正体 を探る Sunday, March 23, 14
  10. 10. 問題設定 言語の語彙獲得の効率を決める三要素 11.. 個々の語の発音の覚えやすさ 22.. 個々の語の意味の覚えやすさ 33.. 個々の語の品詞 ((PPOOSS:: PPaarrtt ooff SSppeeeecchh == wwoorrdd ccllaassss)) の覚えやすさ しかし実は 33は言語習得論で滅多に議論されないし 実証的に調査された事がない 10 Sunday, March 23, 14
  11. 11. 扱う仮説 補助仮説 AA 語wwの覚えやすさは,wwのii)) 発音 iiii)) 意味 iiiiii)) 品詞の覚えやすさと相関する 補助仮説 BB 言語LLの派生形態論の規則性は,LLの語彙獲 得効率の絶対指標になる 注意 言語距離のような相対指標では不十分 11 Sunday, March 23, 14
  12. 12. 検証する仮説 仮説 CC [[== 論文の ((44))と等価]] 品詞の覚えやすさは,語形成==派生形態論 の規則性と相関する 仮説 DD [[== 論文の ((55))の]] 語形wwの部分nn--ggrraamm からwwの品詞が予測で きる精度が高い ==>> wwの品詞が覚えやすい 仮説DDは仮説CCを検証可能な形 12 Sunday, March 23, 14
  13. 13. 仮説 DDの実証 調査の目的 英語の派生形態論MMEEnnとチェコ語の形態論 MMCCzzの体系性を比較し, MMEEnnがMMCCzzより低い事を示す 調査の方法 個々の言語の派生形態論の体系性をFFoorrmmaall CCoonncceepptt AAnnaallyyssiiss ((FFCCAA))を使って可視化 し,結果を比較する 13 Sunday, March 23, 14
  14. 14. 何をどう評価すれば良 いのか? 課題 問題なのは,単なる分布ではなく体系性 だが,体系性をどうやって評価する? 対策 FFoorrmmaall CCoonncceepptt AAnnaallyyssiiss ((FFCCAA)) の利用 GGaanntteerr++ 0055,, 鈴木・室伏 0077 CCoonncceeppttEExxpplloorreerr という無償ツールを利用 14 Sunday, March 23, 14
  15. 15. FFCCAAって何ですか? 11//33 形式概念を<<対象集合,, 属 性集合>>の対と定義し,概 念間の関係を束構造 ((llaattttiiccee)) で記述 初出は GGaanntteerr && WWiillllee 9988 表11..11と図11..33は鈴木・室 伏 0077から借用 ccoonntteexxttの行は対象に,列 は属性==素性に対応 ((xx==ttrruuee)) Ganter, B. and R.Wille (1998). Formal Concept Analysis: Mathematical Foundations. Berlin: Springer-Verlag. Sunday, March 23, 14
  16. 16. FFCCAAって何ですか?22//33 NII-Electronic Library Service 16 ety for Fuzzy Theory and intelligent informatics 表1.4と図1.6 は鈴木・室伏 07 から借用 Sunday, March 23, 14
  17. 17. FFCCAAって何ですか? 33//33 17 利点 体系性を分類束で表現 非排他分類 == ssoofftt cclluusstteerriinngg が可能 分類木を無理やり作らない 不利点 扱えるのは離散的データのみ Sunday, March 23, 14
  18. 18. FFCCAAを使った仮説DDの 評価 語形wwを対象にして,次のAA,, BBを属性== 素性として与えHHaassssee図を構築 AA.. ww の語末nn--ggrraamm ((nn == 22,, 33,, 44,, 55)) BB.. wwの品詞 ((iiss NNoouunn,, iiss VVeerrbb,, iiss AAddjjeeccttiivvee,, iiss AAddvveerrbb,, ...... を非排他指定)) AAは自動付与,BBは ((とりあえず)) 人手付与 想定 派生形態論が体系的であるほど,HHaassssee図 の重なりが少ない==部分束が良く分離 18 Sunday, March 23, 14
  19. 19. 調査の具体化 手順 Karel Čapekの RR..UU..RR.. ((== RRoossssuumm’ss UUnniivveerrssaall RRoobboottss)) の原典版と翻訳版に現われた表層 語形の集合 ((の一部)) WWCCzz,, WWEEnn を選び, WWCCzz,, WWEEnnの要素に品詞と語形の属性を付与 し,そのデータをFFCCAAで分析し,比較する 利点 RR..UU..RR.. は翻訳言語も多く,著作権が切れて いるので使いやすい 無償利用可能な日本語訳は不完全だと後に判明 19 Sunday, March 23, 14
  20. 20. 調査の枠組み ((現状)) 20 FCAPreprocess ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ R.U.R. in Czech (Original) R.U.R. in English R.U.R. in French R.U.R. in Japanese Context of Czech word forms Context of English word forms Context of Frech word forms Tokeninzed version Context of Japanese tokens Concept Lattice of Czech word forms Concept Lattice of English word forms Concept Lattice of Frech word forms Concept Lattice of Japanese tokens Sunday, March 23, 14
  21. 21. 調査の枠組み ((展望)) 21 FCAPreprocess ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ R.U.R. in Czech (Original) R.U.R. in English R.U.R. in French R.U.R. in Japanese Context of Czech word forms Context of English word forms Context of Frech word forms Tokeninzed version Context of Japanese tokens Concept Lattice of Czech word forms Concept Lattice of English word forms Concept Lattice of Frech word forms Concept Lattice of Japanese tokens Sunday, March 23, 14
  22. 22. チェコ語データの文脈表 22 Sunday, March 23, 14
  23. 23. 英語データの文脈表 23 Sunday, March 23, 14
  24. 24. 頻度の高い語末nn--ggrraammss 24 Rank 1 173 te 41 nou 16 osti 223 ng 216 ing 40 tion 21 ation 2 120 li 37 íte 16 ejte 172 ed 47 ers 35 ting 10 ction 3 117 ou 37 ých 14 nout 152 es 47 ion 21 ment 9 nding 4 112 ní 35 ali 13 ější 127 er 45 ent 19 ning 8 ments 5 102 la 34 ého 13 ovat 84 ly 31 ess 19 hing 7 tions 6 86 ch 32 ají 13 ného 68 rs 27 est 17 ding 7 thing 7 82 em 28 ení 10 vých 64 st 26 red 17 ally 7 lling 8 74 ho 27 ili 10 vali 63 nt 25 ate 16 ying 7 ating 9 73 ně 25 ila 10 oval 61 on 25 lly 16 king 6 shing 10 72 at 25 vat 10 ných 61 ts 25 ted 15 ling 6 ities 11 70 it 24 eme 9 ství 56 le 24 ies 15 less 6 ility 12 68 me 23 uje 9 dají 54 al 23 ble 15 ight 6 ement 13 66 ím 22 ala 8 něte 54 re 22 nce 14 ring 6 aking 14 62 né 22 jte 8 luje 53 se 21 ght 13 able 5 tting 15 60 jí 20 ete 8 kých 51 ns 21 ine 12 ther 5 sting 16 59 lo 19 íme 7 ální 51 s 21 ter 12 sing 5 rying 17 58 ne 18 sti 7 ního 50 ce 19 ain 11 ters 5 right 18 56 ky 16 hle 7 jeme 48 en 19 ity 11 ions 5 owing 19 53 na 16 hne 7 jdou 47 ve 19 ive 11 ered 5 ology 20 51 ku 16 jší 7 deme 45 te 18 der 11 ents 5 nting 21 49 ná 16 kou 7 dali 41 ne 18 one 10 ings 5 nging 22 48 le 16 out 6 áhne 40 ry 17 age 9 ture 5 ising 23 48 al 16 ího 6 títe 39 ss 17 ish 9 ness 5 inate 24 47 mi 15 –li 6 tane 37 ll 17 ver 9 ical 5 fully 25 43 ti 15 ním 6 ních 37 nd 16 her 9 ever 5 ening 26 42 ny 15 áte 6 nost 35 in 16 nts 9 ence 5 ching 27 42 ce 15 ěte 6 kého 35 ty 16 n’t 9 ated 5 cally 28 41 je 14 ují 6 kami 31 ge 16 ons 8 ving 5 aying 29 40 ší 14 ích 6 jící 28 ar 15 ous 8 ssed Eng 5gramsCzech 4 gramsCzech 2grams Czech 3grams Eng 2grams Eng 3grams Eng 4 grams 9 73 ně 25 ila 10 oval 61 on 25 lly 16 king 6 shing 10 72 at 25 vat 10 ných 61 ts 25 ted 15 ling 6 ities 11 70 it 24 eme 9 ství 56 le 24 ies 15 less 6 ility 12 68 me 23 uje 9 dají 54 al 23 ble 15 ight 6 ement 13 66 ím 22 ala 8 něte 54 re 22 nce 14 ring 6 aking 14 62 né 22 jte 8 luje 53 se 21 ght 13 able 5 tting 15 60 jí 20 ete 8 kých 51 ns 21 ine 12 ther 5 sting 16 59 lo 19 íme 7 ální 51 s 21 ter 12 sing 5 rying 17 58 ne 18 sti 7 ního 50 ce 19 ain 11 ters 5 right 18 56 ky 16 hle 7 jeme 48 en 19 ity 11 ions 5 owing 19 53 na 16 hne 7 jdou 47 ve 19 ive 11 ered 5 ology 20 51 ku 16 jší 7 deme 45 te 18 der 11 ents 5 nting 21 49 ná 16 kou 7 dali 41 ne 18 one 10 ings 5 nging 22 48 le 16 out 6 áhne 40 ry 17 age 9 ture 5 ising 23 48 al 16 ího 6 títe 39 ss 17 ish 9 ness 5 inate 24 47 mi 15 –li 6 tane 37 ll 17 ver 9 ical 5 fully 25 43 ti 15 ním 6 ních 37 nd 16 her 9 ever 5 ening 26 42 ny 15 áte 6 nost 35 in 16 nts 9 ence 5 ching 27 42 ce 15 ěte 6 kého 35 ty 16 n’t 9 ated 5 cally 28 41 je 14 ují 6 kami 31 ge 16 ons 8 ving 5 aying 29 40 ší 14 ích 6 jící 28 ar 15 ous 8 ssed 30 40 ek 13 ste 6 hází 27 ch 15 sed 8 ping 31 39 tí 13 tví 6 ečně 26 ds 15 ves 8 lity 32 39 ci 13 ěla 26 ls 14 ned 8 ging 33 38 ný 12 alo 25 me 14 ure 8 ance 34 35 vá 12 ami 25 or 12 ded 35 35 st 12 dou 25 sh 12 ear 36 35 ka 12 kem 25 th 12 hes 37 33 nu 12 ost 24 an 12 ial 38 33 il 12 val 24 us 12 ide 39 32 ví 12 ání 12 ire 40 32 no 12 ngs 41 31 ni 12 ose 42 31 mu Type freq 374 1798 3252 201 293 1839 2549 Sunday, March 23, 14
  25. 25. 語末nn--ggrraammの異なり数の分布 25 Sunday, March 23, 14
  26. 26. 比較で注意すべき事 nnを固定した時,英語の((部分)) nn--ggrraammと チェコの((部分)) nn--ggrraamm の担っている情 報量が異なる 理由 英語の表記とチェコ語の表記で,字母集合 の大きさが異なるので,明らかに一文字当 たりの情報量が異なる 26 Sunday, March 23, 14
  27. 27. チェコ語の解析結果 Sunday, March 23, 14
  28. 28. チェコ語の語末22--ggrraamm AAddjj,, AAddvv Adjectives Adverbs 28 Sunday, March 23, 14
  29. 29. チェコ語の語末22--ggrraamm NNoouunn,, VVeerrbb Nouns Verbs 29 Sunday, March 23, 14
  30. 30. チェコ語の語末33--ggrraamm AAddjj,, AAddvv Adverbs Adjectives 30 Sunday, March 23, 14
  31. 31. チェコ語の語末33--ggrraamm NNoouunn,, VVeerrbb Verbs Nouns 31 Sunday, March 23, 14
  32. 32. チェコ語の語末44--ggrraamm AAddjj,, AAddvv Adverbs Adjectives 32 Sunday, March 23, 14
  33. 33. チェコ語の語末44--ggrraamm NNoouunn,, VVeerrbb Verbs Nouns 33 Sunday, March 23, 14
  34. 34. チェコ語の語末55--ggrraamm ?? 34 Sunday, March 23, 14
  35. 35. 特徴 語末33--ggrraammで高精度の品詞予測が可能 語末22--ggrraammでもの品詞予測は不可能とは 言えないレベル 注意 一文字当たりの情報量が多い 語末の異なりが多い 動詞が名詞からハッキリ区別できる 35 Sunday, March 23, 14
  36. 36. 英語の解析結果 Sunday, March 23, 14
  37. 37. 英語の語末22--ggrraamm AAddjj,, AAddvv,, NNoouunn,, VVeerrbb 未調査 語末3-gramの結果を見て,やるまで もないと判断 37 Sunday, March 23, 14
  38. 38. 英語の語末33--ggrraamm AAddjj,, AAddvv,, NNoouunn,, VVeerrbb 38 Sunday, March 23, 14
  39. 39. 英語の語末33--ggrraamm VVeerrbbのみ 39 Sunday, March 23, 14
  40. 40. 英語の語末44--ggrraamm AAddjj,, AAddvv,, NNoouunn,, VVeerrbb 40 Sunday, March 23, 14
  41. 41. 英語の語末55--ggrraamm AAddjjとAAddvv Adjectives Adverbs 41 Sunday, March 23, 14
  42. 42. 英語の語末55--ggrraamm NNoouunnとVVeerrbb Nouns Verbs 42 Sunday, March 23, 14
  43. 43. 特徴 語末44--ggrraammでも高精度の品詞予測は不 可能 語末55--ggrraammですら品詞予測は十分とは言 えないレベル 注意 一文字当たりの情報量が少ない 動詞と他品詞との混同率が ((異常に)) 高い 55--ggrraammぐらいでようやく分離 43 Sunday, March 23, 14
  44. 44. 調査結果のまとめ Sunday, March 23, 14
  45. 45. 結果11 語末nn--ggrraammによる品詞の予測力は,nnが 大きいほど高くなるが チェコ語で nn==33ぐらい,英語で nn==44ぐ らいで頭打ちになる pprreecciissiioonn と rreeccaallll が打ち消し合う効果 チェコ語の語末33ggrraammと英語の語末 44ggrraammが等価 45 Sunday, March 23, 14
  46. 46. 結果22 英語は ((wwoorrdd 11--ggrraamm圏内の)) 品詞の混 同率は高い チェコ語の比較だけからは言えないが,出 発点になった直観が裏づけられた結果 nn--ggrraamm ((nn>>11)) 域の解析の場合は別問題 結果 英語の語彙獲得効率は(少なくともチェコ 語より)低いと予想できる 46 Sunday, March 23, 14
  47. 47. 結果のまとめと今後 の展開 Sunday, March 23, 14
  48. 48. まとめ 予想は肯定的に確かめられた 英語が,絶対基準で語彙獲得の難しい言語 である可能性を支持するデータが得れれた ただし rreecceeppttiioonn側の評価とpprroodduuccttiioonn側の評価は 相反するので,語彙習得の容易さのみを もって言語獲得を評価するのは妥当でない 48 Sunday, March 23, 14
  49. 49. 今後の展開11//22 比較の他言語化 RR..UU..RR..は様々な言語 ((日本語,ドイツ語,フ ランス語,eettcc)) に翻訳されているので,そ れらの言語で同じ調査を実施し,結果を比 較 課題 語の端 ((ee..gg..,, 接頭辞や接尾辞))で品詞が標識 づけられない言語は工夫が必要 49 Sunday, March 23, 14
  50. 50. 今後の展開22//22 それで,日本語はどうなの? 日本語を扱う場合,他の言語の単語分割と 釣り合う単語分割が自明でないでの,直接 比較は難しい 50 Sunday, March 23, 14
  51. 51. 不問にした事 品詞って何? 51 Sunday, March 23, 14
  52. 52. 質問や意見を どうぞ Sunday, March 23, 14
  53. 53. 質疑応答 11//33 QQuueessttiioonn bbyy 吉川正人 英語でも,窓を広げれば高精度の品詞推定 が不可能ではないと思うのだが? AAnnsswweerr 指摘の通り,英語でも単語 nn--ggrraamm ((nn>>22)) を対象にすれば,それなりの精度で品詞推 定が可能.ただ,ここでは意図して単語11-- ggrraammでの推定を問題にしている.その条 件で十分に精度が出る言語があり,その言 語と英語が違うという点を強調するため 53 Sunday, March 23, 14
  54. 54. 質疑応答 22//33 QQ aanndd CC bbyy 影浦峡 英語の場合,文字表記と発音の乖離が大きい事が効率的 な語彙学習の妨げになっているのでは? 文字列を発音 記号 ((IIPPAA記号)) に変換した場合の品詞予測はもっと精度 があがるのでは? AA 実際の発音と表記が暗示する発音との乖離は英語で非常 に大きく,これが語彙獲得の障害になっているのは確 実.ただ,これはすでに指摘されている事なので,本研 究では強調しない. 文字表記を発音記号表記に変換し,強勢の位置情報を追 加すれば,単語11--ggrraamm条件での品詞予測精度は上がると 思う.ただ,英語は異なる系統の言語の語形成パターン が混在し,混同率が高い事が困難の根本にあるので,劇 的には上がらないと思う. 54 Sunday, March 23, 14
  55. 55. 質疑応答 33//33 QQ bbyy 橋本喜代太 タイ語や中国語のような,単音節で音調支 配の言語では,品詞推定はどうなるのか? 少なくとも文字の部分nn--ggrraammのような情報 は有効に機能しないと思われるが? AA 単音節語が支配的な言語で,品詞がどう定 義できるか//どう定義すべきかは,実は厄介 な問題.そのため,単純な答えはない 私見では,品詞ではなく品詞複合のような ものが機能しているように思う 55 Sunday, March 23, 14
  56. 56. 付録 英語の語末44--ggrraammと55--ggrraamm の拡大図 Sunday, March 23, 14
  57. 57. 英語の語末44--ggrraamm部分束 ((AAddjj)) 57 Sunday, March 23, 14
  58. 58. 英語の語末55--ggrraamm部分束 ((AAddjj)) 58 Sunday, March 23, 14
  59. 59. 英語の語末44--ggrraamm部分束 ((AAddvv)) 59 Sunday, March 23, 14
  60. 60. 英語の語末55--ggrraamm部分束 ((AAddvv)) 60 Sunday, March 23, 14
  61. 61. 英語の語末44--ggrraamm部分束 ((NNoouunn)) 61 Sunday, March 23, 14
  62. 62. 英語の語末55--ggrraamm部分束 ((NNoouunn)) 62 Sunday, March 23, 14
  63. 63. 英語の語末44--ggrraamm部分束 ((VVeerrbb)) 63 Sunday, March 23, 14
  64. 64. 英語の語末55--ggrraamm部分束 ((VVeerrbb)) 64 Sunday, March 23, 14

×