Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

鬱くしい日本語のための形態素解析入門

10,494 views

Published on

Published in: Automotive
  • Be the first to comment

鬱くしい日本語のための形態素解析入門

  1. 1. 鬱くしい日本語のための形態素解析入門 0
  2. 2. プロフィール 名前: とろとき 言語: P to / v/el yh nJ aP r a 自然言語処理とか機械学習とかを 勉強中の初心者。 ちょっと前はA dod n riとかやってた。 @trtk ooo i 中学生 0. 1
  3. 3. 形態素解析とはそもそも形態素って何? -意味を持つ最小の言語単位 -何が最小単位なのかは割と曖昧 -「今日は晴れ」 = 「今日」+「は」+「晴れ」つまり形態素解析は… 文を自動で形態素に分けちゃおう! という試み 自然言語処理の土台となる 実際には形態素に分割するだけでなく、他に三つの処理がある -形態素に分割 上の例みたいな -品詞の付与 名詞や動詞などを単語に付ける 「今日/ 名詞」+「は/ 助詞」+「晴れ/ 形容詞」 -原型の復元 「珍しき」 → 「珍しい」 01
  4. 4. 形態素解析とは形態素解析の代表的なツール -U N(2 ) J MA 9 年~ - h S n(6 ) C a e 9 年~ - C b (2 ) Me a 0 年~ - y e (9 ) N w K T a 0 年~ ← e !・ KTa y e はその前に比べ先進的なアプローチを取っている(今回は解説しない)・ ただし現在で最も多く使われるのは Me a CbMe a は精度9 %って言うし、形態素解析はもう解決した分野では? Cb 9 -9 9 %できるのは新聞記事などのかたい文章 -崩れた日本語(不自然言語)は実用にも満たないこともある -不自然言語の形態素解析は最近注目されているっぽい次の課題 02
  5. 5. 辞書を用意・ 辞書を用意・ 文章を考えられる全ての単語のパターンで辞書引き・ すべての可能な組み合わせから最適な単語列を発見する -今回の中で一番大変 03
  6. 6. 辞書を用意辞書選び ・ 何種類も無料で配布されている ・ コスト推定(後述)のため本格的にはコーパスも必要になるが、 単語の辞書だけでも簡単な形態素解析器は作れる 辞書の主要なものとして -P -i IAdc - AS - i N I jc Td - nDc U ii 単語数は N I - i< U ii<IAdc AS j c Td nDc P -i ・ 今回は実験としてIAdc P -iを使用 ・ ただしほとんどの辞書には互換性があり、取り替えられる 04
  7. 7. 辞書を用意辞書の中身 Me a のフォーマットの辞書だと Cb きらびやか, 8 , 8 , 4 , 形容動詞語幹,* ,きらびやか, 1 7 27 39 2 1 8 名詞, * ,* ,* , キラビヤカ, キラビヤカ 史的, 8 , 8 , 0 , 形容動詞語幹,* ,史的, 1 7 27 68 2 1 6 名詞, * ,* ,* , シテキ, シテキ プラトニック, 8 , 8 , 7 , 形容動詞語幹,* ,プラトニック, 1 7 27 07 2 1 5 名詞, * ,* ,* , プラトニック, プラトニック てらてら, 8 , 8 , 4 , 形容動詞語幹,* ,てらてら, 1 7 27 39 2 1 8 名詞, * ,* ,* , テラテラ, テラテラ 静謐, 8 , 8 , 4 , 形容動詞語幹, 1 7 27 85 2 1 4 名詞, *, * ,静謐, ,* * , セイヒツ, セイヒツ 単語, 左文脈I, D右文脈I, D単語コスト, 品詞細分類1 品詞, , 品詞細分類2 後で説明 品詞細分類3, 活用型, 活用形, 基本形, 発音 読み, こんな感じになっている。 05
  8. 8. 辞書引き 06
  9. 9. 辞書引き辞書検索のためのデータ構造、トライ木(Ti r) e文字列の最初から順番にたどっていくこれだと O ( (文長) が O 文長) 2 ) ( で辞書引きができるので総当たりより効率が良い・ C mmo Pe x e rh o n rfi S ac -ある文字が開始位置の単語を列挙 -これを全ての文字に適用して Ti r 木から辞書引きする e>>CS” > P(東海道新幹線”)>>東 : 名詞 > :>>東海 : 名詞 > :>>東海道 : 名詞 > : I g b ht:jw k e iogw k トライ木 ma e y t /a ip da r/ i/ p /. i . i>>東海道新幹線 : 名詞 > : 07「新幹線」というワードが入っていないのに注意
  10. 10. 最適な単語列を発見する辞書引きをして全てのパターンの単語を引くと・ このような図ができてくれる(ラティス構造と呼ばれる)・ ここから一通りの最適解を導き出す ※1図はかな漢字変換のラティス構造 ・ 後で気がついたよ! ※2 O ,O は文頭と文末の特殊記号 B SE S 08
  11. 11. 最適な単語列を発見する・ ヒュースティックス(規則)に基づく手法(8 年代) 0 ・ 形態素最小法 : 形態素の一番少ない解を優先 ・2文節最長一致法 : 文を左から見て2文節毎の長さが長い解を優先 などなど しかし全く統計的ではない! 09
  12. 12. 最適な単語列を発見するコスト最小法・ 今の形態素解析器はこの方法を基礎としている(Me a , h S n J MA . C b C a e ,U N. )・ それぞれの単語と単語の「繋がりやすさ」を数字で表し、和が最小の道をアンサー具体的には… 1 0
  13. 13. 最適な単語列を発見するコスト最小法・ 連接コスト : 二つの単語のつながりやすさ・ 生起コスト : 一つの単語の出現しやすさ全ての文字の連接コスト+生起コストが最小になる解をアンサーそのまま求めると計算しきれないので… 秘策 : i ri Vt b アルゴリズム e 1 1
  14. 14. 最適な単語列を発見する左・右文脈I D ・ 実は辞書の中の mar .e( tx f id 連接表)を見るためのI番号 D ある単語 A Bが連接をなすとき, , ・ 単語Aは左文脈Iを見る D ・ 単語Bは右文脈Iを見る Dmar .e : tx f id 左文脈I D 右文脈I 連接コスト D 0 15 34 -9 96 15 34 15 32 -7 8 25 15 32 0 -4 91 . . . .. . .. .例えば左文脈Iが1 5 で右文脈Iが1 5 だと、ここで連接コストが -7 8 D 34 D 42 25mar .e には ( tx f id 単語)、つまり1 0 0 0 0 0 2 0 0 0 0 0 以上のデータがある ※I「0 D 」はB SE S O /O 1 2
  15. 15. 最適な単語列を発見する100 億以上の連接コストをどうやって決定してるの? 人手(9 年代はじめ) 0 ・ 試行錯誤を繰り返してやっと一つ設定できる ・ 客観的評価が難しいらしい 統計処理(いま) ・ 大量の生テキストから推定 ・楽 ・ テキストの質に問題がある ・ 正解データを人手で作ってデータから推定 ・今の形態素解析器は多分これ ・ これによりMe a に単語を入れてもコストが推定される Cb 1 3
  16. 16. コスト推定一体どうやってコーパスから連接コストを推定するのか Hid nMak v d l MM) de ro Mo e( H ・ 日本語で言うと 隠れマルコフモデル ・ 前の品詞とその単語の品詞の情報から学習する C n io aR n o F ls R ) o dt n l a d m i d( F i e C ・ 難しすぎてよく分からない ・ 全ての候補を考慮して推定できるのでH MMより精度がいいらしい ・ Me a に採用 Cb詳細は 東藍, 浅原正幸,松本裕治.0 6条件付確率場による日本語未知語処理. 20. 情報処理学会自然言語処理研究会予稿集. ht:cnicpn i/1 0 4 2 2 5 t / i i . /a 1 0 0 8 4 3 p /. . j a d 1 4
  17. 17. まとめ簡単な形態素解析器を作るには 辞書引き ・ トライ構造 ・ C mmo Pe x e rhを使って o n rfi S ac 全通りの単語候補(= ラティス構造を作る) 最適な単語列を発見する ・ 連接コスト +生起コスト ・ Vtri i b アルゴルリズムで最適解を見つける e コスト推定(オプション) ・ 統計的に求める ・ 正解データを作ってそこから推定 1 5
  18. 18. 参考・引用文献P to による日本語自然言語処理 ( yh n 入門自然言語処理の1 章が公開されている) 2ht:nt.o geo e o snt n /o /o kj/h 2 t t / l g o l d . m/v / u kd cb o - c 1 . ml p/ k c c r p h日本語形態素解析入門 V ro 0 . es n .1 i 9ht:n it/ yod ctc / / 1 9 0 1 .d t / a . ~ t/o / hj j 9 9 5 4 f p / so e ma ma pMe a 汎用日本語形態素解析エンジン Cbht:w wj a r/l / C bp f t / w .p . gfie Me a .d p/ t o s 1 6

×