日本語形態素解析

日本語形態素解析入門 ver.0.3 updated 2009-01-27

はじめに ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

目次 ,[object Object],[object Object],[object Object],[object Object],[object Object]

形態素解析とは ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],入力：東京都候補：東京都(名詞), 東京(名詞)-都(名詞), 東(名詞)-京都(名詞) 出力：東京都(名詞)

形態素解析の必要性 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

形態素解析の仕組み ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

形態素辞書探索 ,[object Object],[object Object],[object Object],涼宮ハルヒ => {(涼,宮,ハ,ル,ヒ), (涼,宮,ハ,ルヒ), (涼,宮,ハル,ヒ),(涼,宮,ハルヒ), (涼,宮ハ,ル,ヒ),(涼,宮ハ,ルヒ), (涼,宮ハル,ヒ), (涼,宮ハルヒ) , (涼宮,ハ,ル,ヒ), (涼宮,ハ,ルヒ), (涼宮,ハル,ヒ), (涼宮,ハルヒ), (涼宮ハ,ル,ヒ), (涼宮ハ,ルヒ), (涼宮ハル,ヒ), (涼宮ハルヒ)} 合計2^4通り！

形態素辞書探索 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Trie を用いた CommonPrefixSearch

Double Array Trie ,[object Object],[object Object],[object Object],[object Object]

Trie 概要 ,[object Object],[object Object]

Trie のデータ構造 ,[object Object],[object Object],[object Object],[object Object]

Double Array概要 ,[object Object],[object Object],節 x から節 y に至る文字 c に対応する枝が存在するとき BASE[x]+CODE[c]=y x = CHECK[y] が成り立つ。また , x が葉  BASE[x] < 0

Double Array Trie による文字列探索 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

接続可能性の確認 ,[object Object],[object Object]

最適解探索 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

コスト最小法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

コストの定義 ,[object Object],[object Object],[object Object]

確立モデルを用いたコスト計算 ,[object Object],[object Object],wi:i 番目の単語 ti:i 番目の単語の品詞

[object Object],[object Object],[object Object],[object Object]

[object Object],確立が最大となる組を求めることはコストが最小となる組をみつけることに等しい！！ =>人手によるコストとコーパスでの確立をマージできる生起コスト連接コスト

Viterbi のアルゴリズム start end a b c e d g f 20 10 30 20 30 10 10 40 10 20 10 startからendまでの最もコストの低いパスを見つける startからendまでの最も確立の高いパスを見つける

Viterbi のアルゴリズム ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Viterbi のアルゴリズム ,[object Object],s1 s2 s3 0.2 a:0 b:1.0 0.3 a:0.8 b:0.2 0.5 a:1.0 b:0 0.4 a:0.3 b:0.7 0.6 a:0.5 b:0.5 状態 s1 から s2 に遷移する確率は 0.2 でこのとき、 a を出力する確率は 0, b は 1.

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Viterbi のアルゴリズム

Viterbi のアルゴリズム ,[object Object]

[object Object],s1 s2 s3 0.2 a:0 b:1.0 0.3 a:0.8 b:0.2 0.5 a:1.0 b:0 0.4 a:0.3 b:0.7 0.6 a:0.5 b:0.5

時刻t=0 1.0 0.0 0.0 s1 s2 s3

時刻t=1 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3

時刻t=2 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5

時刻t=3 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 0.003 0.033 0.036 b 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 一番尤もらしい終了状態がわかった！

バックトラック 1.0 0.0 0.0 s1 s2 s3 0.24 0.5 0.0 a 0.3*0.8 0.5*1.0 0.2*0.0 0.6*0.5 0.4*0.3 0.057 0.12 0.15 a 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 0.003 0.033 0.036 b 0.3*0.8 0.5*1.0 0.4*0.3 0.4*0.3 0.6*0.5 s1=>s1=>s2=>s3 が一番尤もらしい経路

Viterbi のアルゴリズムの形態素解析への利用 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

日本語形態素解析

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to 日本語形態素解析

Similar to 日本語形態素解析 (20)

日本語形態素解析