• Like

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

統計的形態素解析入門 #TokyoNLP

  • 3,354 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
3,354
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
60
Comments
0
Likes
3

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 統計的形態素解析入門 #tokyonlp @nokuno
  • 2. 自己紹介 2  Twitter: @nokuno  はてなid: nokuno  この勉強会の主催者  自然言語処理 / 機械学習 / 並列分散処理に興味 2002~2006:サークルでゲーム開発 2007~2008:未踏でSocial IMEの開発 2009~現在:Web業界勤務
  • 3. 今日の話題 3  形態素解析  生成モデル  識別モデル  Trieによる辞書検索  Common Prefix Search  前方一致検索  あいまい検索  おまけ
  • 4. 4 統計的形態素解析入門
  • 5. 形態素解析とは 5 日本語処理の最も基本となる部分  以下の3つ(+1)の作業を同時に行う  わかち書き (Tokenization)  品詞付与 (Part-of-Speech Tagging)  活用形処理 (Stemming)  (読み付与)
  • 6. mecabの例 6 わかち書き 品詞タグ付け 活用形処理 読み付与
  • 7. 自然言語処理スタック 7 •格フレーム 意味解析 •述語項構造解析 •照応解析 •統語解析 構文解析 •係り受け解析 •文節チャンキング チャンキング •固有表現抽出 •複合語抽出 系列ラベリング •単語分割 形態素解析 •品詞タグ付け •活用形処理
  • 8. 生成モデルによる形態素解析 言語モデルの性能を最大化するように決定 y  arg max P( y | x) ˆ x :入力の文字列 y y :出力文字列  arg max P( y ) P( x | y ) c.f.ベイズの定理 y P(y):確率的言語モデル yの日本語らしさ P(x|y): 今回は無視 xを辞書引きして得たyについて常にP(x|y)=1とする
  • 9. 言語モデル:クラスbigram 9 クラス(品詞や活用形)の遷移確率と単語の生起確率の積 P( x)   P(ci | ci 1 ) P( wi | ci ) i 遷移確率 生起確率 0.5 0.05 0.8 0.5 名詞 助詞 形容詞 名詞 動詞 0.1 0.5 0.1 0.01 0.05 今日 は 良い 天気 です
  • 10. 経路探索:Viterbiアルゴリズム 10 Viterbiアルゴリズムによりラティス内を探索 入力文字列をTrieからCommon Prefix Searchしてラティスを構築
  • 11. 識別モデルによる形態素解析 11 ラベルの条件付き確率を直接モデル化 exp  , ( x, y )  P( y | x)   exp  , ( x, y)  yY 内積  , ( x, y)   f  f ( x, y) f F f :素性番号  :素性関数  :パラメータ
  • 12. 識別モデルのメリット 12 柔軟に素性を取り入れることができる [坪井ら ,06]
  • 13. 13 辞書検索
  • 14. Trie(トライ) 14 文字をノードとした木構造  文字列検索に特化したデータ構造  多分探索木の文字列版  1文字=1ノードとして辿っていく  様々な検索方法ができる(後述) 東 京 都 京 中 都 都 野
  • 15. TrieでCommon Prefix Search TrieならCommon Prefix Searchが高速 部分文字列の検索に応用可能 入力:「東京都に住む」 東 京 都  「東」「東京」「東京都」 京 中 都  「京」「京都」  「に」 都 野  「住」「住む」
  • 16. Trieで前方一致検索 Trieなら前方一致検索が可能  入力で始まるサブツリーを探索  入力:「東」  「東京」  「東京都」 東 京 都  「東中野」 京 中 都 サジェストなどに有用 都 野
  • 17. Trieであいまい検索 Trieならあいまい検索が可能  編集距離が一定以下のキ ーを探索  入力「東京お」  「東京都」 東 京 都  「東京」 京 中 都  スペル訂正に有用 都 野
  • 18. 18 おまけ
  • 19. Mozcの辞書を用いた形態素解析 19
  • 20. アーキテクチャ 20 ネットワークサーバ 形態素解析 サジェスト スペル訂正 Trieライブラリ 辞書・言語モデル(Mozc/Wikipedia)
  • 21. 参考文献 21  [山下, 98] 日本語形態素解析入門  [坪井ら, 06] 言語処理における識別モデルの発展– HMMからCRFまで  [工藤ら, 04] Conditional Random Fieldsを用いた日 本語形態素解析
  • 22. 22 ご清聴ありがとうございました