Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
言語とコンピュータ第8回1年 domitry
進行1. 前回までの復習2.コストを用いる手法3. 統計的な手法4.学習による手法5.デモ6.まとめ
前回までの復習①•文をばらばらにするのが形態素解析•形態素解析は大事だけど難しい•ヒューリスティクスを用いた手法が昔からある今日/は/自然言語処理/の/基礎セミ/が/あり/ます/。
前回までの復習②•ヒューリスティクスとは経験則のこと•ヒューリスティクスを用いた手法にはいくつかある→最長一致法、分割数最小法•どれも一長一短
ヒューリスティクスを超えて
ヒューリスティクスを超えて①•実はこれらの手法は実際の自然言語処理に用いられることが少ない•ヒューリスティクスの何がダメなのか?
ヒューリスティクスを超えて②•経験則には根拠がない•根拠がないと改善がしにくいある特定の木があると石油が出やすい?
ヒューリスティクスを超えて③• (例)分割数最少法• →「共通部分の右側に文字数が多い方が正解」というルールを追加そこ/で/はなし/は/終わり/に/なった。そこ/では/なし/は/終わり/に/なった。分割数は一緒ルールは際限なく増えていく
接続コスト最小法①•現在よく使われている形態素解析のツールの多くが用いているのがこの手法 (ChaSen、MeCab等)•単語間、品詞間の接続コストを事前に決めておき、文全体のコストが最少になるように分割する
接続コスト最小法②•例そこ/で/はなし/は/終わり/になった。そこ/で/はなし/は/終わり/に/なった。(文頭)+名詞+助詞+名詞+助詞+名詞+動詞+(文末)(文頭)+名詞+助詞+名詞+助詞+名詞+助詞+動詞+(文末)日本語には名詞+動詞という...
接続コスト最小法③•品詞ごとに接続コストを決める•例文末 名詞 動詞 助詞 接続詞文頭 0 10 10 0 10名詞 10 10 40 10 0動詞 10 10 10 0 10助詞 10 10 10 10 10接続詞 0 10 10 0 10名...
接続コスト最小法④•例そこ/で/はなし/は/終わり/になった。そこ/で/はなし/は/終わり/に/なった。(文頭)+名詞+助詞+名詞+助詞+名詞+動詞+(文末)(文頭)+名詞+助詞+名詞+助詞+名詞+助詞+動詞+(文末)コスト:前者が100,後者...
接続コスト最小法の問題点•コストは人手で事前に決める→計算式も確立されていない•統計的な手法へ!
統計的な手法
統計的な手法•最近盛んに使われている手法•膨大なデータを解析・蓄積する•種類が色々ある1. N-gram法2. 接続コストを統計的に決める手法
N-gram法①•統計的な手法の中でおそらく一番簡単•形態素解析というよりはただの統計処理に近い•色々な種類がある(bigram, trigram, 単語bigram…etc.)
N-gram法②•「ある単語が存在する確率は直前のn個の単語だけに依存する」という仮説に基づく手法•例)「私は大阪大学の学生です。」のbigram[私は,は大,大阪,阪大,大学,学の,の学,学生,生で,です,す。]
N-gram法②•私は大阪大学の学生です。大阪大学の学生数は日本の国立大学一である。私の得意教科は英語です。
N-gram法②•N-gramは汎用的な手法のため色々な応用がされている•例) キュー子ちゃん「~ですし」
学習する手法
学習する手法•未知語の存在が大きな問題になる•最近流行りの機械学習を使って未知語を学習させてみよう!
著者の手法①連続音声認識では連続音声を認識している。しかし、単音節音声認識では単音節ごとに認識する。連続音声認識<では>連続音声<を><認識><している>。<しかし>、単音節音声認識<では><単音節><ごと><に><認識><する>。?連続音声認...
著者の手法②連続音声認識では連続音声を認識している。しかし、単音節音声認識では単音節ごとに認識する。<連続音声><認識><では><連続音声><を><認識><している>。<しかし>、<単音節><音声認識><では><単音節><ごと><に><認識><...
最近の機械学習•Mecabも未知語の学習をする•が、まだ不完全な状態→まだまだ発展途上の分野
デモ
デモ•環境:Ruby2.0.0•実装したもの:最長一致法、接続コスト最小法•使用したもの:NAIST辞書
まとめ•ヒューリスティクスを用いた手法には限界がある•接続コスト最小法がよく使われる•それに根拠を持たせようとしたのが統計的な手法•機械学習の手法によって、未知語の学習も実現されかけている
Upcoming SlideShare
Loading in …5
×

基礎セミ 言語とコンピュータ 第8回 スライド

1,007 views

Published on

自然言語処理を扱う授業の担当分のスライド。
範囲は接続コスト最小法、n-gram法、未知語の学習等。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

基礎セミ 言語とコンピュータ 第8回 スライド

  1. 1. 言語とコンピュータ第8回1年 domitry
  2. 2. 進行1. 前回までの復習2.コストを用いる手法3. 統計的な手法4.学習による手法5.デモ6.まとめ
  3. 3. 前回までの復習①•文をばらばらにするのが形態素解析•形態素解析は大事だけど難しい•ヒューリスティクスを用いた手法が昔からある今日/は/自然言語処理/の/基礎セミ/が/あり/ます/。
  4. 4. 前回までの復習②•ヒューリスティクスとは経験則のこと•ヒューリスティクスを用いた手法にはいくつかある→最長一致法、分割数最小法•どれも一長一短
  5. 5. ヒューリスティクスを超えて
  6. 6. ヒューリスティクスを超えて①•実はこれらの手法は実際の自然言語処理に用いられることが少ない•ヒューリスティクスの何がダメなのか?
  7. 7. ヒューリスティクスを超えて②•経験則には根拠がない•根拠がないと改善がしにくいある特定の木があると石油が出やすい?
  8. 8. ヒューリスティクスを超えて③• (例)分割数最少法• →「共通部分の右側に文字数が多い方が正解」というルールを追加そこ/で/はなし/は/終わり/に/なった。そこ/では/なし/は/終わり/に/なった。分割数は一緒ルールは際限なく増えていく
  9. 9. 接続コスト最小法①•現在よく使われている形態素解析のツールの多くが用いているのがこの手法 (ChaSen、MeCab等)•単語間、品詞間の接続コストを事前に決めておき、文全体のコストが最少になるように分割する
  10. 10. 接続コスト最小法②•例そこ/で/はなし/は/終わり/になった。そこ/で/はなし/は/終わり/に/なった。(文頭)+名詞+助詞+名詞+助詞+名詞+動詞+(文末)(文頭)+名詞+助詞+名詞+助詞+名詞+助詞+動詞+(文末)日本語には名詞+動詞という構造を持つ文は少ない「担った」なんてそんなに使うかな?
  11. 11. 接続コスト最小法③•品詞ごとに接続コストを決める•例文末 名詞 動詞 助詞 接続詞文頭 0 10 10 0 10名詞 10 10 40 10 0動詞 10 10 10 0 10助詞 10 10 10 10 10接続詞 0 10 10 0 10名詞→動詞の接続はコストを高くしておく
  12. 12. 接続コスト最小法④•例そこ/で/はなし/は/終わり/になった。そこ/で/はなし/は/終わり/に/なった。(文頭)+名詞+助詞+名詞+助詞+名詞+動詞+(文末)(文頭)+名詞+助詞+名詞+助詞+名詞+助詞+動詞+(文末)コスト:前者が100,後者が70
  13. 13. 接続コスト最小法の問題点•コストは人手で事前に決める→計算式も確立されていない•統計的な手法へ!
  14. 14. 統計的な手法
  15. 15. 統計的な手法•最近盛んに使われている手法•膨大なデータを解析・蓄積する•種類が色々ある1. N-gram法2. 接続コストを統計的に決める手法
  16. 16. N-gram法①•統計的な手法の中でおそらく一番簡単•形態素解析というよりはただの統計処理に近い•色々な種類がある(bigram, trigram, 単語bigram…etc.)
  17. 17. N-gram法②•「ある単語が存在する確率は直前のn個の単語だけに依存する」という仮説に基づく手法•例)「私は大阪大学の学生です。」のbigram[私は,は大,大阪,阪大,大学,学の,の学,学生,生で,です,す。]
  18. 18. N-gram法②•私は大阪大学の学生です。大阪大学の学生数は日本の国立大学一である。私の得意教科は英語です。
  19. 19. N-gram法②•N-gramは汎用的な手法のため色々な応用がされている•例) キュー子ちゃん「~ですし」
  20. 20. 学習する手法
  21. 21. 学習する手法•未知語の存在が大きな問題になる•最近流行りの機械学習を使って未知語を学習させてみよう!
  22. 22. 著者の手法①連続音声認識では連続音声を認識している。しかし、単音節音声認識では単音節ごとに認識する。連続音声認識<では>連続音声<を><認識><している>。<しかし>、単音節音声認識<では><単音節><ごと><に><認識><する>。?連続音声認識では連続音声を認識している。しかし、単音節音声認識では<単音節>ごとに認識する。!
  23. 23. 著者の手法②連続音声認識では連続音声を認識している。しかし、単音節音声認識では単音節ごとに認識する。<連続音声><認識><では><連続音声><を><認識><している>。<しかし>、<単音節><音声認識><では><単音節><ごと><に><認識><する>。[音声認識,連続音声,認識,音声認,続音,…etc.][音声認識,連続音声,認識]
  24. 24. 最近の機械学習•Mecabも未知語の学習をする•が、まだ不完全な状態→まだまだ発展途上の分野
  25. 25. デモ
  26. 26. デモ•環境:Ruby2.0.0•実装したもの:最長一致法、接続コスト最小法•使用したもの:NAIST辞書
  27. 27. まとめ•ヒューリスティクスを用いた手法には限界がある•接続コスト最小法がよく使われる•それに根拠を持たせようとしたのが統計的な手法•機械学習の手法によって、未知語の学習も実現されかけている

×