Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習で名古屋っぽいを判定する

1,285 views

Published on

機械学習で名古屋っぽいを判定する

Published in: Technology
  • Be the first to comment

機械学習で名古屋っぽいを判定する

  1. 1. 機械学習で名古屋っぽいを判定する @masayuki5160 14年12月31日水曜日
  2. 2. はじめに 機械学習の勉強がてらベイジアンフィルターを使って”名 古屋っぽい”ことを分類してみました。うまくいった、と いうわけではないですがやってみてはじめてわかったこ とや課題等みえてきましたのでそのあたりのお話をして みます。 なお”名古屋っぽい”を判定するためにTwitterよりテキス トを収集しています。規約上は問題ないようですが、念 のため詳細の掲載はさけます。 14年12月31日水曜日
  3. 3. 環境について • EC2(AWS) • PHP • MySQL • Mecab(インストールについてはこちらを参考に. ) プログラムについては詳細を記載していませんが,“PHPに よる機械学習入門”が参考になります. 14年12月31日水曜日
  4. 4. アジェンダ 1. 名古屋っぽいフィルターの概要 2. 判定してみる 3. 今後の課題 14年12月31日水曜日
  5. 5. 1. 名古屋っぽいフィルターの概要 分類辞書 判定したい文言 スコア計算 スコア計算時に参照 名古屋っぽい! 名古屋っぽくない 判定 14年12月31日水曜日
  6. 6. 1. 名古屋っぽいフィルターの概要 分類辞書 判定したい文言 スコア計算 スコア計算時に参照 名古屋っぽい! 名古屋っぽくない 判定 分類辞書をしっかりつくれればあとはそんなに難しくはない 14年12月31日水曜日
  7. 7. 1. 名古屋っぽいフィルターの概要 分類辞書 分類辞書の作成概要 “名古屋”と記載のある ツイート それ以外の ツイート 解析 ※形態素解析を実施 14年12月31日水曜日
  8. 8. 実際に分類辞書はどんな感じ? 14年12月31日水曜日
  9. 9. トークン カテゴリの分類 出現回数 たとえばこんなかんじ 14年12月31日水曜日
  10. 10. 2. 判定してみる • スコアの計算は下記 スコア = T / (T + E) T = 名古屋カテゴリでの単語出現回数/名古屋カテゴリのコーパス数 E = 名古屋以外のカテゴリでの単語出現回数/名古屋以外のカテゴリのコ ーパス数 14年12月31日水曜日
  11. 11. 分類辞書 判定したい文言 スコア計算 スコア計算時に参照 名古屋っぽい! 名古屋っぽくない 判定 次はここを考えます. 2. 判定してみる 14年12月31日水曜日
  12. 12. 0" 10" 20" 30" 40" 50" 60" 70" 0.0~0.1" 0.1~0.2" 0.2~0.3" 0.3~0.4" 0.4~0.5" 0.5~0.6" 0.6~0.7" 0.7~0.8" 0.8~0.9" 0.9~1.0" (%) 2. 判定してみる 各カテゴリのコーパス(分類辞書作成時に使用したツイート) のスコア計算をし階層ごとに分類 x軸: 階級別スコア y軸: 階級に属するコ ーパスの割合 14年12月31日水曜日
  13. 13. 名古屋以外のカテゴリ は0.4~0.5の結果になり, 名古屋カテゴリは0.5以 上になる傾向. 0.5を閾値 として設定するのがよ さそう. ※このあたりは調整もっ といりますがとりあえ ず. 2. 判定してみる 0" 10" 20" 30" 40" 50" 60" 70" 0.0~0.1" 0.1~0.2" 0.2~0.3" 0.3~0.4" 0.4~0.5" 0.5~0.6" 0.6~0.7" 0.7~0.8" 0.8~0.9" 0.9~1.0" (%) 14年12月31日水曜日
  14. 14. ためしにスコアだししてみます 14年12月31日水曜日
  15. 15. 2. 判定してみる • 味仙で台湾ラーメンたべて、コメダでシロノワールをた べる • 小倉トーストをディズニーランドで売ると かるはずだ • ディズニーランド行ってくるわ∼おみやげ何がいい? • コメダがついにアメリカ進出!!! サンプルテキストとして上記を使用します. 14年12月31日水曜日
  16. 16. 2. 判定してみる • 味仙で台湾ラーメンたべて、コメダでシロノワールをた べる => 0.74 • 小倉トーストをディズニーランドで売ると かるはずだ => 0.37 • ディズニーランド行ってくるわ∼おみやげ何がいい? => 0.32 • コメダがついにアメリカ進出!!! => 0.66 赤字が計算したスコア.“コメダ”,“ディズニーランド”は強 く計算に影響している様子. 14年12月31日水曜日
  17. 17. 2. 判定してみる • 年末年始はとくに予定ないけど、とりあえず初詣にはい っとくかー混んでそうでいやだけど • 年末年始はとくに予定ないけど、とりあえず熱田神宮に 初詣にはいっとくかー混んでそうでいやだけど 名古屋っぽいキーワードとして”熱田神宮”をいれたもの といれてないものを比較してみます 14年12月31日水曜日
  18. 18. 2. 判定してみる • 年末年始はとくに予定ないけど、とりあえず初詣にはい っとくかー混んでそうでいやだけど => 0.59 • 年末年始はとくに予定ないけど、とりあえず熱田神宮に 初詣にはいっとくかー混んでそうでいやだけど => 0.63 “熱田神宮”をいれることでスコアはあがっているが,“熱田 神宮”がない場合もスコアが高い. 閾値として0.5を設定す るのに問題ありそう(いまの分類辞書だと)。 14年12月31日水曜日
  19. 19. 3. 今後の課題 • 分類辞書の精度UP(データの蓄積あるのみ?) • 分類辞書の更新に伴う判定用しきい値の調整 やはり分類辞書の精度UP、データの蓄積が一番かと思い ます。閾値の調整もそれに伴って実施することになりそ う。 とはいえこのあたりは集まるしかない、という感じでし ょうか。 14年12月31日水曜日
  20. 20. おわりに 機械学習はとっつきにくい印象がありましたが、実際に 自分で実装をしてみることでその印象がうすれました。 しっかりアルゴリズムを把握すれば実装はそこまで難し くはないな、と感じています。ただ、そのアルゴリズム を理解するのに多少苦労する、というのは確かです。。 とはいえほんとにおもしろい分野なのでこれからもいろ いろ試していこうと思います。 14年12月31日水曜日

×