おとなのテキストマイニング

3,176 views

Published on

ようやく動くものが出来たよ!というお話。

Published in: Technology
  • Be the first to comment

おとなのテキストマイニング

  1. 1. おとなのテキストマイニング @pinktx_jp 2012.11.23 Gunma.web #11
  2. 2. 今回の主役
  3. 3. 超有名人
  4. 4. ルイージ
  5. 5. テキストマイニング
  6. 6. テキストマイニングテキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。 http://ja.wikipedia.org/wiki/テキストマイニング
  7. 7. 自然言語処理自然言語処理(しぜんげんごしょり、英語 : naturallanguage processing 、略称: NLP )は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。 http://ja.wikipedia.org/wiki/自然言語処理
  8. 8. 人間語をコンピュータで扱い やすい形にする事
  9. 9. 形態素解析対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素( Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 http://ja.wikipedia.org/wiki/形態素解析
  10. 10. 文章を単語単位に分けて、品 詞を特定すること
  11. 11. 英語の場合 Mankind has arrived at Jupiter for the first time today.
  12. 12. 英語の場合 Mankind has arrived at Jupiter for the first time today.日本語の場合 今日人類が初めて木星に着いたよ 。
  13. 13. 英語の場合 Mankind has arrived at Jupiter for the first time today.日本語の場合 今日人類が初めて木星に着いたよ 。 わかち書きが必要
  14. 14. わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ
  15. 15. わかち書き(形態素解析)$ 今日人類が初めて木星に着いたよ今日   名詞 , 副詞可能 ,*,*,*,*, 今日 , キョウ , キョー人類   名詞 , 一般 ,*,*,*,*, 人類 , ジンルイ , ジンルイが     助詞 , 格助詞 , 一般 ,*,*,*, が , ガ , ガ初めて  副詞 , 一般 ,*,*,*,*, 初めて , ハジメテ , ハジメテ木星   名詞 , 一般 ,*,*,*,*, 木星 , モクセイ , モクセイに     助詞 , 格助詞 , 一般 ,*,*,*, に , ニ , ニ着い   動詞 , 自立 ,*,*, 五段・カ行イ音便 , 連用タ接続 , 着く , ツイ , ツイた     助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タよ     助詞 , 終助詞 ,*,*,*,*, よ , ヨ , ヨ
  16. 16. MeCab
  17. 17. MeCab• オープンソースの形態素解析エンジン• Google 日本語入力開発者の一人である 工藤拓氏によって開発• MacOS や iOS 等にも採用されている http://ja.wikipedia.org/wiki/MeCab
  18. 18. ここから若干おとな向けなお 話が含まれます
  19. 19. おとなのテキストマイニングに必要なもの
  20. 20. おとなのテキストマイニングに必要なもの• r18-words.dic   - 18 禁ワードに特化した辞書• pornostar-jp.dic  - 日本の AV 女優さんの名前辞書
  21. 21. 用途
  22. 22. 用途類似文書の検索
  23. 23. おさらいちょっとだけ物足りない機能 閲覧中のモノと関連した動画の紹 介
  24. 24. もっと似ているものщ( ゚ д ゚ щ) プリーズ
  25. 25. 類似文書を検索出来れば…
  26. 26. 類似文書を検索出来れば…閲覧中の動画と類似の動画も検索可 能! || 関連動画
  27. 27. デモ
  28. 28. デモ… は危険なので割合させて頂きます(汗
  29. 29. 分かりやすい類似検索の例
  30. 30. 分かりやすい類似検索の例• 検索ワード「 JK 」 • 検索ワード「ナー – JK ス」 – 女子高生 – ナース – 女子校生 – 看護婦 – 女子●生 – 看護師 – 白衣の天使 – 看護学生
  31. 31. 類似文書の検索• 精度を出すには超高次元での空間イン デックスが必要( R-Tress や SR- Tree )• 高次元にするほど精度が高くなる• 高次元にするほどパフォーマンスが悪 化する(次元の呪い)
  32. 32. 類似文書の検索• LSH(Locality Sensitive Hashing) に代表 される「近似型」のインデックスを用 いることでパフォーマンスの問題を改 善する事ができる
  33. 33. Luigi
  34. 34. 類似
  35. 35. Luigi とは• Perl で書かれた類似検索エンジン。• 近似型のインデックスを使っています 。• そこそこ精度がよく高速に動作します 。 実験的なコードなので CPAN にはアップされていません GitHub: https://github.com/miki/Luigi
  36. 36. 最後に 今回の発表内容を実装したサービスの紹介をさせて頂きます
  37. 37. けしからん動画を快適に見よう!morolicious http://morolicio.us/
  38. 38. β 版ですが、稼働しているの で
  39. 39. 息抜きの時にでも使って頂けたら光栄です
  40. 40. 第 八ヌ 発 注キ過、
  41. 41. ご清聴ありがとうございまし た
  42. 42. ちなみにサービス名
  43. 43. mojoliciousWikipedia より Web アプリケーションフレームワーク Catalyst の作者であるセ バスチャン・リーデルによって書かれたリアルタイム Web アプ リケーションフレームワーク。
  44. 44. サービスの対象者” おとな”
  45. 45. おとな + mojolicious
  46. 46. おとな + mojolicious = morolicious
  47. 47. けしからん動画を快適に見よう!morolicious http://morolicio.us/ @morolicio_us

×