Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

5,328 views

Published on

テキストマイニング・機械学習を初めてやってみようかという人が、プログラミングやアルゴリズムの理解なしに、まずは結果を出してたのしめるようなデモを用意しました。

Published in: Technology
  • Be the first to comment

勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング

  1. 1. 2014/01/11 第一回つくばデータマイニング勉強会 プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング KNIME及びTiny Text Minerを利用 from2001
  2. 2. 今日利用する機械学習アルゴリズム サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト をネットで調べると この段階で、なんだか 挫折しそう。。。 2
  3. 3. 今回の機械学習テキストマイニングLTの概要 ブログの文章を テキストマイニングし 誰のブログかを判別する 今回対象とするのは 3
  4. 4. 4
  5. 5. 今日利用する機械学習アルゴリズム サポートベクターマシン、ニューラルネットワーク、ランダムフォレスト をネットで調べると 難しいことが書いてあって くじけそうになる 5
  6. 6. 今日はプログラムは一切使わず KNIME (the Konstanz Information Miner) TTM (Tiny Text Miner) 6
  7. 7. 理解しておくべき概念1-機械学習 ブログの本文データ 7
  8. 8. 理解しておくべき概念1-機械学習 人間がタグを付けます 加藤茶 安倍晋三 加藤茶 安倍晋三 大島優子 ブログの本文データ 教師データといいます 8
  9. 9. 理解しておくべき概念1-機械学習 加藤茶 安倍晋三 加藤茶 安倍晋三 大島優子 学習させる 分類器 パターンを学習する 9
  10. 10. 理解しておくべき概念1-機械学習 コレハ オオシマユウコ ノ ブログ 未知のブログ文章を分類できるようになる 分類器 10
  11. 11. 理解しておくべき概念2-形態素解析 コンピューターが理解しやすい ような形式に日本語を変換 歯磨けよ!風邪引くなよ!また明日! 分類器 ! 歯磨けよ!風邪引く なよ!また明日! 歯 3 明日 1 引く 1 風邪 1 磨ける 1 1 11
  12. 12. では実際にやってみる 12
  13. 13. ①カンマ区切りデータを用意 1列名:タグ(誰のブログか) 2列目:本文(改行削除) 13
  14. 14. ②形態素解析する TTMにデータを渡す と後は自動でやっ てくれます 14
  15. 15. 各語の出現件数表が出力されます 15
  16. 16. 不必要な行・列を消します 16
  17. 17. このデータをKNIMEで機械学習させます 17
  18. 18. 下記のフローを実装します 学習させる 75件を教師データに 150件のデータ タグ付き CSVデータ を読み込む 学習済みモデル データを 分割 分類 評価 のこり75件のタグ無 しデータ 18
  19. 19. 簡単なので 実際に一緒にやってみましょう 19
  20. 20. KNIMEを使えば、簡単 20
  21. 21. 他のアルゴリズムに 切り替えるのも簡単 サポートベクターマシン用Node ニューラルネットワーク用Node 21
  22. 22. 3人のブログは 機械学習で識別可能! では、 22
  23. 23. お笑い 政治家 加藤茶 安倍晋三 アイドル 大島優子 指原莉乃 AKBが二人混ざっていても分類可能なのか? 23
  24. 24. AKB二人もきっちり識別!!! Random Forest利用 24
  25. 25. おしまい 25

×