clustering of user

2,102
-1

Published on

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,102
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
17
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

clustering of user

  1. 1. 第6回 さくさくテキストマイニング勉強会 ツイートから ユーザーを クラスタリング できる?
  2. 2. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  3. 3. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  4. 4. 2011年度 S-PLUS学 生研究奨励賞の (^O^) 特別賞を 頂きました!
  5. 5. ある日の事・・・・
  6. 6. 本を読んでいて、 これをやってみたいなあ っと感じた。
  7. 7. これ?
  8. 8. それが ユーザーのクラスタリング です。
  9. 9. 既に、書き手が分かっているものを、 注意判別していきます。
  10. 10. フォローしている ユーザから、 ツイートを 適当に取得
  11. 11. ゴミ取り●@ユーザー名●RT以降●ハッシュタグ
  12. 12. クラスター分析で 書き手を 分けてみる。
  13. 13. 対象のデータ集合を 分割して,クラスター分析 いくつかの集合に 分ける
  14. 14. ?分割して、分ける?クラス分類とは、 違うの?
  15. 15. クラスタリングとクラス分類って違うらしいhttp://d.hatena.ne.jp/Kshi_Kshi/20110110/1294687656クラスタリング:教師なしクラス分類 :教師あり
  16. 16. クラスタリングは、 大きく2種類 あります。
  17. 17. ●階層的クラスタリング●非階層的クラスタリング
  18. 18. ●階層的クラスタリング●非階層的クラスタリング
  19. 19. ユーザーのツイートを2分割しておいて・・・
  20. 20. 文字のバイグラムを 使って・・・
  21. 21. 文字のバイグラム● 今日は、さくテキだ! 2文字のセットを 作って、 今-日 その出現頻度を●● 日-は 利用しました。● は- 、● 、 -さ● ・・・・・・・
  22. 22. library(RMeCab)twit <- docNgram("./sep",type=0)plot( hclust(dist(t(twit)),"ward"))
  23. 23. 書き手の判別には、 2万字以上必要と言われているけど・・・
  24. 24. 多いのは、約3万字少ないのは、約4500文字 だった。
  25. 25. 感じたこと 書き手によって、文章の長さが異なる。 ⇓ 差が出やすい
  26. 26. 相対度数で見てみるかな
  27. 27. library(RMeCab)twit <- docNgram("./sep",type=0)soutai <- t(twit) / rowSums(t(twit))plot(hclust(dist(soutai),"ward"))
  28. 28. 一つ目が合わさる部分で 見たいけど、高さの部分で区切るから、 クラスタリングが 希望通りにできない。
  29. 29. ●階層的クラスタリング●非階層的クラスタリング
  30. 30. kmeans
  31. 31. 今日から使える! みんなのクラスタリング超入門 kmeanshttp://www.slideshare.net/toilet_lunch/ss-7684979 に分かりやすく書かれています。
  32. 32. 出展:今日から使える! みんなのクラスタリング超入門
  33. 33. 階層的クラスタリングと kmeans同じコーパスを用いて
  34. 34. 上手くできてるかな
  35. 35. kmeans(soutai,centers=13)answer = c()for ( i in 1:26){answer[i] = strsplit(names(rlt),split="_")[[i]][1]}ctbl <- table(answer,rlt)ctbl
  36. 36. クラスタリングを使うと、書き手の特徴を掴み、 それぞれを 分けることができた。
  37. 37. 参考• Rによるテキストマイニング入門 著:石田 基広 出版社:森北出版株式会社• RとLinuxと・・・ http://rmecab.jp/wiki/index.php?RMeCab• 今日から使える! みんなのクラスタリング超入門 http://www.slideshare.net/toilet_lunch/ss-7684979• クラスタリングとクラス分類って違うらしい http://d.hatena.ne.jp/Kshi_Kshi/20110110/1294687656
  38. 38. ご清聴ありがとうございました

×