2ch

11,095 views

Published on

Published in: Technology
0 Comments
9 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
11,095
On SlideShare
0
From Embeds
0
Number of Embeds
5,827
Actions
Shares
0
Downloads
26
Comments
0
Likes
9
Embeds 0
No embeds

No notes for slide

2ch

  1. 1. 第15回 データマイニング+WEB @東京 2chのイカ娘スレッドを 時系列分析してみた @gepuro
  2. 2. 自己紹介
  3. 3. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  4. 4. テキストマイニングデータマイニング 興味 統計学 品質管理
  5. 5. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  6. 6. 目次● 2chのスレッドからデータ取得とパース● 自然言語を数値化する● Rを使って、分析する。 ● スレッドの盛り上がり具合いを見る ● 相互相関関数でみてみる ● 主成分分析でみてみる
  7. 7. 2chのスレッド から データの取得とパース
  8. 8. イカ娘のスレッドから データを取得 2010/3/26 ~2011/10/18のレス
  9. 9. 2ちゃんねる過去ログDAT変換 http://app.xrea.jp/dat/を利用して、過去ログをhtmlで 入手しました
  10. 10. HTML?DATじゃ無いの?
  11. 11. htmlはこんな感じ<html><head><meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS"><base href="http://kamome.2ch.net/study/"><title>TokyoWebmining part15</title>…<dt>2 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/11/06(日) 01:23:45.67ID:nJVDPiU9O<dd> TokyoWebmining楽しみだなあ。<br>遅れないようにしないと<br><br><dt>3 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/10/06(木) 21:33:40.79ID:xJNKLfU4R dd> <a href="../test/read.cgi/study/1234567890/2"target="_blank">&gt;&gt;2</a>お待ちしております。<br><br>...
  12. 12. datはこんな感じ名無しさん<>sage<>2011/11/6(日) 01:23:45.67ID:nJVDPiU9O <> TokyoWebmining楽しみだなあ。<br> 遅れないようにしないと<>名無しさん<>sage<>2011/11/6(日) 01:24:45.67ID:xJNKLfU4R <> <ahref="../test/read.cgi/study/1234567890/2"target="_blank">&gt;&gt;2</a> お待ちしております。<>…
  13. 13. htmlを直接に利用すれば、 タイトルやレスの番号、 広告などが 記述されている。
  14. 14. スレッドのタイトルを 予め取得しておけば、DATの方がパースするのが 簡単!
  15. 15. 2ch DAT落ちスレ ミラー変換機 ver.12 http://mirrorhenkan.g.ribbon.to/ や htmltodat http://mukiyu.g.ribbon.to/ を利用すれば楽に出来そう
  16. 16. 儀式のようなクリーニング
  17. 17. 1.URLを取り除く2.AAのようなものを取り除く 1.1レスに記号が含まれる割合が50%以上 2.何%の精度か確認してないが、ほぼ全て取れたみ たい ハウツー3. >>2 などを取り除く4.mecabで名詞、形容詞を取り出す 1.今回は、ipadicの辞書にある単語のみ使った 2.基本形を利用する < 表記のぶれを少なくネットスラングを考慮して、未知語も利用するべきだったかもしれない・・・
  18. 18. あとから、使いやすいように2 名無しさん 2011/11/6 楽しみ 遅れるない3 名無しさん 2011/11/6 お待ち する おる…
  19. 19. 自然言語を数値化する
  20. 20. まずは、 全てのデータの語の頻度を数えた
  21. 21. 語が27623種類 あった。
  22. 22. 種類が多すぎて、 分析するのが 大変になるので、 上位100語を分析対象にしました。
  23. 23. 次に、月毎に語の頻度を数えた。
  24. 24. また、 それぞれの語が 月毎にどれくらいの割合で含まれるか調べた。
  25. 25. Rを使って、分析する。
  26. 26. スレッドの盛り上がり具合いを 見てみる
  27. 27. テンションが上がると 語の出現頻度が 変わるのでは?
  28. 28. こんな記事を 見つけた
  29. 29. どうしてこんな事に?
  30. 30. 『侵略!イカ娘』セーブオンオリジナルくじ、7月18日 (海の日)より発売!http://jin115.com/archives/51793457.html 景品を見る限りでは、可愛かったのに・・・ なぜ?
  31. 31. 相互相関関数を 見てみる
  32. 32. 相互相関関数って?
  33. 33. 相互相関関数は、ふたつの信号、配列(ベクトル)の類似性を確認するために使われる。 相関と略されることがあり、 相関係数と似ているために混同することがある。 Wikipedia 相互相関関数より
  34. 34. 離散な時は、こんな式で求める。
  35. 35. 試しに、「イカ」と「可愛い」で 求めてみる。
  36. 36. 頻度情報で見ると、 ほとんどの語と語で 相互相関が あると出てきてしまう。 ↓頻度の分布が似ている。
  37. 37. 頻度情報で見ると、 ほとんどの語と語で 相互相関が あると出てきてしまう。 ↓頻度の分布が似ている。
  38. 38. 頻度ではなく、 相対度数を見れば良いのでは?
  39. 39. 相互相関が0.8以上or-0.8以下 (lagが-1〜1で,一部抜粋)● ネタ & キャラ ● 差 & 違い● 作品 & 声 ● 発売 & 年月日● 絵&化 ● 反省 & 点● 日 & 発売 ● 特典 & 年月日● 平成 & 年月日 ● 特典 & 発売● チャンピオン & 漫画 ● 原作 & 発売● 漫画 & チャンピオン ● 原作 & 特典● 悪い & 違い● 悪い & 反省 ● 発売 & 原作● 違い & 反省 ● イカ & 人● 差 & 悪い ● 原作 & 特典
  40. 40. 主成分分析を してみる
  41. 41. PC1 PC2 PC3Standard 603.34 237.65 65.25deviation 0 7 5Proportion of 0.855 0.133 0.008Variance 81Cumulative 0.0.855 0.987 0.996Proportion
  42. 42. 2期放送やミニイカ娘の回が 強く現れている
  43. 43. 相対度数を使ってみると・・・
  44. 44. PC1 PC2 PC3Standard 0.0525 0.0345 0.017deviation 3Proportion of 0.5507 0.2374 0.060Variance 1Cumulative 0.5507 0.7881 0.848Proportion 2
  45. 45. 第1主成分では、オリジナルくじの月が主成分得点が高い。 第2主成分では、 月を経るごとに評価が下がってる?
  46. 46. 標準化もやってみると・・・
  47. 47. PC1 PC2 PC3 PC4Standard 4.971 4.603 3.420 3.088deviation 9Proporti 0.247 0.212 0.117 0.095on of 4VarianceCumulati 0.247 0.459 0.576 0.671ve 3Proportion
  48. 48. 累積寄与率も低いし、 もう少し見てみよう
  49. 49. 2chのスレッドを 時系列に 分析をしてみると、 感想それぞれの月の特徴を 掴む事が出来た。
  50. 50. 参考 JINS PAGEhttp://mjin.doshisha.ac.jp/R/
  51. 51. ご清聴ありがとうございました。

×