Successfully reported this slideshow.
Your SlideShare is downloading. ×

Ad

第15回 データマイニング+WEB @東京



 2chのイカ娘スレッドを
  時系列分析してみた

                 @gepuro

Ad

自己紹介

Ad

自己紹介
  早川 敦士
 電気通信大学
システム工学科三年

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Upcoming SlideShare
Tokyor18
Tokyor18
Loading in …3
×

Check these out next

1 of 60 Ad
1 of 60 Ad
Advertisement

More Related Content

More from Atsushi Hayakawa (20)

Advertisement

2ch

  1. 1. 第15回 データマイニング+WEB @東京 2chのイカ娘スレッドを 時系列分析してみた @gepuro
  2. 2. 自己紹介
  3. 3. 自己紹介 早川 敦士 電気通信大学 システム工学科三年
  4. 4. テキストマイニング データマイニング 興味 統計学 品質管理
  5. 5. ブログ http://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  6. 6. 目次 ● 2chのスレッドからデータ取得とパース ● 自然言語を数値化する ● Rを使って、分析する。 ● スレッドの盛り上がり具合いを見る ● 相互相関関数でみてみる ● 主成分分析でみてみる
  7. 7. 2chのスレッド から データの 取得とパース
  8. 8. イカ娘のスレッドから データを取得 2010/3/26 ~ 2011/10/18のレス
  9. 9. 2ちゃんねる過去ログDAT変換 http://app.xrea.jp/dat/ を利用して、過去ログをhtmlで 入手しました
  10. 10. HTML? DATじゃ無いの?
  11. 11. htmlはこんな感じ <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> <base href="http://kamome.2ch.net/study/"> <title>TokyoWebmining part15</title> … <dt>2 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/11/06(日) 01:23:45.67 ID:nJVDPiU9O<dd> TokyoWebmining楽しみだなあ。<br>遅れないようにしないと <br><br> <dt>3 :<a href="mailto:sage"><b>名無しさん</b></a>:2011/10/06(木) 21:33:40.79 ID:xJNKLfU4R dd> <a href="../test/read.cgi/study/1234567890/2" target="_blank">&gt;&gt;2</a>お待ちしております。<br><br> ...
  12. 12. datはこんな感じ 名無しさん<>sage<>2011/11/6(日) 01:23:45.67 ID:nJVDPiU9O <> TokyoWebmining楽しみだなあ。 <br> 遅れないようにしないと<> 名無しさん<>sage<>2011/11/6(日) 01:24:45.67 ID:xJNKLfU4R <> <a href="../test/read.cgi/study/1234567890/2" target="_blank">&gt;&gt;2</a> お待ちしております。 <> …
  13. 13. htmlを直接に利用すれば、 タイトルやレスの番号、 広告などが 記述されている。
  14. 14. スレッドのタイトルを 予め取得しておけば、 DATの方がパースするのが 簡単!
  15. 15. 2ch DAT落ちスレ ミラー変換機 ver.12 http://mirrorhenkan.g.ribbon.to/ や htmltodat http://mukiyu.g.ribbon.to/ を利用すれば楽に出来そう
  16. 16. 儀式のような クリーニング
  17. 17. 1.URLを取り除く 2.AAのようなものを取り除く 1.1レスに記号が含まれる割合が50%以上 2.何%の精度か確認してないが、ほぼ全て取れたみ たい ハウツー 3. >>2 などを取り除く 4.mecabで名詞、形容詞を取り出す 1.今回は、ipadicの辞書にある単語のみ使った 2.基本形を利用する < 表記のぶれを少なく ネットスラングを考慮して、未知語も利用するべきだった かもしれない・・・
  18. 18. あとから、使いやすいように 2 名無しさん 2011/11/6 楽しみ 遅れる ない 3 名無しさん 2011/11/6 お待ち する お る …
  19. 19. 自然言語を 数値化する
  20. 20. まずは、 全てのデータの 語の頻度を数えた
  21. 21. 語が 27623種類 あった。
  22. 22. 種類が多すぎて、 分析するのが 大変になるので、 上位100語を 分析対象にしました。
  23. 23. 次に、 月毎に語の頻度を数えた。
  24. 24. また、 それぞれの語が 月毎に どれくらいの割合で 含まれるか調べた。
  25. 25. Rを使って、 分析する。
  26. 26. スレッドの 盛り上がり具合いを 見てみる
  27. 27. テンションが上がると 語の出現頻度が 変わるのでは?
  28. 28. こんな記事を 見つけた
  29. 29. どうしてこんな事に?
  30. 30. 『侵略!イカ娘』セーブオンオリジナルくじ、7月18日 (海の日)より発売! http://jin115.com/archives/51793457.html 景品を見る限りでは、可愛かったのに・・・ なぜ?
  31. 31. 相互相関関数を 見てみる
  32. 32. 相互相関関数って?
  33. 33. 相互相関関数は、ふたつの信号、 配列(ベクトル)の類似性を確認するために使われる。 相関と略されることがあり、 相関係数と似ているために混同することがある。 Wikipedia 相互相関関数より
  34. 34. 離散な時は、こんな式で求める。
  35. 35. 試しに、 「イカ」と「可愛い」で 求めてみる。
  36. 36. 頻度情報で見ると、 ほとんどの語と語で 相互相関が あると出てきてしまう。 ↓ 頻度の分布が似ている。
  37. 37. 頻度情報で見ると、 ほとんどの語と語で 相互相関が あると出てきてしまう。 ↓ 頻度の分布が似ている。
  38. 38. 頻度ではなく、 相対度数を 見れば良いのでは?
  39. 39. 相互相関が0.8以上or-0.8以下 (lagが-1〜1で,一部抜粋) ● ネタ & キャラ ● 差 & 違い ● 作品 & 声 ● 発売 & 年月日 ● 絵&化 ● 反省 & 点 ● 日 & 発売 ● 特典 & 年月日 ● 平成 & 年月日 ● 特典 & 発売 ● チャンピオン & 漫画 ● 原作 & 発売 ● 漫画 & チャンピオン ● 原作 & 特典 ● 悪い & 違い ● 悪い & 反省 ● 発売 & 原作 ● 違い & 反省 ● イカ & 人 ● 差 & 悪い ● 原作 & 特典
  40. 40. 主成分分析を してみる
  41. 41. PC1 PC2 PC3 Standard 603.34 237.65 65.25 deviation 0 7 5 Proportion of 0.855 0.133 0.008 Variance 81 Cumulative 0.0.855 0.987 0.996 Proportion
  42. 42. 2期放送や ミニイカ娘の回が 強く現れている
  43. 43. 相対度数を 使ってみると・・・
  44. 44. PC1 PC2 PC3 Standard 0.0525 0.0345 0.017 deviation 3 Proportion of 0.5507 0.2374 0.060 Variance 1 Cumulative 0.5507 0.7881 0.848 Proportion 2
  45. 45. 第1主成分では、 オリジナルくじの月が 主成分得点が高い。 第2主成分では、 月を経るごとに 評価が下がってる?
  46. 46. 標準化もやってみると・・・
  47. 47. PC1 PC2 PC3 PC4 Standard 4.971 4.603 3.420 3.088 deviation 9 Proporti 0.247 0.212 0.117 0.095 on of 4 Variance Cumulati 0.247 0.459 0.576 0.671 ve 3 Proporti on
  48. 48. 累積寄与率も低いし、 もう少し見てみよう
  49. 49. 2chのスレッドを 時系列に 分析をしてみると、 感想 それぞれの月の特徴を 掴む事が出来た。
  50. 50. 参考 JIN'S PAGE http://mjin.doshisha.ac.jp/R/
  51. 51. ご清聴 ありがとうございました。

×