Your SlideShare is downloading. ×
0
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~

13,650

Published on

Rを用いたtwitterテキストマイニング

Rを用いたtwitterテキストマイニング

Published in: Technology, Business
0 Comments
19 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
13,650
On Slideshare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
31
Comments
0
Likes
19
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. あんちべの すべらない話~俺のツイートがこんなにウケないはずがない~
  • 2. 目的
  • 3. twitter 渾身のネタがスルーされたり何気ない呟きがめっちゃウケたり
  • 4. 滑ったときの恥ずかしさマジパネェ
  • 5. tweetする前にウケルかどうか予測できれば!
  • 6. それ、Rなら簡単ですよ!
  • 7. 発表の目的Rで自分のtweetが ウケるかどうか 予測をしよう!
  • 8. 自己紹介● ID:AntiBayesian● あんちべ!とお呼び下さい● 専門:テキストマイニング、自然言語処理● 職業:某ATMが○○な銀行で金融工学研究員とか いう胡散臭い素敵なことしてる● 自然言語処理職大絶賛募集中!!!!● math.empress@gmail.com
  • 9. なんで急にLTすることに???↑今日の0時くらいの話です
  • 10. 分析手順1.訓練データ(正例、負例)を用意する2.訓練データから予測モデルを立てる3.自分のtweetを予測モデルに放り込んで判定
  • 11. 訓練データを集めよう● 正例:favstarから人気tweetを取得● 負例:twitter Streaming APIから適当にサンプリン グ● 6月中のtweetを各々約1500件ずつチョイス● 正例にはfav、負例にはnonタグを付ける※Tweetを取得するツール作ったよ!http://d.hatena.ne.jp/AntiBayesian/20110702
  • 12. さくさくツイートマイニングこんな感じ→
  • 13. 訓練データの加工 ttmの紹介● TinyTextMiner● テキストを形態素解析に掛け、さらに分析ツールに 投げやすいよう整形してくれるフリーソフト● ここからDL http://mtmr.jp/ttm/※MeCabもインストールしてね
  • 14. 加工済みデータ● 1行目が各単語。2行目以降は、各文章から表頭 の単語が何回出現したか● 右端のTAG列がクラス。fav=正例、non=負 例、test=検証するtweet。● 要するに、testテキストがfav、nonどちらに分類さ れるか知りたい
  • 15. 予測モデルを立てよう● RandomForestを使おう!● 精度高いし汚いデータにも強い!Googleも利用!● 詳細は下記ブログを参考にhttp://d.hatena.ne.jp/hamadakoichi/20110130/
  • 16. Rのコードtwit <- read.csv(file="twit.csv")library(randomForest)train.data <- twit[1:2877,]#訓練データが2877あるtest.data <- twit[2878:2911,]#テストデータは33rf.model <- randomForest(TAG~., data=train.data,na.a="na.omit", ntree=10)
  • 17. 精度はどう???rf.predict <- predict(rf.model, train.data)(result <- table(train.data$TAG, rf.predict))● 緑色のセル=正しく分類● 行:予測● 列:実際2*result[2,2] / (2*result[2,2]+result[1,2]+result[2,1])● F値:0.9019064※訓練データで高精度は当たり前。ただの目安
  • 18. 学習結果rf.predict <- predict(rf.model, test.data)● 2878行目のデータはfav、2879行目はnonと予測● favと予測されたtweetはウケルのでは???
  • 19. まとめ● 人気tweetを収集し、人気tweetを判別するモデル を作る● 自分のtweetをモデルで評価して、ウケル内容だ けtweetする● これで広瀬香美や孫正義を超える人気ついっ たったーになれる!

×