Your SlideShare is downloading. ×
0
リアルで Real な Twitter データ
〜ゆるふわ版〜
榊 剛史
@tksakaki    
軽く自己紹介
ソーシャルセンサを提唱した人(の部
下)
軽く自己紹介
ソーシャルセンサを提唱した人(の部
下)
Twitte
r
ソーシャ
ルセンサ
宮崎駿っぽ
い
(写真が)
今日の目標
Twitter データを定期クロールする楽し
さを共有したい!!
Twitter データを定期クロールする楽し
さを共有したい!!
 Twitter における「今」と「どこ」の重要性
 地震の発生と震源地を知る
 天体現象を知る
 ゲリラ豪雨
 虹
 朝の電車遅延情報
Twitter における「今」と「どこ」
リアルな世界で
「今」「どこで」何かが起きているのが...
ブログブログ マイクロ
ブログ
マイクロ
ブログ
ユーザ ユーザ ユーザ ユーザ センサー センサーセンサー センサー
対象の観測
確率・統計処理 確率・統計処理
交通情報 気象・自然現象 お祭り・イベ
ント
観測値
観測値
対象の観測
ソーシ...
今日紹介するデータ
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルリアル
ワールドでワールドで
リアルリアル
ワールドでワールドで
Real...
今日紹介するデータ
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルリアル
ワールドでワールドで
リアルリアル
ワールドでワールドで
Real...
データセットの説明
イベント系データイベント系データ
データセットの説明
イベント系データイベント系データ
と、その前に
収集しているデータ項目
データセットの説明
イベント系データイベント系データ
地震
キーワー
ド
地震 OR  揺れ
収集期間 2010 年 10 月〜 2012
年 10 月
ツイート
数
約 1600 万
サイズ 3.8GB
その他 機械学習でフィルタ
イング
天...
データセットの説明
イベント系データイベント系データ
人物目撃
キーワー
ド
遭遇 OR 目撃 OR 見
掛け OR 見かけ OR
みかけ
収集期間 2010 年 8 月〜 2011 年 6
月
ツイート数 260 万
サイズ 640MB
その...
地震速報システム  Toretter
道路交通詳細情報 収集システム
芸能人目撃情報システム Celeb Paparazzi
Finder
その他応用
人間直観天気予報
「雨が降りそう」「雨が止みそ
う」
みたいなツイート集めて、天気
予報ことわざ天気予報
「ツバメが低く飛ぶと雨」「月に
傘がかかると雨」みたいなことわ
ざにある現象の発生を検知して天
気予報
今日紹介するデータ
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルで Real な Twitter データセッ
ト
〜ゆるふわ版〜
リアルリアル
ワールドでワールドで
リアルリアル
ワールドでワールドで
Real...
データセットの説明
ユーザ系データユーザ系データ
ユーザ系データユーザ系データ
データセットの説明
データセットの説明
オリ合
宿キーワー
ド
オリ合宿
収集期間 2012 年 4 月
ツイート
数
4400
サイズ 778KB
学振
キーワー
ド
学振 OR DC1 OR
DC2
収集期間 2011 年 10 月〜 11 月
ツイート
数
...
おまけ説明
 オリ合宿とは!!
 東大生が入学直後に、先輩に連れられていくオリエー
テーション合宿のことである!!
 東大にしか無い言葉
東大生リスト、というえげつない(≒金の
においがする)リストが作れてしまうか
も?
東大生リスト、と...
おまけ説明
 学振とは!!
 優秀な博士課程の学生に、月 20 万円の給料をくれる制度
である。学術振興会特別研究員の略。
 倍率20%なので、非常に厳しい
将来偉くなる研究者リストが
作れてしまうかも?
将来偉くなる研究者リストが
作れ...
その他応用
雨男・雨女判定
外出時にいつも雨に遭遇してい
るユーザ群を推定
ご近所さんユーザ判定
自分の近所の人しか呟かないよ
うなキーワードでクロールして
、ご近所さんを推定
まとめ
ユーザ系データユーザ系データ
イベント系データイベント系データ
現実に発生しているイベントについて
いろんな情報を取得できそう
現実に発生しているイベントについて
いろんな情報を取得できそう
ある特定の集団における流行やトレンド、
趣味...
まとめ
 問題点
 Twitter はデータの 2 次配布を禁止してるので
どうしたもんか・・・・・
 野良リポジトリには置けないかも・・・・
 Amazon EC2 に DB でも立てて、希望者のユー
ザ作るのはグレー・・・・??
...
まとめ
とりあえず、みんな
Twitter の定期クロール
しようぜ!!
おしまい
この顔にピンと来たら
@tksakaki へ連絡を!
Upcoming SlideShare
Loading in...5
×

2013.07.27 ニコニコデータ研究会 公開用

379

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
379
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Thank you chairperson. Hello, Everyone My name is Takeshi Sakaki. I’m a student at the University of Tokyo. Today, I’d like to talk about our research using Twitter. The title is “Earthquake Shakes Twitter User: Analyzing Tweets for Real-Time Event Detection”. This research is a joint work with Makoto Okazaki and Yutaka Matsuo from the University of Tokyo. These are our twitter accounts.
  • Transcript of "2013.07.27 ニコニコデータ研究会 公開用"

    1. 1. リアルで Real な Twitter データ 〜ゆるふわ版〜 榊 剛史 @tksakaki    
    2. 2. 軽く自己紹介 ソーシャルセンサを提唱した人(の部 下)
    3. 3. 軽く自己紹介 ソーシャルセンサを提唱した人(の部 下) Twitte r ソーシャ ルセンサ 宮崎駿っぽ い (写真が)
    4. 4. 今日の目標 Twitter データを定期クロールする楽し さを共有したい!! Twitter データを定期クロールする楽し さを共有したい!!
    5. 5.  Twitter における「今」と「どこ」の重要性  地震の発生と震源地を知る  天体現象を知る  ゲリラ豪雨  虹  朝の電車遅延情報 Twitter における「今」と「どこ」 リアルな世界で 「今」「どこで」何かが起きているのが 分かる
    6. 6. ブログブログ マイクロ ブログ マイクロ ブログ ユーザ ユーザ ユーザ ユーザ センサー センサーセンサー センサー 対象の観測 確率・統計処理 確率・統計処理 交通情報 気象・自然現象 お祭り・イベ ント 観測値 観測値 対象の観測 ソーシャルセンサの考え方
    7. 7. 今日紹介するデータ リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルリアル ワールドでワールドで リアルリアル ワールドでワールドで RealtimeRealtime 性の性の 高い高い RealtimeRealtime 性の性の 高い高い けちって研究室のサーバで 収集してるので、大学の停 電にあわせて欠損 が・・・・
    8. 8. 今日紹介するデータ リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルリアル ワールドでワールドで リアルリアル ワールドでワールドで RealtimeRealtime 性の性の 高い高い RealtimeRealtime 性の性の 高い高い イベント系データイベント系データ ユーザ系データユーザ系データ
    9. 9. データセットの説明 イベント系データイベント系データ
    10. 10. データセットの説明 イベント系データイベント系データ
    11. 11. と、その前に
    12. 12. 収集しているデータ項目
    13. 13. データセットの説明 イベント系データイベント系データ 地震 キーワー ド 地震 OR  揺れ 収集期間 2010 年 10 月〜 2012 年 10 月 ツイート 数 約 1600 万 サイズ 3.8GB その他 機械学習でフィルタ イング 天候 キーワー ド 雨 OR 霧 収集期間 2010 年 10 月〜 2012 年 11 月 ツイート数 約 3600 万 サイズ 6.5GB その他 地名を別カラムに 保存
    14. 14. データセットの説明 イベント系データイベント系データ 人物目撃 キーワー ド 遭遇 OR 目撃 OR 見 掛け OR 見かけ OR みかけ 収集期間 2010 年 8 月〜 2011 年 6 月 ツイート数 260 万 サイズ 640MB その他 芸能人名をタグで囲んで ある 交通状況 キーワー ド 渋滞 OR 交通規制 OR 通行規制 OR 検問 収集期間 2010 年 10 月〜 2012 年 11 月 ツイート 数 約 420 万 サイズ 900MB その他 地名を別カラムに保 存
    15. 15. 地震速報システム  Toretter
    16. 16. 道路交通詳細情報 収集システム
    17. 17. 芸能人目撃情報システム Celeb Paparazzi Finder
    18. 18. その他応用 人間直観天気予報 「雨が降りそう」「雨が止みそ う」 みたいなツイート集めて、天気 予報ことわざ天気予報 「ツバメが低く飛ぶと雨」「月に 傘がかかると雨」みたいなことわ ざにある現象の発生を検知して天 気予報
    19. 19. 今日紹介するデータ リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルで Real な Twitter データセッ ト 〜ゆるふわ版〜 リアルリアル ワールドでワールドで リアルリアル ワールドでワールドで RealtimeRealtime 性の性の 高い高い RealtimeRealtime 性の性の 高い高い イベント系データイベント系データ ユーザ系データユーザ系データ
    20. 20. データセットの説明 ユーザ系データユーザ系データ
    21. 21. ユーザ系データユーザ系データ データセットの説明
    22. 22. データセットの説明 オリ合 宿キーワー ド オリ合宿 収集期間 2012 年 4 月 ツイート 数 4400 サイズ 778KB 学振 キーワー ド 学振 OR DC1 OR DC2 収集期間 2011 年 10 月〜 11 月 ツイート 数 5313 サイズ 1.8MB ユーザ系データユーザ系データ
    23. 23. おまけ説明  オリ合宿とは!!  東大生が入学直後に、先輩に連れられていくオリエー テーション合宿のことである!!  東大にしか無い言葉 東大生リスト、というえげつない(≒金の においがする)リストが作れてしまうか も? 東大生リスト、というえげつない(≒金の においがする)リストが作れてしまうか も?
    24. 24. おまけ説明  学振とは!!  優秀な博士課程の学生に、月 20 万円の給料をくれる制度 である。学術振興会特別研究員の略。  倍率20%なので、非常に厳しい 将来偉くなる研究者リストが 作れてしまうかも? 将来偉くなる研究者リストが 作れてしまうかも?
    25. 25. その他応用 雨男・雨女判定 外出時にいつも雨に遭遇してい るユーザ群を推定 ご近所さんユーザ判定 自分の近所の人しか呟かないよ うなキーワードでクロールして 、ご近所さんを推定
    26. 26. まとめ ユーザ系データユーザ系データ イベント系データイベント系データ 現実に発生しているイベントについて いろんな情報を取得できそう 現実に発生しているイベントについて いろんな情報を取得できそう ある特定の集団における流行やトレンド、 趣味、思想が取得できるかも ある特定の集団における流行やトレンド、 趣味、思想が取得できるかも
    27. 27. まとめ  問題点  Twitter はデータの 2 次配布を禁止してるので どうしたもんか・・・・・  野良リポジトリには置けないかも・・・・  Amazon EC2 に DB でも立てて、希望者のユー ザ作るのはグレー・・・・??  まあ、あとで考えます
    28. 28. まとめ とりあえず、みんな Twitter の定期クロール しようぜ!!
    29. 29. おしまい この顔にピンと来たら @tksakaki へ連絡を!
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×