Successfully reported this slideshow.
Your SlideShare is downloading. ×

Webdbf2012

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Netec oposter
Netec oposter
Loading in …3
×

Check these out next

1 of 41 Ad
Advertisement

More Related Content

Viewers also liked (20)

Advertisement

Webdbf2012

  1. 1. 第5回Webとデータベースに関するフォーラム (WebDBForum2012) 11/20,21 @秋葉原ダイビル デンドログラムを用いた 震災時におけるMention・Hashtag ツイートの利用傾向分析 静岡県立大学大学院 小出明弘
  2. 2. 東日本大震災 2011年3月11日14:46:18発生,観測史上最大 • 情報インフラに甚大な被害  通信,交通の断絶 • 広域的かつ甚大な被害  情報伝達の空白地域発生 マスメディアの限界 「情報空白化」を最小限にする多くの取り組み 出典:平成 23 年版 情報通信白書
  3. 3. 代表的取り組み • 企業エンジニアによる支援システム  Google:パーソンファインダー,ライフラインマップ  OSMFJ:shinsai.info(復興支援プラットフォーム) 震災時におけるICTの利用 • 国民が情報の発信主体  ソーシャルメディアの利用(Twitter,Facebookなど)  素早い情報の拡散・情報共有 新たなメディアとしての期待
  4. 4. ソーシャルメディアにおける課題 • デマ情報の拡散  ツイートが真偽不明なまま拡散  ユーザが混乱  「有害物質の雨」,「イソジンによるヨウ素剤代用」 ヨウ素剤を持っていない人は イソジンで代用できます。 即座に大量の ユーザに伝達
  5. 5. ソーシャルメディアにおける課題 タイムラインの A B 埋め尽くし ユーザA:ヨウ素剤を持っていない人は… C ユーザB:ヨウ素剤を持っていない人は… ユーザC:ヨウ素剤を持っていない人は… ユーザD:ヨウ素剤を持っていない人は… D ユーザE:山手線が復旧したらしい… ユーザF:ヨウ素剤を持っていない人は… E ・・・ F • 情報の乱発  同じような内容を投稿し続ける  ユーザのタイムラインが埋まる  情報の獲得が困難
  6. 6. モチベーション • ソーシャルメディアでは何が起きていたのか  震災による投稿スタイルの変化  ユーザが注目した話題は?ユーザは? • 災害時のユーザ行動モデリング  何が大きく変化し,問題点となるのはどこか把握  非常時における情報伝達,共有の効率化
  7. 7. 本稿の概要 • Twitter上での震災の影響を実証的分析  代表的なツイート機能に着目  Hashtagツイート,Mentionツイート  震災前後での利用傾向の変化をマクロに分析  期間内の注目Hashtag,被Mentionユーザを対象 • 得られた知見  Hashtagツイートの利用傾向→変化小  Mentionツイートの利用傾向→変化大
  8. 8. Hashtagの定義と性質 • 使用法  ツイート内に”#キーワード”で明記  本稿データではキーワードは英数字のみ
  9. 9. Hashtagの定義と性質 今日はWebDB.#WebDBf2012 今日はWebDB. WebDB参加します#WebDBf2012 #WebDBf2012 WebDB楽しみ#WebDBf2012 ・・・ WebDB楽しみ #WebDBf2012 検索“#WebDBf2012” WebDB参加します #WebDBf2012 • 発言の共有  同じハッシュタグを付けたツイートをグループ化 検索することでツイートをまとめて閲覧
  10. 10. Mentionの定義と性質 • 使用法  ツイート内に”@user名”で明記
  11. 11. Mentionの性質と定義 UserA 今日はWebDB 今日はFIT2012 です. UserA です. UserB 閲覧 RT@UserA:今日 はWebDBです. 閲覧 閲覧 @UserA 楽しみ ですね! UserC UserD UserB • 使用法  他ユーザのツイートへの言及  他ユーザのツイートをフォロワーへ伝達  フォローユーザとの相互のやりとり
  12. 12. 使用データ • Twitterツイートデータ  2011年3月7日~2011年3月15日の9日間 3月11日12:00:00で分割→震災前,震災後データ アクティブユーザ数:4,183,194人 • HashtagツイートとMentionツイート(全期間)  総Hashtag数:15,946,498  一度でも使われたHashtag数:562,229  総Mention数:120,183,231
  13. 13. アプローチ • 利用傾向の変化を表すもの 注目されたHashtag,被Mentionユーザの変化 Hashtag間,被Mentionユーザ間の類似関係 • マクロな分析  類似関係を簡易的に表現  注目されたHashtag間,ユーザ間の関係把握 • 多面的評価  ユーザのツイート傾向を表す2つの特徴  ツイートしたタイミング  ツイートしたユーザの集合
  14. 14. ツイートタイミング • Hashtag,Mentionがツイートされた時間に基づく Mention 𝑖 3/11/14:50:10 Tweet 3/11/16:30:00 3/11/17:10:20 Time ・ ・ ・ • 1時間単位でのツイート数を特徴量に  震災前後でそれぞれ108次元のベクトル 𝑖 𝒂 𝑖 = [𝑎 𝑖,1 , … , 𝑎 𝑖,108 ]
  15. 15. ツイートユーザ集合 • Hashtag,Mentionツイートしたユーザ集合 Mention 低類似 高類似 同一ユーザによる複数ツイート 自分へのツイートは考慮しない 2 3 5 2 3 ・・・・・・・・・・・・・・・・・・・・・・・ • ユーザ集合を特徴量に 𝑀 = 4,183,194  4,183,194次元のベクトル 𝑖 𝒃 𝑖 = [𝑏 𝑖,1 , … , 𝑏 𝑖,𝑀 ]
  16. 16. 類似度の算出 • ツイートタイミング行列𝑨 • ツイートユーザ行列𝑩 𝑨 = [𝒂1 ⋯ 𝒂 𝑁 ] 𝑇 𝑩 = [𝒃1 ⋯ 𝒃 𝑁 ] 𝑇 𝑁 =Hashtag数,アクティブユーザ数 • 任意のユーザ,Hashtag ,𝑖と𝑗の類似度𝜌  類似度にはコサイン類似度 ツイートタイミングの場合 ツイートユーザの場合 108 𝑎 𝑖,𝑛 ∙𝑎 𝑗,𝑛 𝑀 𝑏 𝑖,𝑚 ∙𝑏 𝑗,𝑚 𝑛=1 𝑚=1 𝜌 𝑖, 𝑗 = 𝜌 𝑖, 𝑗 = 108 𝑛=1 𝑎2 ∙ 𝑖,𝑛 108 𝑛=1 𝑎2 𝑗,𝑛 𝑀 𝑚=1 𝑏2 ∙ 𝑖,𝑚 𝑀 𝑚=1 𝑏2 𝑗,𝑚
  17. 17. 距離の算出と最小全域木 • ユーザ,Hashtag間の類似度を距離に変換  𝑆 × 𝑆の距離行列𝐷を作成 𝑑 𝑖, 𝑗 = (1 − 𝜌 𝑖, 𝑗 ) S:注目Hashtag,ユーザ数 • 距離に基づいてエッジを張る  重み付き完全グラフ𝐺 𝑐 = (𝑉, 𝐸)を構築 𝐺𝑐 • 𝐺 𝑐 から最小全域木𝑇を作成  クラスカル法を使用[Kruskal56]
  18. 18. デンドログラム可視化 • 最小全域木によりユーザの 類似関係を簡易的に表現 • 類似関係をより明らかに 類似度:低 • 階層クラスタリングで用いら れるデンドログラムを使用 ※階層クラスタリングにおける最短距離法 類似度:高
  19. 19. 実験 • 基本分析 震災前後でのツイート数変化 全Hashtagツイート,Mentionツイート対象 • デンドログラム可視化 対象  最もツイートされたHashtag上位1000件  最もMentionツイートされたユーザ上位1000件 注目Hashtag,ユーザの変化を分析
  20. 20. 1時間後毎のツイート数分布 • 震災時にMentionツイート数が急激に増加 • 震災により周期性が崩れる
  21. 21. ツイート数分布 Hashtagツイート Mentionツイート • Hashtagツイートはそれほど変化なし • Mentionツイートは裾の広い分布に
  22. 22. 注目の変化 • 震災前後での上位1000Hashtag,ユーザ集合の変化 震災前上位1000Hashtag,ユーザ集合 𝑋 = {𝑥1 , … , 𝑥1000 } 震災後上位1000Hashtag,ユーザ集合 𝑌 = {𝑦1 , … , 𝑦1000 } |𝑋∩𝑌| • 集合間のJaccard係数を算出 𝐽 𝑋, 𝑌 = |𝑋∪𝑌| Hashtag Mention Jaccard係数 0.291 0.095 • 震災の影響を受け注目Hashtag,ユーザが変化
  23. 23. Hashtag:ツイートタイミング 震災前 震災後 1.0 Top1-333 Top334-666 0.75 Top667-1000 Distance 0.5 0.25 0
  24. 24. Hashtag:ツイートタイミング 震災前 震災後 1.0 Top1-333 Top334-666 0.75 Top667-1000 Distance 0.5 2つのノードの組がきわめて類似 そのほかとはそれほど類似しない 0.25 “#hanshin”と”tigers” “ameba”と”ameblo”など 0
  25. 25. Hashtag:ツイートタイミング 震災前 震災後 1.0 Top1-333 Top334-666 0.75 Top667-1000 Distance 0.5 0.25 0 • 極めて類似したノード集合(“eigo”,”travel”,”art”など) • Botや企業アカウント→震災直後は自粛傾向
  26. 26. Hashtag:ツイートユーザ 震災前 震災後 1.0 0.75 Distance 0.5 0.25 0 • 全体的に距離が遠くなる  ツイートタイミングに比べ非常に高次元
  27. 27. Hashtag:ツイートユーザ 震災前 震災後 1.0 0.75 Distance 0.5 0.25 0 • 全体的な傾向に大きな差はない  Hashtag自体は震災前後で大きく入れ替わり
  28. 28. Mention:ツイートタイミング 震災前 震災後 1.0 Top1-333 Top334-666 0.75 Top667-1000 Distance 0.5 0.25 0
  29. 29. Mention:ツイートタイミング 震災前 震災後 1.0 Top1-333 Top334-666 0.75 Top667-1000 Distance 0.5 0.25 0 • 複数の類似したノード集合  短い時間幅で注目ユーザが次々変化
  30. 30. Mention:ツイートユーザ 震災前 震災後 1.0 0.75 Distance 0.5 0.25 Top1-333 Top334-666 Top667-1000 0
  31. 31. Mention:ツイートユーザ 震災前 震災後 1.0 0.75 Distance 0.5 0.25 Top1-333 Top334-666 Top667-1000 0 • 震災前:複数の類似したノード集合  ユーザごとの興味に応じたツイート
  32. 32. Mention:ツイートユーザ 震災前 震災後 1.0 0.75 Distance 0.5 0.25 Top1-333 Top334-666 Top667-1000 0 • 震災後:ノードが直線に近い状態で配置  話題が震災関連→ユーザの言動の類似
  33. 33. 考察:Mentionツイート変化 • ツイートタイミング 震災後:短い時間幅で注目ユーザ変化 • ツイートユーザ 震災後:ユーザ言動の類似 • Mentionツイートの特徴 「返信」…親しいユーザ間でのやり取り,著名人へ の一方的なもの(Reply機能) 「引用」…有用なツイートや多くのユーザに伝えた い情報を拡散(Retweet機能)
  34. 34. ReplyとRetweetの変化 • MentionからReplyとRetweet抽出 • 震災前:ReplyとRetweetは約10倍の開き • 震災後:ReplyとRetweetはほぼ同量に
  35. 35. ユーザ毎の平均ツイート数 • 注目ユーザに対する各ユーザの平均Mention数 • 震災前:Mentionツイートの頻繁な繰り返し • 震災後:ほとんど繰り返されない
  36. 36. ユーザの利用傾向の変化 • Hashtag 注目Hashtagは大きく変化 使われ方に顕著な変化は見られない • Mention 震災前は「返信」型のツイート 震災後は「引用」型に遷移 message message message 震災
  37. 37. 最小全域木の採用理由 最小全域木 群平均法 1.0 0.75 Distance 0.5 0.25 0 • ツイートタイミングをランダム化 最小全域木と群平均法で比較
  38. 38. 最小全域木の採用理由 最小全域木 群平均法 1.0 0.75 Distance 0.5 0.25 0 • 群平均法:分類感度がよく細かいクラスタ形成 データの特性と不一致
  39. 39. まとめ • 震災前後でのTwitter利用傾向変化 Hashtag,Mentionツイートに着目 ツイート傾向の変化をマクロに分析 • 得られた結果 Hashtagには顕著な傾向の変化は見られない Mentionには顕著な傾向の変化 • 詳細な分析 Mentionは返信型から引用型へ遷移 最小全域木の妥当性を確認
  40. 40. 今後の課題・展開 本稿:マクロな視点での分析 ミクロな視点での分析 • ツイート内容, ネットワーク構造などを考慮 利用傾向の変化をモデリング • 問題点,ボトルネックの把握,改善策検討 • ソーシャルメディアを有効活用するための条件把握
  41. 41. 関連活動 • 東日本大震災ビックデータワークショップ  Google,TwitterJapanを中心としたプロジェクト  震災時データの分析  次の災害に向けた知識発見,サービスの開発 • 異種協調型災害常用支援システム実現に向 けた基盤技術の構築(CHIDRI)  情報系研究者が災害時に貢献するための準備  災害時,即座にサービスリリースする体制づくり  研究のための情報共有体制の検討

×