Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

The bursty dynamics of the twitter information network

602 views

Published on

Published in: Social Media
  • Be the first to comment

The bursty dynamics of the twitter information network

  1. 1. The Bursty Dynamics of the Twitter Information Network D1 臼井翔平 第一回とりらぼ輪読会 2014/5/31 Seth Myers Jure Leskovec Stanford University
  2. 2. Abstruct • Tweet,Retweet burstがネットワーク構造を 変える事がある このネットワーク構造の変化はどんなものか ネットワークの変化を起こすバーストはどんなも のか • Retweetが引き起こすネットワーク構造変化 をモデル化
  3. 3. Background • ネットワークのダイナミクスは理解されていな い リンクの生成と削除 • 2つのダイナミクスに着目 情報共有のダイナミクス ネットワークの進化
  4. 4. 目的 • 情報共有がネットワーク構造の変化をもたら すか • ネットワーク上での情報拡散の理解 burstの分析
  5. 5. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  6. 6. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  7. 7. Twitterのダイナミクス • Followリンクの追加と削除 • 2011年11月のfollowerネットワークを収集 13,100,000ノード 1,700,000,000リンク • 112,300,000リンクの追加(7%) • 39,200,000リンクの削除(2.3%)
  8. 8. Twitterのダイナミクス • 9%のリンクが変化している • 3リンク追加される毎に1リンク削除 高いダイナミクス 成長するだけのネットワークではない
  9. 9. Twitterの情報共有 • 1,200,000,000ツイート • 116,300,000リツイート • TweetとRetweetがfollowerネットワークに影 響を与える?
  10. 10. 入次数との関係 入次数との関係がある
  11. 11. Retweetとnew Follow • 入次数1000から2000のノード Retweetが多い程new followerが多い
  12. 12. Tweet数とfollowの削除 • 入次数1000から2000のノード tweetが多すぎるとfollowが減る
  13. 13. ユーザアクティビティとfollow • 入次数が多いノードに関して関係あり? Retweetとfollow Tweetとunfollow • 本当に関係があるかはわからない 時系列でみてみる
  14. 14. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 266,842) Retweetが増加した後followが増加
  15. 15. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 218,045) Retweetが増加してもfollowは増加しない
  16. 16. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 112,988) Retweetがなくてもfollowは増減
  17. 17. 時系列での比較 • Retweetが増加した後にfollowが増加する事 がある • Retweetが増加した後常にfollowが増加する わけではない • Retweetがなくてもfollowの増減はある どんなRetweetがfollowは増加につながる? 変化後のネットワークの構造は?
  18. 18. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  19. 19. ノードのego-network • あるノードをfollowしているノードのネットワー ク • Follow(Unfollow)バーストの前後でego- networkが変化する?
  20. 20. Tweet similarity • 2ノード間のtweet similarityをTF-IDFで定義 • 𝑡𝑓𝑖𝑑𝑓 = 𝑡𝑓 ∙ 𝑖𝑑𝑓 𝑡𝑓:単語の出現頻度 𝑖𝑑𝑓:逆文書頻度
  21. 21. Follower Tweet Similarity • Tweet元ノードとfollowerのtweet similarity Tweet-unfollow retweet-follow
  22. 22. Follower Tweet Coherence • Tweet元ノードのfollower間のtweet similarity Tweet-unfollow retweet-follow
  23. 23. ノード間類似度 • Follow, unfollow burst発生後 Retweet及びtweet元とfollowユーザの類似度が 増加 Followユーザ間の類似度も増加 Ego-network全体の類似度が増加
  24. 24. Weakly connected components • Ego-networkのコンポーネントの比 Tweet-unfollow retweet-follow
  25. 25. Edge density • Ego-networkのリンク密度 Tweet-unfollow retweet-follow
  26. 26. ネットワークの性質 • Follow, unfollow burst発生後 • コンポーネント数の増加 新しいコミュニティからの参入が予想される • リンク密度の増加 Followerがお互いにfollowし合う これが類似度の上昇になっている
  27. 27. Follow burstを引き起こすtweet • どのような場合にfollow burstが起きる? • トークン:10回以上使われた単語 • 全てのトークンがretweet burstに含まれるが ,全てがfollow burstを引き起こしてない • あるトークン𝑡𝑜𝑘𝑖がfollow burstを引き起こす 確率
  28. 28. 事例 • “Occupy Wall Street” movement 収入不平等に対する活動 • 少なくとも16個のトークンが 活動に関わっている
  29. 29. 事例 • “officer”を含むtweetはかなり followバーストをおこしやすい • Followバーストを起こしやすい tokenが存在する
  30. 30. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  31. 31. Followバーストのモデリング • Retweet burstの元tweetからfollow burstが 起きるかどうかを予測する • 2-hop neighborhoodだけを考える Followの追加先の平均パス長は2.036
  32. 32. followバーストのアイディア • より興味の近いノードを発見する事で起きる Follow burst後に類似度が上がる • 普段retweetしないノードがretweetすると発 生 普段目に届かない
  33. 33. Tweet similarityのモデル化 • いくつかのユーザのtweet similarityの分布 おおむね正規分布
  34. 34. Tweet similarityのモデル化 • 𝑌𝑖𝑗:iのfollowerの類似度の平均と比べたjの 類似度 • 𝑆 𝑖, 𝑗 :iとjの類似度
  35. 35. Follow確率 • 𝑃𝑗,𝑖 = 𝑃 𝑗 𝑓𝑜𝑙𝑙𝑜𝑤 𝑖 𝑌𝑖𝑗) ≡ 𝐶 ∙ exp 𝛼 ∙ 𝑌𝑖𝑗 = 𝐶 ∙ exp 𝛼 𝜎𝑖 ∙ 𝑙𝑛 𝑆 𝑖, 𝑗 − 𝜇𝑖 = 𝐶 ∙ exp(𝑙𝑛 𝑆 𝑖, 𝑗 ) exp(𝜇𝑖) 𝛼 𝜎 𝑗 = 𝐶 ∙ 𝑆(𝑖, 𝑗) exp(𝜇𝑖) 𝛼 𝜎 𝑗
  36. 36. Cと𝛼の最適化 • 実データとフィッティング
  37. 37. Follow burstの確率 • 新規followの期待値: 𝑗∈𝑁2(𝑖) 𝑃𝑗,𝑖 • Follow burstはそれまで知らなかったノードを retweetによって知る 𝑁 𝑅𝑇(𝑖, [𝑡, 𝑡 + ∆𝑡)):区間[𝑡, 𝑡 + ∆𝑡)の間にfollowし ている誰かがiのtweetをretweetしたノード集合
  38. 38. 実験 • Retweetバーストデータ:400,000 内21%がfollowバースト • followバースト確率を使ってランク付け • Precision-recall曲線のAUCで評価
  39. 39. 結果 既存手法より優れている
  40. 40. まとめ • Retweetとfollowの関係を分析 retweetバーストが起こると,followバーストが起 こる事がある • Followバースト後のネットワークの特性を分 析 Followバースト後にはユーザの類似度が増加 • Followバーストのモデル化 Retweetからfollowバーストの発生を高精度で推 定
  41. 41. 意見 • Follow burstを起こしやすいtokenがある うん・・・ どういうtokenがburstしやすいっていうのは言え るんだろうか・・・ってか言ってどうするんだろう・・ • このモデルは一体何につかうんだろうか・・・ Retweetに対して広がった結果を使ってるから予 測は無理 シミュレーションとかに使うってことなのかなぁ..

×