The bursty dynamics of the twitter information network

539 views

Published on

Published in: Social Media
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
539
On SlideShare
0
From Embeds
0
Number of Embeds
34
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

The bursty dynamics of the twitter information network

  1. 1. The Bursty Dynamics of the Twitter Information Network D1 臼井翔平 第一回とりらぼ輪読会 2014/5/31 Seth Myers Jure Leskovec Stanford University
  2. 2. Abstruct • Tweet,Retweet burstがネットワーク構造を 変える事がある このネットワーク構造の変化はどんなものか ネットワークの変化を起こすバーストはどんなも のか • Retweetが引き起こすネットワーク構造変化 をモデル化
  3. 3. Background • ネットワークのダイナミクスは理解されていな い リンクの生成と削除 • 2つのダイナミクスに着目 情報共有のダイナミクス ネットワークの進化
  4. 4. 目的 • 情報共有がネットワーク構造の変化をもたら すか • ネットワーク上での情報拡散の理解 burstの分析
  5. 5. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  6. 6. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  7. 7. Twitterのダイナミクス • Followリンクの追加と削除 • 2011年11月のfollowerネットワークを収集 13,100,000ノード 1,700,000,000リンク • 112,300,000リンクの追加(7%) • 39,200,000リンクの削除(2.3%)
  8. 8. Twitterのダイナミクス • 9%のリンクが変化している • 3リンク追加される毎に1リンク削除 高いダイナミクス 成長するだけのネットワークではない
  9. 9. Twitterの情報共有 • 1,200,000,000ツイート • 116,300,000リツイート • TweetとRetweetがfollowerネットワークに影 響を与える?
  10. 10. 入次数との関係 入次数との関係がある
  11. 11. Retweetとnew Follow • 入次数1000から2000のノード Retweetが多い程new followerが多い
  12. 12. Tweet数とfollowの削除 • 入次数1000から2000のノード tweetが多すぎるとfollowが減る
  13. 13. ユーザアクティビティとfollow • 入次数が多いノードに関して関係あり? Retweetとfollow Tweetとunfollow • 本当に関係があるかはわからない 時系列でみてみる
  14. 14. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 266,842) Retweetが増加した後followが増加
  15. 15. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 218,045) Retweetが増加してもfollowは増加しない
  16. 16. 時系列での比較 • ユーザA(𝑑𝑖𝑛 = 112,988) Retweetがなくてもfollowは増減
  17. 17. 時系列での比較 • Retweetが増加した後にfollowが増加する事 がある • Retweetが増加した後常にfollowが増加する わけではない • Retweetがなくてもfollowの増減はある どんなRetweetがfollowは増加につながる? 変化後のネットワークの構造は?
  18. 18. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  19. 19. ノードのego-network • あるノードをfollowしているノードのネットワー ク • Follow(Unfollow)バーストの前後でego- networkが変化する?
  20. 20. Tweet similarity • 2ノード間のtweet similarityをTF-IDFで定義 • 𝑡𝑓𝑖𝑑𝑓 = 𝑡𝑓 ∙ 𝑖𝑑𝑓 𝑡𝑓:単語の出現頻度 𝑖𝑑𝑓:逆文書頻度
  21. 21. Follower Tweet Similarity • Tweet元ノードとfollowerのtweet similarity Tweet-unfollow retweet-follow
  22. 22. Follower Tweet Coherence • Tweet元ノードのfollower間のtweet similarity Tweet-unfollow retweet-follow
  23. 23. ノード間類似度 • Follow, unfollow burst発生後 Retweet及びtweet元とfollowユーザの類似度が 増加 Followユーザ間の類似度も増加 Ego-network全体の類似度が増加
  24. 24. Weakly connected components • Ego-networkのコンポーネントの比 Tweet-unfollow retweet-follow
  25. 25. Edge density • Ego-networkのリンク密度 Tweet-unfollow retweet-follow
  26. 26. ネットワークの性質 • Follow, unfollow burst発生後 • コンポーネント数の増加 新しいコミュニティからの参入が予想される • リンク密度の増加 Followerがお互いにfollowし合う これが類似度の上昇になっている
  27. 27. Follow burstを引き起こすtweet • どのような場合にfollow burstが起きる? • トークン:10回以上使われた単語 • 全てのトークンがretweet burstに含まれるが ,全てがfollow burstを引き起こしてない • あるトークン𝑡𝑜𝑘𝑖がfollow burstを引き起こす 確率
  28. 28. 事例 • “Occupy Wall Street” movement 収入不平等に対する活動 • 少なくとも16個のトークンが 活動に関わっている
  29. 29. 事例 • “officer”を含むtweetはかなり followバーストをおこしやすい • Followバーストを起こしやすい tokenが存在する
  30. 30. Present work • Information causes bursts in network evolution • Bursts of edge creations and deletions • Modeling and predicting bursts
  31. 31. Followバーストのモデリング • Retweet burstの元tweetからfollow burstが 起きるかどうかを予測する • 2-hop neighborhoodだけを考える Followの追加先の平均パス長は2.036
  32. 32. followバーストのアイディア • より興味の近いノードを発見する事で起きる Follow burst後に類似度が上がる • 普段retweetしないノードがretweetすると発 生 普段目に届かない
  33. 33. Tweet similarityのモデル化 • いくつかのユーザのtweet similarityの分布 おおむね正規分布
  34. 34. Tweet similarityのモデル化 • 𝑌𝑖𝑗:iのfollowerの類似度の平均と比べたjの 類似度 • 𝑆 𝑖, 𝑗 :iとjの類似度
  35. 35. Follow確率 • 𝑃𝑗,𝑖 = 𝑃 𝑗 𝑓𝑜𝑙𝑙𝑜𝑤 𝑖 𝑌𝑖𝑗) ≡ 𝐶 ∙ exp 𝛼 ∙ 𝑌𝑖𝑗 = 𝐶 ∙ exp 𝛼 𝜎𝑖 ∙ 𝑙𝑛 𝑆 𝑖, 𝑗 − 𝜇𝑖 = 𝐶 ∙ exp(𝑙𝑛 𝑆 𝑖, 𝑗 ) exp(𝜇𝑖) 𝛼 𝜎 𝑗 = 𝐶 ∙ 𝑆(𝑖, 𝑗) exp(𝜇𝑖) 𝛼 𝜎 𝑗
  36. 36. Cと𝛼の最適化 • 実データとフィッティング
  37. 37. Follow burstの確率 • 新規followの期待値: 𝑗∈𝑁2(𝑖) 𝑃𝑗,𝑖 • Follow burstはそれまで知らなかったノードを retweetによって知る 𝑁 𝑅𝑇(𝑖, [𝑡, 𝑡 + ∆𝑡)):区間[𝑡, 𝑡 + ∆𝑡)の間にfollowし ている誰かがiのtweetをretweetしたノード集合
  38. 38. 実験 • Retweetバーストデータ:400,000 内21%がfollowバースト • followバースト確率を使ってランク付け • Precision-recall曲線のAUCで評価
  39. 39. 結果 既存手法より優れている
  40. 40. まとめ • Retweetとfollowの関係を分析 retweetバーストが起こると,followバーストが起 こる事がある • Followバースト後のネットワークの特性を分 析 Followバースト後にはユーザの類似度が増加 • Followバーストのモデル化 Retweetからfollowバーストの発生を高精度で推 定
  41. 41. 意見 • Follow burstを起こしやすいtokenがある うん・・・ どういうtokenがburstしやすいっていうのは言え るんだろうか・・・ってか言ってどうするんだろう・・ • このモデルは一体何につかうんだろうか・・・ Retweetに対して広がった結果を使ってるから予 測は無理 シミュレーションとかに使うってことなのかなぁ..

×