SlideShare a Scribd company logo
1 of 47
Information Network or Social Network?
The Structure of the Twitter Follow Graph
Seth A. Myers, Aneesh Sharma, Pankaj Gupta, and Jimmy Lin
Twitter, Inc.
東京大学大学院工学系研究科システム創成学専攻
大橋・鳥海研
福井 思佳
2014/5/31 とりらぼ輪読会
1
目標
• Twitterフォロー・グラフのトポロジー的解析から、
• Twitterはソーシャル・ネットワークなのか、あるい
は情報ネットワークなのか?という疑問に答える
2
定義
• ソーシャル・ネットワーク
• 次数相関 degree assortativity :高
• 最短経路長 shortest path length :短
• 連結成分 connected components :大
• クラスタ係数 clustering coefficients :大
• 相互性 reciprocity :高
• 情報ネットワーク
• 次数 vertex degrees :高
• 相互性:低
• 2ホップで連結しているノード数 two-hop neighborhoods:多
3
使用データ
• Twitterフォロー・グラフ全データ(2012年後半)
• アクティブ・ユーザ数:175,000,000
• 有向リンク数:20,000,000,000
• 双方向リンク:42% →無向リンク:4bl.
• 単方向リンク:58%
• 国別データ
• ブラジル
• 日本
• アメリカ
4
比較対象
• Facebook
• ノード数:721,000,000
• 無向リンク数:68,700,000,000
• MSNメッセンジャー
• ノード数:180,000,000
• 無向リンク数:1,300,000,000
5
分析項目
1. 次数分布 degree distributions
2. 連結成分 connected components
3. 最短経路長 shortest path lengths
4. クラスタ係数 clustering coefficient
5. 2ホップで連結しているノード数 two-hop neighborhoods
6. 次数相関 degree assortativity
6
1. 次数分布
• 【定義】
• Inbound degree (in-degree):フォロワー数
• Outbound degree (out-degree) :フォローイング数
• 【分析対象】
• 全ノード/国別ノードそれぞれに対して
• In-degree distribution
• Out-degree distribution
• Mutual degree distribution
7
8
・べき分布
・ヘビーテール
(Out-degreeより
もヘビー)
9
次数分布に関する考察
• Out-degreeの方が上限が高い:直感に反する
• ∵フォロワーをフォローし返す著名人の存在
• “non-social”な特徴:社会的関係を維持可能な上限
150[1]
10
・Out-degree2000
にピーク
11
次数分布に関する考察
• Out-degreeの方が上限が高い:直感に反する
• ∵フォロワーをフォローし返す著名人の存在
• “non-social”な特徴:社会的関係を維持可能な上限
150[1]
• Out-degree2,000にピーク:スパム防止
• 2,200フォロワー未満のアカウントへの上限数
12
高次数多い
国別は
いずれも
全体と似た
特徴
13
次数分布に関する考察
• Out-degreeの方が上限が高い:直感に反する
• ∵フォロワーをフォローし返す著名人の存在
• “non-social”な特徴:社会的関係を維持可能な上限
150[1]
• Out-degree2,000にピーク:スパム防止
• 2,200フォロワー未満のアカウントへの上限数
• Mutualはin-degree, out-degreeに比べると小さいも
のの高次数
• 国別の特徴は全体とほとんど変わらない
14
15
統計的な考察
• フィッティング:
• In-degree, Mutual degree:べき分布
• Out-degree:対数正規分布
• Out-degreeと他を比較:
• パーセンタイルごとの次数:高
• 最大次数:小
• →典型的なユーザのフォローイング数 > フォロ
ワー数
16
Social graph or Info graph?
--次数分布から
• ソーシャル・グラフの特徴からは外れる
• Out-degree大きすぎる
• →個人が維持可能な社会的関係数を超えている
17
2. 連結成分
• 【定義】
• 強連結 strongly connected graph
• :有向グラフにおいて、相異なる全ての頂点間に
経路が存在
• 弱連結 weakly connected graph:強連結でない
18
19
連結成分に関する考察
• 最大成分に含まれるユーザの割合:
• 弱連結:92.9%
• 最大成分以外の成分はほとんどがただ1つのノードか
ら構成
• それらを除くと99.94%が最大成分に含まれる
• 強連結:68.7%
• 他のソーシャル・メディア(99%)より少ない
• 30%以上のユーザは1つも双方向リンクを持たない
• →情報発信/受信一方に特化
20
Social graph or Info graph?
--連結成分から
• ソーシャル・グラフの特徴からは外れる
• リンクの双方向性が低すぎる
21
3. 最短経路長
• 【計算手法】
• 2ノード間に考えられる経路数:N(N-1)=2.6*1020
• 双方向でも7.3*1015
• 計算量大きすぎるため近似解
• Hyper ANF algorithm[2]
• HyperLogLog counter[3](cardinality estimation algo)で種類
の数を推定
• The number of shortest paths of length n through which a
user is connected can be approximated as the change in her
neighborhood size after the nth jump.
• (N回目のジャンプ後の、リンク数の変化として、経路長nの
数を推定する)
22
23
24
平均経路長に関する考察(1/3)
• 平均経路長:
• 双方向グラフ:4.17
• 有向グラフ:4.05
• 他のソーシャル・ネットワークとの比較:
• MSNメッセンジャー:6.6
• Facebook:4.74
• FBの方が 平均次数:高、分岐因子:大 にもかかわらず、
最短経路長の方はTwitterの方が短い
• →ソーシャル・ネットワークはリンク数が大きくなるほど平
均経路長が小さくなる、という先行研究[5]と反する
25
平均経路長に関する考察(2/3)
• 国別の特徴:
• 全体の特徴から大きく外れない中で、
• ブラジルの平均経路長:短
• アメリカの平均経路長:長
• →先行研究と矛盾するというよりは、connectivity
(連結性、人間関係を指す?) の違いでは
26
平均経路長に関する考察(3/3)
• Spid:
• Spid = 平均経路長分布の分散/分布の平均値
• ソーシャル・ネットワーク:spid < 1
• ウェブ・グラフ:spid > 1
• 双方向グラフのspid:0.115
• 有向グラフのspid:0.108
• →ソーシャル・ネットワークの特徴を持つ
• FBのspid:0.09より大
• →Twitterの方が分布がやや大きい
27
Social graph or Info graph?
--平均経路長から
• ソーシャル・グラフの特徴を示す
• 平均経路長、spidいずれも満たす
28
4. クラスタ係数
• ソーシャル・ネットワークの特徴:クラスタ係数高
29
次数が高くなる
→クラスタ係数小さくなる
30
クラスタ係数に関する考察(1/2)
• 次数が高くなるとクラスタ係数が小さくなる
• 他のソーシャル・ネットワークとの比較:
• クラスタ係数はFacebookより小さい
• MSNメッセンジャーより大きい
• K=5: MSN*1.5=Twitter
• K-20: MSN*1.9=Twitter
/次数 5 20 100
Twitter (mutual) 0.4 0.3 0.14
Facebook 0.23 0.19 0.14
31
日本のみ異なる特徴
32
クラスタ係数に関する考察(2/2)
• 日本の特異性:
• クラスタ係数:高
• 双方向性:高
• →双方向グラフはノード数に対してリンク数多
• 次数200-1000の範囲にピーク
• →高次数・高クラスタ係数のユーザらによる”cliques”
33
Social graph or Info graph?
--クラスタ係数から
• ソーシャル・グラフの特徴を示す
• 高いクラスタ係数を持つ
34
5. 2ホップで連結しているノード数
• 2ホップで連結しているノード:新規リンク予測[6]
• 【定義】
• Inbound two-hop:ノードのフォロワーのフォロワー
• このユーザから情報を受け取るポテンシャルを持つ
• Outbound two-hop:ノードのフォローイングのフォロー
イング
• このユーザに情報を伝えるポテンシャルを持つ
• Non-unique two-hop neighborhoods:ユーザのフォロ
ワーのinbound degreesの和
• Unique two-hop neighborhoods
35
36
2ホップで連結しているノード数に関する考察
• 次数3000以下では、 2ホップで連結しているノード数は
次数の2乗を上回る
• →情報収集/伝播いずれにも効率的
• 次数100以下では、uniqueとnon-uniqueが同様の挙動
• ユーザ数が少ないうちは、新規two-hop neighborhoodsのほ
とんどがunique
• Facebookとの比較:
• 友達100人のユーザ:平均27,500人の友達の友達
• フォロワー数100人のユーザ : Unique inbound two-hop
neighborhoods:497,000
• フォローイング数100人のユーザ : Unique outbound two-hop
neighborhoods:367,000
• →次数の2乗より多いが、Twitterより少ない
37
Social graph or Info graph?
--2ホップで連結しているノードから
• 情報ネットワークとして効率的な構造
• 情報収集/伝播を拡散
38
6. 次数相関
• ソーシャル・ネットワークと他の大規模ネットワーク
を区別する最大の指標[4]
• ソーシャルネットワーク:0.1 - 0.4
• Facebook:0.226
• 【定義】
39
次数相関に関する考察(1/2)
• SOD – DOD : 0.272
• “自分のフォローイング数が多いほど、フォローイング
のフォローイング数も増加する”
• Social userが他のsocial userを刺激
• →ソーシャル・ネットワークの相互性を示す
• SID – DOD : 0.241
• “自分のフォロワー数が多いほど、フォローイングのフォ
ローイング数も増加する”
• 有名になるほど他のユーザをソーシャルにする
• →social network theoryと一致
40
次数相関に関する考察(2/2)
• SOD – DID : -0.118
• “自分のフォローイング数が多いほど、フォローイング
のフォロワー数は減少する”
• Since the fact that the edge is present increases both
the SOD and the DID by one, (SOD, DID個別で見るとい
ずれも増加しているので?) 正の相関となるはずで、予
想外の結果
• SID – DID : -0.296
• “自分のフォロワー数が多いほど、フォローイングのフォ
ロワー数は減少する”
• 先行研究[7,8]と合致しない
41
Social graph or Info graph?
--次数相関から
• ソーシャル・グラフの特徴を示す部分とそうでない
部分がみられる
• 矛盾する、直感に反する結果
42
考察(1/3)
• 個別のユーザにとって、Twitterは
• 情報ネットワークからスタート
• 有名なユーザをフォロー:preferential attachment
• →徐々にソーシャル・ネットワークとしての要素強まる
• 有名かどうか以外の基準でフォロー
• 所属コミュニティを発見(現実のつながり、共通の興味など)
• →リンクが追加された順序を考慮した分析へ
43
考察(2/3)
• 利用時間が増えるにつれフォロワー数は増加
• 新規ユーザと古参ユーザが混在
new
experienced
44
考察(3/3)
• 次数相関への説明
• SID – DOD, SOD – DODの正の相関 :
• 利用時間が増えるにつれフォローイング数は増加
• Figure7 (b)より
• SOD – DIDの負の相関 :
• フォロー数の多いユーザは、フォローイング数の
少ないユーザをフォローする傾向
• Figure7 (c)より
• →著名人よりも社会的つながりを優先
45
今後の展望、結論
• Twitterはソーシャル・グラフの特徴を示す部分とそ
うでない部分がみられる
• Twitterにおける行動に2つの流れがあるのでは?
• ①情報収集
• ②双方向的な社会的つながり
• ソーシャル・ネットワークなのか、あるいは情報ネッ
トワークなのか、特徴を精査
• 直感的には、ユーザの混在が要因か?
46
参考文献
• [1] R. Dunbar. Neocortex size as a constraint on group size in primates.
Journal of Human Evolution, 1992.
• [2] P. Boldi, M. Rosa, S. Vigna. HyperANF: approximating the
neighborhood function of very large graphs on a budget. WWW 2011.
• [3] P. Flajolet, C. Fusy, O. Gandouet, and F. Meunier. HyperLogLog: the
analysis of a near-optimal cardinality estimation algorithm Analysis of
Algorithms, 2007.
• [4] M. Newman and J. Park. Why social networks are different from
other types of networks. Physical Review, 2003.
• [5] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time:
densification laws, shrinking diameters and possible explanations. KDD
2010.
• [6] P. Gupta, A. Goel, J. Lin, A. Sharma, D. Wang, and R. Zadeh. WTF: The
Who to Follow service at Twitter. WWW 2013.
• [7] M. Newman. Mixing patterns in networks. Physical Review, 2003.
• [8] M. Newman and J. Park. Why social networks are different from
other types of networks. Physical Review, 2003.
47

More Related Content

Similar to Information Network or Social Network?

社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表shigex Kondou
 
Rindokukai suzuki
Rindokukai suzukiRindokukai suzuki
Rindokukai suzukianrisuzuki1
 
オープンデータとLinked Open Data
オープンデータとLinked Open DataオープンデータとLinked Open Data
オープンデータとLinked Open DataFumihiro Kato
 
『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章y torazuka
 
Multiplex_Network_usui
Multiplex_Network_usuiMultiplex_Network_usui
Multiplex_Network_usuiShohei Usui
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative FilteringDeep Learning JP
 

Similar to Information Network or Social Network? (7)

test
testtest
test
 
社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表
 
Rindokukai suzuki
Rindokukai suzukiRindokukai suzuki
Rindokukai suzuki
 
オープンデータとLinked Open Data
オープンデータとLinked Open DataオープンデータとLinked Open Data
オープンデータとLinked Open Data
 
『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章『入門 ソーシャルデータ』9章
『入門 ソーシャルデータ』9章
 
Multiplex_Network_usui
Multiplex_Network_usuiMultiplex_Network_usui
Multiplex_Network_usui
 
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
[DL輪読会](Sequential) Variational Autoencoders for Collaborative Filtering
 

Information Network or Social Network?

Editor's Notes

  1. 縦軸:確率密度分布 横軸:次数
  2. 縦軸:確率密度分布 横軸:次数
  3. Consume 消費できる情報に上限がありそうなのに セレブリティ(レディ・ガガ)、政治家(オバマ)、ジャーナリストのおかげ
  4. 縦軸:確率密度分布 横軸:次数
  5. Consume 消費できる情報に上限がありそうなのに セレブリティ(レディ・ガガ)、政治家(オバマ)、ジャーナリストのおかげ
  6. 縦軸:確率密度分布 横軸:次数
  7. Consume 消費できる情報に上限がありそうなのに セレブリティ(レディ・ガガ)、政治家(オバマ)、ジャーナリストのおかげ
  8. (approximate neighbourhood function) N回目のジャンプ後の、リンク数の変化として、経路長nの数を推定する
  9. 分岐因子 branching factor:各親ノードから広がっている子ノードの平均数 in&out-degreeのこと
  10. 無向グラフでのクリーク:部分グラフが完全 Cliques:派閥
  11. 有名なユーザ:目立つから the richer gets richer