ネットワーク科学の応用について
サイボウズ・ラボユース 6&7 期 @takashinayuya
2017/09/15 機械学習勉強会
1
ネットワーク科学とは
複雑ネットワークを研究する学問分野。
複雑ネットワークは、実世界に存在するような、自明で
ないトポロジー的な特徴を持つネットワークの総称。
様々な分野から理論や手法を援用している。
離散数学、統計物理、計算機科学、統計学、社会学
2
ネットワーク科学の応用
個人的に興味を持った内容を挙げると、
インフルエンサー推定
コミュニティ検出
リンク予測
ネットワーク設計
3
インフルエンサー推定
インフルエンサーは、ネットワークにおいて何らかの意味で
"重要" なノード。
重要度には様々な基準があり、中心性指標と呼ばれる。
多くの人にフォローされている。
フォロワー数の多い人にフォローされている。
複数のコミュニティをつなぐ役割をする。
インフルエンサーを推定することで、情報収集やマーケティ
ングに役立てることができる。
4
中心性指標
A. 媒介中心性: そのノードを通る最短経路の数。
B. 近接中心性: 他のノードとの最短経路長の総和の逆数。
C. 固有ベクトル中心性:
隣接行列の最大固有値を持つ固有ベクトルの重み。
D. 次数中心性: 持っているリンクの数 ﴾次数﴿ 。
Centrality, Wikipedia
5
PageRank [Brin&Page 1998]
Google の検索エンジンに使われていた重要度の推定手法。
ある種の固有ベクトル中心性を求めている。
感覚的には、被リンク数の多いノードからのリンクを重要視
するように重要度を計算する。
6
PageRank 詳細
グラフ上で確率行列 T に従い状態遷移することを考える。
遷移行列 T は、隣接行列から定義。
遷移を続けると平衡状態に達すると期待し、そのとき各ノー
ドにいる確率を x とすると、 x は次式を満たす。
Tx = x
この x ﴾平衡状態での確率﴿ を各ノードの重要度とみなす。
被リンク ﴾流入﴿ が多いほど確率が高い。
T が確率行列であることを使うと、上の式の解は T の最大固
有値 λ = 1 を持つ固有ベクトルと一致する。max
7
コミュニティ検出
ネットワーク中で密につながったサブネットワークを検出。
後述のリンク予測などにも役立てられる。
8
コミュニティ検出法
基準を満たすノードの集合をコミュニティとみなすもの。
多くはクリーク ﴾完全グラフになっている部分グラフ﴿ を、
何らかの意味で拡張している。
n‐クリーク、 n‐クラン、 n‐クラブ
k‐プレックス、 k‐シェル、 k‐デンス
9
k‐シェル
全てのノードの次数が k 以上になっている部分グラフ。
次数が大きいノードの集合はリンクの密度が高いと仮定。
ネットワークに対する前処理として使える。
1‐シェルの抽出は孤立ノードの除去、
2‐シェルの抽出はツリー部分の除去に対応。
10
コミュニティ検出法
ネットワーク全体を複数の部分グラフに分割するもの。
min‐cut ﴾max‐flow﴿
ブロックモデル
Newman Fast 法
11
min‐cut ﴾max‐flow﴿
グラフからノードを 2 つ選び、それぞれのノードを含むよう
にグラフを 2 分するときに、除去する辺のコストの総和が最
小になるような分割が min‐cut 。
max‐flow と双対関係にある。
線形計画問題であり、比較的高速に解ける。
2 分割しかできないが、工夫して、関心があるノード群周辺の
コミュニティ構造を解析する方法も提案されているらしい。
12
ブロックモデル
リンクの密度が高い集合を見つけるのではなく、ネットワー
ク上で構造的位置が類似している集合を見つける。
Stochastic Block Model ﴾SBM﴿ など。
Y. Hayashi, ネットワークの道具箱
13
Newman Fast 法
グラフの分割の"良さ"を与える評価関数 ﴾モジュラリティ﴿ を
定義し、モジュラリティの増分がなるべく大きくなるように
ノードを結合していく。増加しなくなったら停止。
速度を改良したものに、 Clauset Newman Moore 法がある。
14
リンク予測
特定のノード間にリンクが引かれるか否かを予測する。
SNS でのフォローするユーザーの推薦や、 EC サイトでの商品
の推薦などに用いられる。
教師あり、教師なしどちらもある。
15
教師ありリンク予測
特定のノード間にリンクが引かれるか否かを 2 値回帰問題と
みなして、ロジスティック回帰や SVM で解く。
特徴量としては、ドメイン特化のものも使えるが、グラフの
トポロジーから得られる特徴量の方が汎用性が高い。
共通の知人の数、 Jaccard 類似度、 Adamic/Adar
最短経路長、 Rooted Pagerank、 etc...
16
教師なしリンク予測
ノードのカテゴリが同じ ﴾e.g. ユーザーの推薦﴿
同一コミュニティではリンクが引かれやすい。
インフルエンサーに対してはリンクが引かれやすい。
ノードのカテゴリが違う ﴾e.g. 商品の推薦﴿
協調フィルタリングなど。
17
ネットワーク設計
ネットワークを維持することは人間社会にとって重要。
送電、物流、インターネット、etc...
強い ﴾robust/resilient﴿ ネットワークの設計が必要。
ランダムエラーに強いスケールフリーネットワーク。
悪意ある攻撃にも強い玉葱状ネットワーク。
場合によっては空間制約がある。
18
ネットワークの頑健性と脆弱性
ネットワークからノードを除去していくと、ある点を境にノ
ードが急激に孤立していくことがある。
エラー: ランダムなノードの除去
攻撃: 重要なノードの選択的な除去
19
スケールフリーネットワーク
次数分布がべき分布に従うようなネットワーク。
ランダムなエラーには強いが、ハブへの攻撃には弱い。
Right: H. Sayama, Advanced Topics in Network Science
20
玉葱状ネットワーク[Schneider+ 2011]
攻撃にも強いネットワークとして提案されたものの一つ。
他にも二極分布ネットワークなど。
ネットワークの頑健性の指標を定義し、頑健性が上がるよう
にネットワークのリンクをランダムに切り替えていく。
2 つのリンク e , e を選び、 e , e に切り替える。
空間制約 ﴾e.g. 界面制約﴿ があるときの玉葱状ネットワークの
構成法も提案されている。[Hayashi 2016]
ij kl ik jl
21
出典
[Brin&Page 1998] S. Brin and L. Page, The Anatomy of a Large‐
Scale Hypertextual Web Search Engine, International World‐
Wide Web Conference, 1998
[Schneider+ 2011] C. M. Schneider et al., Mitigation of
malicious attacks on networks, Proc. Natl. Acad. Sci. 108, 2011
[Hayashi 2016] Y. Hayashi, Spatially self‐organized resilient
networks by a distributed cooperative mechanism, Physica A,
2016
22
参考文献
Y. Hayashi et al., ネットワークの道具箱, 近代科学社, 2007
T. Tanizawa, 故障と攻撃の両方に強いつながり方とは? ‐ネッ
トワークの機能不全と構造最適化‐, 情報処理, 2008
L. Dong et al., The Algorithm of Link Prediction on Social
Network, Mathematical Problems in Engineering, 2013
H. Sayama, Advanced Topics in Network Science, Course
Materials, http://harvey.binghamton.edu/~sayama/SSIE641,
2017
Wikipedia contributors, Centrality, Wikipedia, The Free
Encyclopedia, https://en.wikipedia.org/w/index.php?
title=Centrality&oldid=797812714, 29 Aug. 2017
個人的なおすすめは、佐山先生の講義資料。
23

ネットワーク科学の応用について