SlideShare a Scribd company logo
1 of 46
Fast community structure
identification of small world
networks
脇田研究室
池 光龍
12016/10/2
社会ネットワーク
• 社会ネットワークとは、
– 個人や組織、それらの活動によって形成された
構造
– 例:友人関係、取引関係、論文参照関係
22016/10/2
社会ネットワークの性質
• スモールワールド性 [1]
– コミュニティ構造
– 短い平均距離
• スケールフリー性 [2]
– 次数分布のベキ乗則
– 「ハブ」の存在
2016/10/2 3
• [1]D.J. Watts. Six Degrees: The Science of a Connected Age. W.W. Norton & Company, 2003.
• [2]A.L. Barabási. Linked: The New Science of Networks. Perseus Pub., 2002.
社会ネットワークの性質
• スモールワールド性 [1]
– コミュニティ構造
– 短い平均距離
• スケールフリー性 [2]
– 次数分布のベキ乗則
– 「ハブ」の存在
2016/10/2 4
• [1]D.J. Watts. Six Degrees: The Science of a Connected Age. W.W. Norton & Company, 2003.
• [2]A.L. Barabási. Linked: The New Science of Networks. Perseus Pub., 2002.
コミュニティ発見法
52016/10/2
コミュニティ発見法
62016/10/2
様々な手法
• Cluster Analysis
– Ward method (Ward, 1963)
– K-NN法 (Franco-Lopez, Hector+, 2001)
• Graph partition
– Belief Propagation ( Onsjo, Watanabe, 2006)
– k-means法 (Hartigan, John, Manchek, Wong, 1979)
• Matrix Data
– Stochastic Block Model (Snijders, Tom, Krzysztof, 1997)
– Spectral Clustering ( Shi, Malik, 2000 )
• Metric optimization
– WCC (Prat-Pérez, Dominguez-Sal, Larriba-Pey, 2014)
– Edge Betweenness (Girvan, Michelle, Newman, 2002)
72016/10/2
Modularity
• Modularityとは
– コミュニティ発見の善し悪しを評価する指標。
– -1~1
2016/10/2 8
• M.E.J. Newman, M. Girvan, Finding and evaluating community structure in
networks. Phys. Rev. E 69, 026113 (2004)
Modularity = 0.650 Modularity = 0.873
Modularity最適化法
• Modularityが最大になるように、コミュニティ
を発見する手法
手法 特徴 処理可能規模
Newman+ (2004) Modularity概念 一万ノード
Clauset+ (2004) 効率的なデータ構造 五十万ノード
Wakita+ (2007) 合併比率 数百万ノード
Blondel+ (2008) 局所Modularity最適化 一億ノード
Shiokawa+ (2013) 逐次集約 一億ノード
92016/10/2
本研究の着目点
• 社会ネットワークのスモールワールド性に注目
• 新しいメトリックの作成やテクニック上の向上で
はなく、発見効率の観点から接近
• 評価法として、解析のための評価指標が必要
102016/10/2
Louvain法:All Neighbor Selection
2016/10/2
• Blondel, Vincent D., et al. "Fast unfolding of communities in large networks." Journal of
Statistical Mechanics: Theory and Experiment 2008.10 (2008): P10008.
Louvain法:All Neighbor Selection
2016/10/2
• Blondel, Vincent D., et al. "Fast unfolding of communities in large networks." Journal of
Statistical Mechanics: Theory and Experiment 2008.10 (2008): P10008.
Louvain法:All Neighbor Selection
2016/10/2
• Blondel, Vincent D., et al. "Fast unfolding of communities in large networks." Journal of
Statistical Mechanics: Theory and Experiment 2008.10 (2008): P10008.
Louvain法:All Neighbor Selection
2016/10/2
基本提案:Neighbor Random
Sampling
2016/10/2
基本提案:Neighbor Random
Sampling
2016/10/2
基本提案:Neighbor Random
Sampling
2016/10/2
基本提案:Neighbor Random
Sampling
2016/10/2
反復回数(万回)
Modularity
Modularity最適化法の計算効率
基本提案: Neighbor Random Sampling
Louvain: All Neighbor Selection
31931218
192016/10/2
1.5倍
2.6倍
Max Neighbor Selection
• 隣接コミュニティ選択に注
目
• わずかな選択とLouvainの
選択が合致出来れば?
• Modularityの変化量
• 計算の後半部分を観察
–
– 3個:約3割 Louvainの選択と
合致
• Max neighbor 3個だけ参照
2014/08/05
2016/10/2 20
| MaxNeighbor |
| SelectedNeighor |
DModularity =(| E |*|v ®ci |-|v ®V |*|ci ®V |)
v
c1
c2
c3
c4
c5
c6
Changed Neighbor Selection
• ノードの選択に注目
• 無駄な計算が沢山存在
– ノードの移動なし
• 理想的
– 本当に動くノードだけ特定
• 隣接コミュニティに変
化があるノードのみ選
択
– 移動可能ノードを特定
2016/10/2 21
2014/08/05
Hybrid Heuristic
• 比較対象: 3個 Neighbor
• 3個以下
– Louvain法
• 3個以上
– 計算前半: Neighbor Random
Sampling
– 計算後半: Max Neighbor
Selection
– 計算全般: Changed Neighbor
Selection
• Neighbor Random Sampling
とMax Neighbor Selection
の切り替え
– 計算効率曲線の傾き
2016/10/2 22
反復回数(万回)
Modularity
基本提案: Neighbor Random Sampling
222016/10/2
Louvain: All Neighbor Selection
実験
• 実験内容
– Modularityはほぼ同じ
– 計算効率
– 時間
• 実行環境:
– Tsubame interactive node
• 6GB RAM, Intel Xeon CPU X5670 2.93GHz
2016/10/2 23
データセット
• データセット
– 人工データ
2016/10/2 24
• [1] Duncan JWatts and Steven H Strogatz. Collective dynamics of‘small-world’networks.
nature, 393(6684):440{442, 1998.
• [2] Albert-László Barabási and Réka Albert. Emergence of scaling in random networks.
science, 286(5439):509{512, 1999.
Web-Google DBLP Youtube Pokec
|V| 875,713 317,080 1,134,890 1,632,803
|E| 5,105,039 1,049,866 2,987,624 30,622,564
(2*|E|)/|V| 11 7 5 37.5
Small World [1] Scale Free [2] Scale Free [3]
|V| 1,000,000 10,000 1,000,000
|E| 40,000,000 99,970 1,999,998
(2*|E|)/|V| 80 19 39
計算効率 - Pokec
2016/10/2 25
計算効率 – DBLP
2016/10/2 26
計算効率 – Web-Google
2016/10/2 27
計算効率 – Youtube
2016/10/2 28
計算効率 – Small world
2016/10/2 29
計算効率 – Scale free
2016/10/2 30
計算効率 – Scale free
2016/10/2 31
時間の比較
2016/10/2 32
25.7
7.49
13.98
80.27
22.49
31.63
19.45
48.26
222.87
90.93
17.35
10.99
19.76
202.05
43.39
23.31
13.44
51.31
223.98
86.64
16.28
7.51
24.5
217.09
115.82
0
50
100
150
200
250
Web-Google DBLP Youtube Pokec Smallworld
Louvain method Neighbor Random Sampling Heuris c
Max Neighbor Heuris c Changed Neighbor Heuris c
Hybrid Heuris c
まとめ
• スモールワールド性を生かす可能性を提案
• 計算効率の比較により、その可能性を示し
た
• 今後の課題
– 本研究のアイディアに基づいた高速プログラムの
実装
– 収束部分でのノード特定に対する考察
332016/10/2
参考文献
• Duncan J. Watts. (2003). Six Degrees: The Science of a Connected Age. W. W. Norton & Company
• Newman, Mark EJ, and Michelle Girvan. "Finding and evaluating community structure in networks." Physical
review E 69.2 (2004): 026113.
• Newman, Mark EJ. "Fast algorithm for detecting community structure in networks." Physical review E 69.6 (2004):
066133.
• Clauset, Aaron, Mark EJ Newman, and Cristopher Moore. "Finding community structure in very large networks."
Physical review E 70.6 (2004): 066111.
• Wakita, Ken, and Toshiyuki Tsurumi. "Finding community structure in mega-scale social networks:[extended
abstract]." Proceedings of the 16th international conference on World Wide Web. ACM, 2007.
• Blondel, Vincent D., et al. "Fast unfolding of communities in large networks." Journal of Statistical Mechanics:
Theory and Experiment 2008.10 (2008): P10008.
• Shiokawa, Hiroaki, Yasuhiro Fujiwara, and Makoto Onizuka. "Fast Algorithm for Modularity-based Graph
Clustering." Twenty-Seventh AAAI Conference on Artificial Intelligence. 2013.
• Bhowmick, Sanjukta, and Sriram Srinivasan. "A Template for Parallelizing the Louvain Method for Modularity
Maximization." Dynamics On and Of Complex Networks, Volume 2. Springer New York, 2013. 111-124.
• Staudt, Christian L., and Henning Meyerhenke. "Engineering High-Performance Community Detection Heuristics
for Massive Graphs." Parallel Processing (ICPP), 2013 42nd International Conference on. IEEE, 2013.
• Prat-Pérez, Arnau, David Dominguez-Sal, and Josep-Lluis Larriba-Pey. "High quality, scalable and parallel
community detection for large real graphs." Proceedings of the 23rd international conference on World wide web.
International World Wide Web Conferences Steering Committee, 2014.
• Onsjö, Mikael, and Osamu Watanabe. "A simple message passing algorithm for graph partitioning problems."
Algorithms and Computation. Springer Berlin Heidelberg, 2006. 507-516.
2016/10/2 34
2016/10/2 35
Community発見の実例(1)
• Data: Belgian Mobile Companyの通話記録
• Node:顧客 Edge: 通話したか否か
• Community 構造 + scale free性
• 結果: フランス語 + オランダ語
• 社会学から言うと
– 言語圏的、民族的、宗教的結束力や脆弱性が見
える
2016/10/2 39
• Blondel, Vincent D., et al. "Fast unfolding of communities in large networks." Journal of
Statistical Mechanics: Theory and Experiment 2008.10 (2008): P10008.
Community発見の実例(2)
2016/10/2 40
Du, Nan, et al. "Community detection in large-scale social networks." Proceedings of the 9th
WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis. ACM, 2007.
Guimerà R et al. PNAS 2005;102:7794-7799
©2005 by National Academy of Sciences
Community発見の実例(3)
2016/10/2 42
計算するか
否か?
参照コミュニティは
何なのか?
Louvain Not max
All Neighbor
Community
Not Changed
max
k - Random
Selection
max
k – Max
Selection
Changed
max
k – (Random, Max)
Selection
DModularity
ノードの特定
• 理想的なのは、
– あるノードが属すべきcommunityが一気にわかる
– 毎回移動するノードがわかれば。
– 計算全般でなくても、収束部分だけでも移動すべ
きノードが分かればよい。
– 移動可能ノードだけ分かれば。
• ただし、移動可能ノードだと問題点がある
2016/10/2 43
Changed Neighbor Selectionの問題点
• 周りが一回しか変更されていない場合
– あるcommunityの中に止まっている
– しかし、初期状態で移動したcommunityは、最終
的に属すべきcommunityとは言えない
2016/10/2 44
DModularity =(| E |*|v ®ci |-|v ®V |*|ci ®V |)
New Algorithm?
Community C1
Community C2
!V
V
Community C3
Community C1
Community C2
!V
V
Community C3
Community C4
2016/10/2 45
New Algorithm?
• 毎回移動するノードがわかれば
• 連鎖反応のように、ある一個のノードからはじめ、だんだ
ん移動するノードを次々と移動すればよいのではない
か?
2016/10/2 46
NeighborChaged = true Þ $Dmodularity ³ 0
NeighborChaged = false ÞØDmodularity ³ 0
O
D
進学後のビジョン
• 特定社会ネットワークに置いて新しい現象の
発見など
• コミュニティ発見法を使った大規模ネットワー
ク解析
– 悪質なコメントや噂の広がり、イベント発見など
• コミュニティ発見法の応用場面の拡張
– 推薦システム、予測システムなど
472016/10/2
希望動機
• 工学の観点からの社会ネットワーク解析だけ
でなく、ネットワークを通しての人と人の関係
成立から変化、人の行動、考え方などについ
て強い興味を持ってる。(例えば、会社取引関
係と発展戦略の関係、悪質なコメントなど)
• つまり、ネットワークと人間社会が密接に関
わる現代社会において、ネットワークと人間
の親和性を向上できる研究ができればいい
なと思う。
482016/10/2
希望動機
• 研究が好き。修士の段階でも、色々な研究はやってき
たが、なんの成果もなく、まだ足りない部分も多いと思
うし、私に取っては知識の累積にもっと重点があった
気がする。博士に進学して視野を広め、修士課程時
に遂行していた研究を更に深く進めたいし、今研究す
る分野に留らず幅広く勉強、研究できる環境を求めた
い。
• 研究者になりたい。もちろんいつかは自分の研究成
果に基づいた、企業を作る夢も持っている。今の自分
自身の能力だとまだまだこの目標とはかなりの距離
があると思う。博士課程での洗練により、研究能力、
視野、考え方など様々な方面で自分の目標に近づい
て行きたい。
492016/10/2

More Related Content

Similar to Fast community structure identification of small world networks

NGO地球のつながり方協会の説明(第一次案)
NGO地球のつながり方協会の説明(第一次案)NGO地球のつながり方協会の説明(第一次案)
NGO地球のつながり方協会の説明(第一次案)tikyutunagari
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender Systemharmonylab
 
Library in the Web2.0 environment
Library in the Web2.0 environmentLibrary in the Web2.0 environment
Library in the Web2.0 environmentshigeosuzuki
 
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...Deep Learning JP
 
学認と電子書籍を利用したオープンエデュケーションツールの開発
学認と電子書籍を利用したオープンエデュケーションツールの開発学認と電子書籍を利用したオープンエデュケーションツールの開発
学認と電子書籍を利用したオープンエデュケーションツールの開発Hori Masumi
 
社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表shigex Kondou
 
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98thYoichi Motomura
 
オープンデータと環境未来都市
オープンデータと環境未来都市オープンデータと環境未来都市
オープンデータと環境未来都市Iwao KOBAYASHI
 
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)Takashi Koga
 
楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用Rakuten Group, Inc.
 
自律連合型基盤システムの構築
自律連合型基盤システムの構築自律連合型基盤システムの構築
自律連合型基盤システムの構築Kazuhiko Kato
 
LODはWebと世界をどのように進化させてきたか
LODはWebと世界をどのように進化させてきたか LODはWebと世界をどのように進化させてきたか
LODはWebと世界をどのように進化させてきたか AWAlab
 
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)Ikki Ohmukai
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みShun Shiramatsu
 
Wikipedia science ai_online_discussion
Wikipedia science ai_online_discussionWikipedia science ai_online_discussion
Wikipedia science ai_online_discussionTomoaki Watanabe
 
心理学研究におけるQualtricsの活用
心理学研究におけるQualtricsの活用心理学研究におけるQualtricsの活用
心理学研究におけるQualtricsの活用igarashilab
 
WWW2012勉強会:Information Diffusion in Social Networks
WWW2012勉強会:Information Diffusion in Social NetworksWWW2012勉強会:Information Diffusion in Social Networks
WWW2012勉強会:Information Diffusion in Social NetworksYuto Yamaguchi
 
Multiplex_Network_usui
Multiplex_Network_usuiMultiplex_Network_usui
Multiplex_Network_usuiShohei Usui
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 

Similar to Fast community structure identification of small world networks (20)

NGO地球のつながり方協会の説明(第一次案)
NGO地球のつながり方協会の説明(第一次案)NGO地球のつながり方協会の説明(第一次案)
NGO地球のつながり方協会の説明(第一次案)
 
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender SystemTop-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
 
Library in the Web2.0 environment
Library in the Web2.0 environmentLibrary in the Web2.0 environment
Library in the Web2.0 environment
 
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
 
学認と電子書籍を利用したオープンエデュケーションツールの開発
学認と電子書籍を利用したオープンエデュケーションツールの開発学認と電子書籍を利用したオープンエデュケーションツールの開発
学認と電子書籍を利用したオープンエデュケーションツールの開発
 
社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表社会ネットワーク勉強会第3回発表
社会ネットワーク勉強会第3回発表
 
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
 
DeepCas
DeepCasDeepCas
DeepCas
 
オープンデータと環境未来都市
オープンデータと環境未来都市オープンデータと環境未来都市
オープンデータと環境未来都市
 
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)
MLA連携の国際的最前線を探る:国際図書館連盟(IFLA)2014年サテライト会議(トリノ)をベースに(古賀崇)
 
楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用
 
自律連合型基盤システムの構築
自律連合型基盤システムの構築自律連合型基盤システムの構築
自律連合型基盤システムの構築
 
LODはWebと世界をどのように進化させてきたか
LODはWebと世界をどのように進化させてきたか LODはWebと世界をどのように進化させてきたか
LODはWebと世界をどのように進化させてきたか
 
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)
オープンデータをつかう図書館、オープンデータをつくる図書館@京都図書館大会(2015.8.17)
 
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試みLinked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
 
Wikipedia science ai_online_discussion
Wikipedia science ai_online_discussionWikipedia science ai_online_discussion
Wikipedia science ai_online_discussion
 
心理学研究におけるQualtricsの活用
心理学研究におけるQualtricsの活用心理学研究におけるQualtricsの活用
心理学研究におけるQualtricsの活用
 
WWW2012勉強会:Information Diffusion in Social Networks
WWW2012勉強会:Information Diffusion in Social NetworksWWW2012勉強会:Information Diffusion in Social Networks
WWW2012勉強会:Information Diffusion in Social Networks
 
Multiplex_Network_usui
Multiplex_Network_usuiMultiplex_Network_usui
Multiplex_Network_usui
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 

Fast community structure identification of small world networks

Editor's Notes

  1. スモールワールド性の利用とコミュニティ発見の効率に着目 Modularityを保ちつつ、高速で高いModularity増加率を持つ新しい理論的根拠とヒューリスティクスを提案する。
  2. まず、最初に本研究の対象となる社会ネットワークの話からはじめたいと思います。 社会ネットワークとは、個人や組織とそれらの活動により、形成された構造のことを指します。 例として、SNS上の友人関係からなるネットワークや研究者の論文参照からなるネットワークなどがあります。
  3. これらのネットワークにスモールワールド性やスケールフリー性という性質があります。 スモールワールド性の中で最も重要なのはコミュニティ構造が存在することです。 コミュニティとは、日本語で言うと共同体のことで、ネットワークに置いてお互いに深く結びついているノードの集まりのことをいいます。 特徴としては、集まりの内部で緊密に、外部とは過疎的につないている点です。 例えば、友人関係ネットワークだったら、友達同士のグルプ、 論文コラボレーションネットワーク ー 研究テーマなど このコミュニティ構造の存在によって、更にネットワーク上の任意の二つのノード間には短い平均距離でつなげるとの性質も持ちます。
  4. スケールフリー性は、まず次数を説明、次に次数分布がベキ乗則に従う、つまり大部分のノードは少ない次数をもっているが、わずかなノードは遥かに大きい次数をもっている。 このようなノードをhubと言う。 右の図で表したように、横軸が次数ー隣接ノードの数、縦軸をノードの数だとすると、一部のノードが膨大なノードとエッジで繋がっており、大きな次数を持っている一方で、大多数のノードはごくわずかなノードとしか繋がっておらず、次数は小さいという性質である。 スケールフリー性もたくさんのネットワークで検出されている。 例、人間関係とかWWW、学術論文、電子メールなど。次数の大きいノードを「Hub」と呼ぶ。 Hubの存在、大多数のネットワークがscale free + small world性をもつことが分かる スケールフリー性だけをもつネットワーク:空港機の線路、電力網
  5. なので、ネットワークの中に存在するこのようなコミュニティ構造を自動的に発見する手法のことを コミュニティ発見法と呼びます。
  6. なので、ネットワークの中に存在するこのようなコミュニティ構造を自動的に発見する手法のことを コミュニティ発見法と呼びます。 コミュニティの特徴として内部では密接に、外部では過疎的に繋いでいる特徴を持っている。
  7. コミュニティ発見に関しては様々な研究が行われています。 クラスター分析のWard法やgraph分割の確率伝搬法、Matrix Dataをblock化する手法やあるメトリックに対する最適化法などがあります。
  8. 本研究では、2004年、Newmanによって提案されたModularity Qというメトリックを使います。 Modularityとは、コミュニティ発見の善し悪しを評価する指標で、図の用に、ちゃんとしたコミュニティが抽出できる場合、値が高くなります。 ネットワーク全体のModularity値を最適するようにネットワークを分割することにより、コミュニティ発見を行うことができます。 このような手法をModulalarity最適化法と呼びます。
  9. Moduarity最適化法は、2004年に提案されてから、活発に研究されました。 しかし、これらの手法では、工学的な観点から、新しいメトリックの作成やテクニック上の向上などに着目し、 研究をしてきました。そこで本研究では、
  10. 本研究では、主に以下の2点に注目しました。 つまり、従来の研究では、ネットワーク自体の特徴を生かしていないが、それを生かすことで何らかの研究ができるのかを 考えました。 次に、新しいメトリックのの作成やテクニック上の向上からではなく、既存のメトリックに基づいた発見効率の観点から考えようと思いました。 最後に、今までは評価として、速度だけが唯一の物差しになっていたが、速度だけでなく、qualityも注目すべく、 解析ためのhardwareやprograming techに依存しない評価指標が必要になるのではないか?
  11. それでは、他手法との相違点から話しを始めたいと思います。 この図は、2008年提案されたBlondel法のやり方です。 Blondel手法では、あるノードに着目した時、そのノードの全隣接コミュニティを対象に 計算を行い、一番魅力的なコミュニティを選んで移動します。 このような計算をネットワーク全体に対して、ノードが移動しなくなるまで、何回も繰り返すため、 かなりの時間がかかります。 そこで、本研究では、スモールワールド性を生かそうと思いました。
  12. それでは、他手法との相違点から話しを始めたいと思います。 この図は、2008年提案されたBlondel法のやり方です。 Blondel手法では、あるノードに着目した時、そのノードの全隣接コミュニティを対象に 計算を行い、一番魅力的なコミュニティを選んで移動します。 このような計算をネットワーク全体に対して、ノードが移動しなくなるまで、何回も繰り返すため、 かなりの時間がかかります。 そこで、本研究では、スモールワールド性を生かそうと思いました。
  13. それでは、他手法との相違点から話しを始めたいと思います。 この図は、2008年提案されたBlondel法のやり方です。 Blondel手法では、あるノードに着目した時、そのノードの全隣接コミュニティを対象に 計算を行い、一番魅力的なコミュニティを選んで移動します。 このような計算をネットワーク全体に対して、ノードが移動しなくなるまで、何回も繰り返すため、 かなりの時間がかかります。 そこで、本研究では、スモールワールド性を生かそうと思いました。
  14. それでは、他手法との相違点から話しを始めたいと思います。 この図は、2008年提案されたBlondel法のやり方です。 Blondel手法では、あるノードに着目した時、そのノードの全隣接コミュニティを対象に 計算を行い、一番魅力的なコミュニティを選んで移動します。 このような計算をネットワーク全体に対して、ノードが移動しなくなるまで、何回も繰り返すため、 かなりの時間がかかります。 そこで、本研究では、スモールワールド性を生かそうと思いました。
  15. つまり、スモールワールド性から考えると、ノードの隣接コミュニティへの繋がりとは、自分が属すべき コミュニティへの繋がりが多く、他コミュニティへの繋がりが少ないため、毎回わずかな繋がりだけを 参照しても、最終的には自分が属すべきコミュニティに移動するのではないかとの仮説です。
  16. つまり、スモールワールド性から考えると、ノードの隣接コミュニティへの繋がりとは、自分が属すべき コミュニティへの繋がりが多く、他コミュニティへの繋がりが少ないため、毎回わずかな繋がりだけを 参照しても、最終的には自分が属すべきコミュニティに移動するのではないかとの仮説です。
  17. つまり、スモールワールド性から考えると、ノードの隣接コミュニティへの繋がりとは、自分が属すべき コミュニティへの繋がりが多く、他コミュニティへの繋がりが少ないため、毎回わずかな繋がりだけを 参照しても、最終的には自分が属すべきコミュニティに移動するのではないかとの仮説です。
  18. 図から、見るとBlondelの方では、このコミュニティに移動しましたが、三つだけ計算した場合、 一時的には他のコミュニティに行きますが、最終的には同じコミュニティに行くことが分かります。
  19. 更に、この仮説の正しさを検証する前に、Modularity最適化法の計算効率と言うModularityの増加度合いと計算回数からなる、指標を提案します。 この指標を使うことで、ハードウェアやPrograming techniqueには依存しない、Modularity発見の計算効率を比較することができます。 その結果を計算回数による、Modularityの増加を表してみました。 コミュニティを発見して行くにつれて、Modularityが増加して行くので全体的にこんな感じになります。 まず、Modularityは変わらず、かつ、計算の初期状態でよい計算効率をもつことが分かります。 (基本提案の効果が弱化していることがわかります。) しかし、初期状態以降部分は変わらないことが分かります。 つまり、もうちょっと理想的に、右側のほうに移動させたいわけです。 なので、計算の後半の部分と最後の収束の部分について考えて行きます。 細かい部分は説明しない これが人間行動システムとの関係 これは純粋なコンピュータ技術を使った研究ではない、 つまり、人間活動の性質を使った
  20. まずは、隣接コミュニティの選択に注目して行きます。 本研究では、Louvain法と違い、わずかな隣接コミュニティだけを参照に 最終的に同じ結果を得ています。そこで、もちろんスモールワールド性により結果は保証されますが、計算の段階で、わずかな 隣接コミュニティ参照で選ばれたコミュニティがLouvain法と選択と合致すれば、もっと動きが少なくなるのではないかと考えました。 そこで、まずはLouvain法のModularity変化量の計算式から見てみます。 ノードが隣接コミュニティに移動した時のmodularity変化量は ノードとコミュニティの繋がり、ノード自身の重みとコミュニティから外に向かうエッジ数に関係することが分かりますが、明らかにノードとコミュニティの 繋がりの強さがdelta modularityの変化に大きい影響を与えていることが分かります。 なので、繋がりの強さ准に3個の隣接コミュニティをとって見たところ、約3割ぐらいの選択がLouvainの選択と合致することが分かりました。 ということで、隣接コミュニティの選択上、繋がりの強い3つの隣接コミュニティを選ぶことにしました。
  21. 次は、計算に参加するノードに選択に注目しました。 Louvainでも、本研究の提案でもすべてのノードに対して、 計算を繰り返し、移動するか否かを判断します。しかし、計算の後半になるとノードの移動が少なくなるのは 明らかで、その時もすべてのノードに対して計算を行うのは、明らかに大量の無駄な計算が入っていることが分かります。 まだ、理想的なのは本当に動くノードだけの特定ですが、それは難しいため、今回は動く可能性のあるノードを特定することに します。つまり、あるノードの隣接コミュニティに変化があると移動可能なノードだと判断し計算に参加させます。
  22. 最後に、以上の三つのアイディアをマージしたHybrid heuristicを提案します。 具体的な、やり方として、比較対象を3個に規定し、3個以下の隣接コミュニティを 持つ時にはLouvain法を、3個以上の時には、計算の前半でランダム選択を、 計算の後半には最大隣接コミュニティの選択を行います。 計算に置ける移動可能ノードの特定は計算全般に有効であるため、全般において適応します。 ランダム選択と最大選択の切り替えは、右側の図のように、計算効率の曲線が変わる時点で、 切り替えを行います。
  23. 次は、実験を行います。 最終的なmodularityの法は変わっていないため、 主に計算効率と時間二つの面から見て行きたいと思います。 今回の実験はtsubameのinterractive nodeで行いました。
  24. データセットは、四つの社会ネットワークデータと三つの生成モデルから生成されたスモールワールド性と スケールフリー性を持つデータを用いて実験を行います。
  25. まず、紫の部分はrandom samplingのheuristic、緑がmax Heuristic、 青色が changed neighbor Heuristicになります。 これから見るとrandom sampleのほうがLouvainより良い結果をだしていて、更にそれにmax selectionを加えるともっと良いけっか。 Heuristic ごとに自分の役割をしている結果が分かります。 まだ、収束の部分についてはmaxのほうが効果的であることが分かります。
  26. この論文参照関係を表すdblpデータから見ると、change neighbor選択が収束速くさせている ことが分かります。 しかし、このデータでは、maxの法が後半になっても計算効率があがっていないし、かつ収束時間が かなり長くなっていることが分かります。 ここからは、change neighborの方が後半部分の計算効率にも、収束にも貢献しているのではないかと思われます。 Maxの効果がないことに関しては、収束が長いことは、移動が留らないこと、しかし、change neighborだったら 金魚のふん 現象 すぐとまる、無駄な計算が多い、移動するノードが少ない、つまりhubの影響ではないかと思われます。
  27. Googleデータもdblpと同じ傾向にあります。
  28. Youtubeのデータにも実はhubが存在しますが、このデータの平均 次数が小さいため、maxのほうが長くならなかったのではないかと思う。 この図からは収束部分はあまり変わらないかもしれないが、change heuristicだけをやると他のheuristicより 効果はないが、max heuristicとあわせると効果がでていることが分かります。 この急に曲がる部分に関しては、データ自体の特徴によるとは思いますが、おそらく同じくhubの影響ではないかと、 なぜかと言うと1。後ろのscale free dataににたような結果が出ていると 2. 最終的に同じcommunityになるcommunity間で移動している可能性がないかとhub自体が
  29. 純粋にcommunity構造だけを持つ場合より良い結果が出ていることが分かります。
  30. スケールフリーデータに関しても有効であることが分かります。 Maxのほうは長くなっていて しかし、この場合はchange neighborのほうがもっと有効であることが分かります。
  31. スケールフリーデータに関しても有効であることが分かります。 しかし、modularityが低くなっています。 Community構造がはっきりしていないので ----- 会議メモ (2014/08/05 14:56) ----- 各計算の複雑さ アルゴリズムのcomplex
  32. 一回あたりの計算コストを控えるのが今後の課題となります。 ----- 会議メモ (2014/08/05 14:56) ----- 各heuristicの色が統一されていない 最適なkを選ぶ ネットワークごとに違うかも
  33. 白いcommunityを見つける 本当にクラスタリングをやりたいのか?どんなデータに対してクラスタリングしたいのか? 本研究では、スモールワールド性を生かす可能性を提案し、計算効率の比較により、その 可能性を示した。まだ結果的に、効率よくコミュニティ発見ができる要になった。 今後の課題としては、本研究のアイディアに基づいた高速プログラムを実装しようと思う。 まだ、この提案のやり方で生成されたコミュニティの内容をBlondelと比較しようと思う。 最終的に、実データでの実験もできればと思う。 ----- 会議メモ (2014/05/28 18:52) ----- 速度 ソーシャルネットワークのことを強調 今後の課題の下の二つを強調 早くなったから意味がある。 small world性質を使うだけで、高速になるのかにたいして科学的な興味を持った
  34. 以下の様な、参照文献を参照しました。 ----- 会議メモ (2014/05/28 18:52) ----- 全部入れる
  35. Youtbube degree = 5 Pokec = 37.5
  36. Communityは経済圏を表すことができる。 Another significant result is that even though geographical distance plays a clear role in the definition of the communities, the composition of some of the communities cannot be explained by purely geographical considerations. For example, the community that contains most cities in Europe also contains most airports in Asian Russia. Similarly, Chinese and Japanese cities are mostly grouped with cities in the other countries in Southeast Asia, but India is mostly grouped with the Arabic Peninsula countries and with countries in Northeastern Africa. These facts are consistent with the important role of political factors in determining community structure (21).