Successfully reported this slideshow.
Your SlideShare is downloading. ×

20160901 jwein

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
20140925 multilayernetworks
20140925 multilayernetworks
Loading in …3
×

Check these out next

1 of 74 Ad
Advertisement

More Related Content

Slideshows for you (20)

Viewers also liked (20)

Advertisement

Similar to 20160901 jwein (20)

More from tm1966 (12)

Advertisement

Recently uploaded (20)

20160901 jwein

  1. 1. 多層ネットワークによる構造 データ分析 村田剛志 東京工業大学 情報理工学院 情報工学系 murata@c.titech.ac.jp http://www.net.c.titech.ac.jp/index-j.html 本スライドはslideshareにて公開 上記サイトにリンクあり
  2. 2. 講演の概要 • 題目:「多層ネットワークによる構造データ分析」 • 要旨: ネットワーク分析は、対象世界における構造や プロセスを理解する上で重要であるが、現実のソー シャルメディア等は多種類の頂点や辺から構成されて おり、従来の分析手法では不十分であることが少なく ない。本講演では、交通網や動的ネットワークなどの 現実の多様な構造データを表現し分析するための枠 組みとして注目されてきている多層ネットワーク研究 について紹介する。また、近年盛んになってきている 深層学習へのアプローチとして、(1)深層学習で得られ たDNNのサイズ圧縮(2)グラフ構造を対象とした深層 学習などの試みについても紹介する。
  3. 3. 目次 • multilayer networkとは • トピックス – テンソルによる表現 – ランダムウオーク、移動可能性(navigability) – ランキング – temporal networkとmultilayer network – ネットワーク特徴量 – 生成モデル – コミュニティ抽出 • ツール/データセット/関連会議/参考文献 • 多層ネットワーク と DNN – DNNによるグラフ処理 – DNNの圧縮
  4. 4. なぜmultilayer networkなのか • 単純なネットワークでは扱えないような、現実 のより複雑な関係を表現・分析したい – 複数の交通機関(鉄道、バス…)での輸送網 – 複数のSNS(Facebook, Twitter, …)での情報伝搬 異なる種類の人間関係 (友好、敵対、職斡旋…) 複数の航空会社による 航空網
  5. 5. 輸送ネットワーク • ヨーロッパの航空ネットワーク (http://muxviz.net/gallery.php)
  6. 6. 異種ネットワーク上の災害の連鎖 • 2003年イタリアの大規模停電 – 発電所の停止→インターネットのノード故障→さら なる発電所の停止→… Sergey V. Buldyrev et al., "Catastrophic Cascade of Failures in Interdependent Networks" Nature 464, pp.1025-1028, 2010 発電所ネット インターネット
  7. 7. 様々な用語 • multilayer network, multiplex network, multivariate network, multinetwork, multirelational network, multirelational data, multilayered network, multidimensional network, multisilice network, multiplex of interdependent networks, hypernetwork, overlay network, composite network, multilevel network, multiweighted graph, heterogeneous network, multitype network, interconnected networks, interdependent networks, partially interdependent networks, network of networks, coupled networks, interconnecting networks, interacting networks, heterogeneous information network, meta-network, …
  8. 8. 様々な用語 • (Kivela et al., “Multilayer Networks”より)
  9. 9. 1. multilayer networksとは • M=(VM, EM, V, L) – V: 頂点集合 – L: レイヤの集合の列(0次元:通常ネットワーク, 1 次元:上図, 2次元:下図) – VM:頂点とレイヤのタプルの集合 – EM:辺集合(タプルの組の集合) V={1,2,3,4} L={L1,L2}, L1={A,B}, L2={X,Y} VM={(1,A,X), (2,A,X), (3,A,X),…} EM={((1,A,X),(2,A,X)), ((1,A,X),(1,B,X)),…}
  10. 10. Layer間のつながり • 1次元vs2次元
  11. 11. 異なる種類のインタラクション • Kivera et.al, “Multilayer Networks”, Journal of Complex Networks, Vol.2, No.3, pp.203-271, 2014 異 な る 会 議 異なる種類の接触 同一人物 単純ネットワークでの表現MAP, MB, YYA, ACの4人のネットワーク
  12. 12. 単純ネットワークへの変換 • 便宜的に単純なネットワークへの変換(aggregation, projection) – 全てのlayerを1枚のlayerに押しつぶす • 情報が失われる – layer内の辺の差の情報が失われる – layer間の辺の情報が失われる – layer毎の異なる性質(次数分布等)が不明確にな る
  13. 13. multiplex(multislice) :単純化した multilayer • Lが1次元、全頂点が各レイヤに出現、レイヤ 間を結ぶ辺(coupling)が – 全ての対応頂点間のもの(categorical coupling) – 隣接する対応頂点間のもの(ordinal coupling) ordinal coupling categorical coupling
  14. 14. 2. トピックス • テンソルによる表現 • ランダムウオーク、移動可能性(navigability) • multilayer networkのランキング • temporal networkとmultilayer network • multilayer networkのネットワーク特徴量 • multilayer networkの生成モデル • multilayer networkのコミュニティ抽出
  15. 15. 隣接行列とテンソル • 通常ネットワークG=(V,E)における隣接行列 – A∈{0,1} |V|×|V| (2次元行列) – Aij = 1 iff (i,j) ∈E • multilayer networkM=(VM, EM, V, L)における隣 接テンソル – A∈{0,1} |V|×|V|×|L1|×|L1|×…×|Ld|×|Ld| – Auvαβ = 1 iff ((u,α),(v,β)) ∈EM
  16. 16. テンソル • n次元の隣接行列 頂点 レイヤ レイヤ間 基底 レイヤ内 基底
  17. 17. “Mathematical Formulation of Multilayer Networks” • Manlio De Domenico, Albert Sole-Ribalta, Emanuele Cozzo, Mikko Kivela, Ytamir Moreno, Mason A. Porter, Sergio Gomez and Alex Arenas • Physical Review X, 3, 041022, 2013, 15pages • ネットワーク特徴量(次数中心性、クラスタ係数、固有 ベクトル中心性、モジュラリティ、von Neumann entropy, diffusion)をテンソル表現に拡張。特殊な場合 として単一レイヤネットワークでのテンソル表現は既 存の特徴量と同一になることを示す。 • multiplexに限定されず、一般的なmultilayerでの枠組。
  18. 18. “Diffusion Dynamics on Multiplex Networks” • S. Gomez, A. Diaz-Guilera, J. Gomez-Gardenes, C. J. Perez-Vicente, Y. Moreno, A. Arenas • Physical Review Letters, 110, 028701, 5pages, 2013 • 2層のmultiplex networkにおけるsupra- Laplacianの定義 ((N1+N2)×(N1+N2)の行列で 表記) • Layer間の係数が小さい場合と大きい場合に 分けて議論
  19. 19. 移動可能性(navigability) • multilayer networkでのランダムウオーク – 時刻t+Δtのレイヤβの 頂点jでの滞在確率 同一頂点 に留まる 他レイヤ の対応頂 点に移動 同一レイ ヤの他頂 点に移動 他レイヤ の他頂点 に移動
  20. 20. Multilayer networkとしてのロンドン交 通網 • ランダムな故障に対する理論的耐性 (resilience)は、実際の地下鉄不通のtweetに よる実データとかなり一致
  21. 21. “Navigability of interconnected networks under random failures” • Manlio De Domenico, Albert Sole-Ribalta, Sergio Gomez, and Alex Arenas, PNAS, doi 10.1073/pnas.1318469111 (2014) • ランダムウオークによるカバレッジ、ランダムな 故障に対するresilienceについて • Navigationを(i)同じノードに留まる(ii)同じレイヤ 内i->jに移動(iii)同じノードでレイヤα->βに移動 (iv)異なるノードi->j異なるレイヤα->βに移動に分 けて定式化 • London地下鉄や航空ネットワークなどのシミュ レーションと実データとの比較
  22. 22. multilayer networkでのランキング • multilayer networkとそれをaggregateした単 純ネットワークとではランキングが異なる – 周辺的なノードの中心性を過剰評価する傾向
  23. 23. “Ranking in interconnected multilayer networks reveals versatile nodes” • Manlio De Domenico, Albert Sole-Ribalta, Elisa Omodei, Sergio Gomez, Alex Arenas • Nature Communications 6, Article number:6868, Published 23 April 2015 • doi:10.1038/ncomms7868 • Multilayer networkの中心性としてversatile centralityを提案。Aggregateなものと比較して 予測精度が向上。航空会社ネットワークでの 渋滞シミュレーションなどで実験
  24. 24. temporal networkとしてのmultilayer network • 一定の間隔毎に切ってmultilayer network化 – 「一定の時間間隔」をどう決めるか – layer間の辺の強さをどう決めるか A B C D EF 0<=t < 5 A B C D EF 5<=t < 10 A B C D EF 10<=t < 15 "Temporal Networks", Petter Holme, Jari Saramakid, Physics Reports, Vol.519, Issue 3, pp.97–125, 2012
  25. 25. “Temporal Networks”でのランダム化 時刻をランダム化 頂点ペアは不変 元の動的グラフ 頂点ペアをランダ ム化 時刻は不変 RP RE
  26. 26. RPとRE • RP(randomly permuted times): – コンタクト時刻をランダム化 – トポロジーは不変 • RE(randomized edges) – 各辺の端点を他辺のとランダムに交換 – トポロジーは変わる 各時刻の辺出現数は不変 コンタクト順序の影響 を調べるのに使う トポロジーの影響 を調べるのに使う RP RE
  27. 27. ネットワーク特徴量 • 例: クラスタ係数 • [Manlio De Domenico, 2013]は次数中心性、 クラスタ係数、固有 ベクトル中心性、モ ジュラリティ、von Neumann entropy, diffusion)をテンソル 表現に拡張。
  28. 28. Multilayer networkの特徴量 • (Kivela et al., “Multilayer Networks”より) • layer内networkを比較する特徴量 – global overlap[45]: 2つのlayerで共有する辺の数 – global inter-clustering coefficient[259]:layerにまたがるクラスタ係数 – layer間の隣接行列要素の相関[19] – degree of multiplexity[178]:(複数の型の辺をもつ頂点ペア数)/(全ての頂点ペ ア数) – 次数やlocal clustering coefficientの相関[19,104,182,250,259] • 純粋にmulti-layerに特有の特徴量 – interdependence[234,250]:最短パスの中で、複数のlayer辺が使われる割合 – 全頂点が全layerにあるmultiplex network以外の特徴量 • 頂点のmultiplexity degree [285]:その頂点が存在するlayerの数 • [67]:社会ネットでmultiplexity degreeが1のものと2以上のもの(bridge)を比較 – layer毎に別communityと解釈なら、assortativityやmodularityも特徴量[226]
  29. 29. ネットワーク生成モデル • (節番号や論文引用はKivela et al., “Multilayer Networks”のもの)
  30. 30. 4.3 Models of Multiplex Networks • 人工multiplex networksを作る単純な方法 – 通常の生成モデル(ER random graph や configuration model)を用いて各層を作り、次に layer間を辺でつなぐ[125,199,231][125,217] – 各層を独立に作ったmultiplex networkから始め て、次に(ノードのラベルを変えるなどして)layer間 の相関を作り出す方法[104] • Exponential random graph models (ERGMs)は multilevel networksやmultiplex networksを扱 える [122,273,274][153]𝑃(𝐺 𝑀) = exp 𝜃 ∙ 𝑓 𝐺 𝑀 𝑍 𝜃 model parameter を表すベクトル 正規化関数 network diagnostics(異 種辺の△)のベクトル
  31. 31. microcanonical/canonical network ensembles[256,316] • microcanonical ensembles – 制約集合を厳密に満たすネットワークの集合 • canonical network ensembles – Shannon entropy最大化:平均的に制約を満たす – multiplex networkよりも辺の重なりに対して有効 • (空間に埋め込まれた)spatial networksのモデ ル化に使われる[150]
  32. 32. 他の生成モデル • 優先的選択などの手法をmultiplex networkに拡 張したもの – Criado[95](一部の頂点だけを含んだ)layerを増やすこ とでmultiplex networkの成長をモデル化 – 優先的戦略で辺や頂点を追加するもの[182,214,250] • layer間の辺が作られる確率は、layer内の次数(からなる関 数)に比例 • attachment kernelがaffine(平行移動を伴う線形写像) • 異なるlayerに頂点が異なる回数だけ生成されるのを許すモ デル • 非線形のattachment kernel attachment kernel
  33. 33. 4.4 Models of interconnected networks • monoplexネットワークの生成モデルを他のmultilayer に一般化 – 動的プロセスの研究にモデルは有効 • 似通ったネットワークモデルの研究 – interacting network, node color, node type, module – block modelやmixture modelによるモデル化も • 単純な方法は各layerを作って、異なるlayer間をランダ ムに辺で結ぶ(lattice, ER random graph, configuration network, BA network) – 均一にランダムにする必要はない • layer間を結ぶ異なる戦略で中心性がどう変わるかの研究 • SIRでの伝搬にどう影響するかの研究
  34. 34. configuration modelの拡張 • 複数の次数分布を多変数で表す – [10,200] – Soderberg – Newman – Gleeson – [17] node-colored graphのERモデル – [9] node-colored 2部グラフのconfiguration model • layer内-layer間の次数相関を取り入れたモデ ル 𝑃𝛼(𝑘1, … , 𝑘 𝑏) layer αの頂点がlayer βの頂点kβ個とつながる確率 𝑃(𝑘1, … , 𝑘 𝑏) layer独立な多次元分布 + 𝜏 𝛼𝛽 layerαとβ間 の辺の割合 𝑃𝛼(𝑘) 各layerの次数分布 + mixing matrix layer間の 辺の割合 結合確率行列P 𝑃 𝛼𝛽(𝑘) layerαの頂点がk個のlayerβ の頂点とつながる確率 𝑃 𝛼𝛽(𝑘, 𝑘′) layerα内で次数kの頂点がk’個のlayerβの頂点とつながる確率 𝑃 𝛼𝛽(𝑘 𝛼𝛼, 𝑘 𝛼𝛽, 𝑘′ 𝛽𝛽, 𝑘′ 𝛼𝛽) layer間次数layer内次数
  35. 35. configuration model • (2頂点をランダムに選んで辺を追加する) random graphでは次数分布がポアソン分布 • 任意の次数分布のネットワークを生成する手 法 – 与えられた次数の切り株を用意 – 切り株の間をランダムにつなぐ 頂 点 次 数 a 2 b 2 c 3 d 3 e 4 a b c d e b c ed a a b c d e
  36. 36. パラメータ Stochastic block model (1) • 与えられたグラフの背後にある生成モデルの パラメータ – k:グループ数 – 𝑧:各頂点のグループID – M:グループ間の結合確率の行列(k*k) • モデルからグラフを生成 – 頂点iとjの間の辺をMzizjの確率で生成(ziとzjは頂 点iとjが属するグループのID) • グラフからモデルを推定 予め与える http://tuvalu.santafe.edu/~aaronc/courses/5352/fall2013/
  37. 37. Stochastic block model (2) • M(stochastic block matrix)と生成されるグラフ – グループ内:ランダムグラフ、グループ間:ランダム 2部グラフ http://tuvalu.santafe.edu/~aaronc/courses/5352/fall2013/ 対角成分0.50 それ以外0.01 →グループ内が密 対角成分0.01 それ以外0.12 →グループ間が密
  38. 38. コミュニティ抽出 • (節番号や論文引用はKivela et al., “Multilayer Networks”のもの)
  39. 39. 4.5 Communities and other mesoscale structures • monoplex networkでもコミュニティの定義は様々 • multilayer networkではさらにひどい状況 – 次数ひとつとってもいろいろな拡張があるから • blockmodeling[33,112,152,350] – 類似結合パターンの頂点集合を出力 – 必ずしも密な部分を見つけるものではない • roleを割り当てる[264] • monoplexからスタートしてlayerを割り当てて multilayerにする[83,270]
  40. 40. Community structure in multilayer networks (1) • multilayerでのコミュニティ抽出研究は僅か • Muchaによるmodularityの拡張[237,238] – ひとつの頂点がlayerによって別のコミュニティに 属しても良い – 最適化は計算量的に問題 • 特にtemporal networkの時に顕著 • 最適解を維持してサイズを小さくする手法[12]を multislice modularity最適化に適用[74] 𝑄 𝑚𝑢𝑙𝑡𝑖𝑠𝑙𝑖𝑐𝑒 = 1 2𝜇 𝑖𝑗𝑠𝑟 𝐴𝑖𝑗𝑠 − 𝛾𝑠 𝑘𝑖𝑠 𝑘𝑗𝑠 2𝑚 𝑠 𝛿 𝑠𝑟 + 𝛿𝑖𝑗 𝐶𝑗𝑠𝑟 𝛿 𝑔𝑖𝑠, 𝑔𝑗𝑟 i,j:node r,s:slice Aijs:slice sのnode i-j間の辺 Cjsr:node iのslice s-r間の辺 Kis:node iのslice s内の次数 2ms:slice s内の辺総数 γs:slice s内のresolution parameter 2μ:全sliceの辺総数 slice node "Community Structure in Time-Dependent, Multiscale, and Multiplex Networks",Peter J. Mucha et al., Science Vol.328 No. 5980 pp.876-878 2010.
  41. 41. Community structure in multilayer networks (2) • multilayer networkのnull modelをどうするか – modularityは「ランダムな」ネットワークと比べて密かを調べる 関数 – null modelの決め方によって、得られるコミュニティも異なる – [29]はいろいろなnull modelを提案 – Multislice modularityの最適化 • 政党の再組織化[237,238] • 振る舞いのダイナミクス[362] • 脳機能ネットワーク[30,32] • 非線形振動子の動的な出力の振る舞い[29,31] • 国際関係ネットワーク[94] – モジュラリティだけでなくコミュニティ抽出手法もmultilayerに拡 張[237,238][96]
  42. 42. Community structure in multilayer networks (3) • Spectral clusteringの拡張 – [228]はspectral clusteringと、 hypergraphへのPerron- Frobenius theoremを拡張し、multilayer networkを hypergraphに写像したものに適用 – [204]:heavy subgraphの拡張(recurrent heavy network) • 各layerで従来手法でコミュニティを抽出 – [20]では各layerでのコミュニティと、全layerをつぶした aggregated networkのコミュニティを比較→かなりの違い あり→aggregationによって情報欠損 – [44]では各layerでコミュニティを抽出し、各頂点を tuple(c,α)で表現し、(閾値以上出現する)layer内コミュニ ティの集合としてmultilayer communityを定義
  43. 43. Community structure in multilayer networks (4) • multilayer networkをaggregateすれば(つぶせば)、従来のコミュニ ティ抽出手法が適用可→全ての可能な(2bの)aggregationを試す [213] • [333]:各layerでの目的関数(utility matrix)の和をutility integration と定義 – modularityならutility matrix=modularity matrix • Inverse community detection – 真のcommunityが与えられている→aggregateしたネットワークから真 のコミュニティが抽出されるようにaggregateの際の線形結合の重みを 調整する[72] – [275]:より複雑な重みづけ(metaclustering) • ランダムな重みづけでいろいろaggregateして、それぞれをclusteringして、異 なるclusterの距離行列を作る←階層クラスタリングを用いてコミュニティ抽出 • Multi-relational dataのクラスタリング手法[319-321]
  44. 44. 4.5.2 methods based on tensor decomposition • monoplex networkに対するSVDのように、 multiplex networkに対してはtensor- decompositionを用いる – CANDECOM/PARAFAC(CP):𝐴 𝑢𝑣𝛼 ≈ 𝑟 𝑅 𝑥 𝑢𝑟 𝑦𝑣𝑟 𝑧 𝛼𝑟 • 𝑥, 𝑦 ∈ 𝑅 𝑛×𝑅, 𝑧 ∈ 𝑅 𝑏×𝑅 – three-way DEDICOM, Tucker decomposition [14,322] – Nonnegative tensor factorization [131] – hypergraphのクラスタリング手法を利用[207]
  45. 45. “Comparison of communities detection algorithms for multiplex” • Chuan Wen Loe, Henrik Jeldtoft Jensen • Physica A: Statistical Mechanics and its Applications, Volume 431, 1 August 2015, Pages 29–45 • http://www.sciencedirect.com/science/article/pii/S0378437115002125 • multiplex networkからのコミュニティ抽出手法の比較を行った論文。人工 ネットワークとして、Erdos-Renyiランダムグラフ、WSスモールワールドグラ フ、BAスケールフリーグラフの3つを組み合わせた6通りの2層グラフに対 して、projection3種類(A1A2A3)、クラスタベース類似度分割(A4)、一般カ ノニカル相関(A5)、CLECC bridge検出(A6)、頻出パターンマイニング(A7)、 テンソル分解(A8)の8通りでコミュニティ抽出を行い、類似点や相違点を 比較。Redundancy, CLECC, modularityに注目して2層コミュニティを結合し たSSRM(structured synthetic random multiplex)というベンチマークを提案 • 評価手法としてはNMIの他に、overlapping communitiesの評価手法とし てOmega Indexを使う。これは同じコミュニティに属する頂点ペアの集合を 考え、二つの分割でのその集合のANDの大きさをもとに計算する指標。
  46. 46. “Finding Redundant and Complementary Communities in Multidimensional Networks”• Michele Berlingerio, Michele Coscia, Fosca Giannotti, CIKM 2011, pp.2181-2184, 2011. • Multidimensional networkにおけるコミュニティの評価指標として、 complementarityとredundancyを提案 • コミュニティ抽出手法自体は、multilayerを単一layerに重みづけ projectionして既存手法を利用。 • IMDbの実データで3つのコミュ抽出手法(Label propagation, random walk, fast greedy optimization)、3つの重みづけ手法 (flattening, 重み付きflattening, common neighbor重みづけ)の結 果を比較 • 3つの問いQ1:異なる重みづけとコミュ抽出手法での性能評価、Q2: 重みづけとコミュ抽出手法が、complementarityとredundancyの分 布に与える影響、Q3:重みづけとコミュ抽出手法のベストパラメータ • コミュニティの実例も示す。 multilayer networkをaggregateして コミュニティ抽出する論文も多い
  47. 47. 3. ツール • MuxViz – http://muxviz.net/ – Multilayer networkの可視化・分析ツール • GenLouvain – http://www.plexmath.eu/?page_id=327 – コミュニティ抽出手法のLouvain法[Blodel 2008]を multiplexに拡張 • MapEquation – http://www.mapequation.org/ – ランダムウオークによるコミュニティ抽出手法Infomap [Rosvall, 2008]をmultiplexに拡張
  48. 48. Multilayer Networksの可視化 • http://www.plexmath.eu/?page_id=327 • http://muxviz.net/
  49. 49. 4. データセット(1) • 実データ [Kivela 2014]参照
  50. 50. 4. データセット(2) • 人工データ – mLFR Benchmark: Testing Community Detection Algorithms in Multi-layered, Multiplex and Multiple Social Networks (Netsci2015 talk) – https://www.ii.pwr.edu.pl/~brodka/mlfr.php
  51. 51. 5. 関連会議 • NetSci – http://netsci2017.net/ (2017.6.19-23, Indianapolis) • NetSci-X – http://netsci-x.net/ (2017.1.15-18, Tel-Aviv) • CompleNet – http://complenet.org/CompleNet_2017/Home.html (2017.3.22- 24, Dubrovnik) • CCS(ECCS) – http://www.ccs2016.org/ (2016.9.19-22, Amsterdam) • International Workshop on Complex Networks and their Applications – http://www.complexnetworks.org/ (2016.11.30-12.2, Milan)
  52. 52. 6.参考文献 • チュートリアル – Mason Porter: “Multilayer Network Tutorial” https://web.stanford.edu/group/networkforum/cgi-bin/drupal/node/53 – Alex Arena: “Multilayer interconnected complex networks: an introduction” http://lbs.epfl.ch/files/content/sites/lbs/files/shared/talks- guests/EPFL_Arenas.pdf – Rushed Kanawati: “Mining Multiplex Network: A tutorial” http://lipn.fr/munm/MUNM/Home.html • サーベイ論文 – Kivela et al., “Multilayer Networks”, Journal of Complex Networks 2 (3), pp.203 - 271 (2014), http://comnet.oxfordjournals.org/content/early/2014/07/14/comnet.c nu016 – Boccaletti et al., “The structure and dynamics of multilayer networks”, Physics Reports, 544, pp.1-122 (2014), http://www.sciencedirect.com/science/article/pii/S0370157314002105
  53. 53. 似ている?似てない? • 多層ネットワーク • 2部ネットワーク、n部ネットワーク • Deep Neural Network (DNN)
  54. 54. 多層ネットワーク と DNN • 1. DNNによるグラフ処理 – (a) CNNの畳み込みの一般化 – (b) オートエンコーダのグラフクラスタリングへの 適用 • 2. DNNの圧縮
  55. 55. 1.DNNによるグラフ処理 1(a)CNNの畳み込みの一般化 • Bruna et al. :”Spectral Networks and Deep Locally Connected Networks on Graphs” (ICLR13) https://arxiv.org/abs/1312.6203 • Henaff et al. :”Deep Convolutional Networks on Graph-Structured Data”, http://arxiv.org/abs/1506.05163 • Niepert et al.:”Spectral Representations for Convolutional Neural Networks” (ICML16) http://arxiv.org/abs/1506.03767 1(b)オートエンコーダのグラフクラスタリングへの適用 • Tian et al., “Learning Deep Representations for Graph Clustering” (AAAI14) http://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/852 7 • Shao et al., “Deep Linear Coding for Fast Graph Clustering” (IJCAI15) http://ijcai.org/Proceedings/15/Papers/534.pdf
  56. 56. 1(a) CNNの畳み込みの一般化 • Convolutional Neural Network – 畳み込み層とプーリング層を交互に積み重ねた 構造を持つフィードフォワード型のニューラルネッ トワーク – フィルタ(小領域)内の情報を圧縮(畳み込み)して ある特定の入力データに反応する局所的な受容 野(receptive field)を構成 – 多くの場合フィルタは正方のgrid←一般化可能 LeNet5 [LeCun 98]
  57. 57. Spectral Networks and Deep Locally Connected Networks on Graphs • Bruna et al., ICLR13 • CNNのconvolutionを隣接gridでなく一般のグラフ に拡張 – Spatial construction • 近接ノードの多階層クラスタリング – Spectral construction • Graph Laplacianでの線形変換 • NMISTデータとその球面上データ・回転データで 実験。スムース化によって空間的局所性が出て くる。 – 概念としては面白そうだが応用はあるのか?
  58. 58. Deep convolutional networks on Graph-structured data • Henaff et al., (2015) http://arxiv.org/abs/1506.05163 • [Bruna ICLR13]の高次元への一般化を目指す • 従来のDeep learningが成功したデータの性質 – stationarity – compositionality – local statistics • CNNを高次元の一般のデータセットに一般化 – Graph estimation -> graph convolution – Text categorization, bioinformaticsに適用 – 全結合よりパラメータ数少なく、性能向上 – 大規模化、グラフ構造の事前知識不要 • 1. Graph Fourier Transform フーリエ変換して畳み込み • 2. 階層グラフクラスタリングに基づくPooling • 3. Spectralなデータからgraphの復元(ユークリッド距離等からdiffusion kernelを作る)
  59. 59. Learning Convolutional Neural Networks for Graphs • Niepert et al. (ICML 2016) – https://arxiv.org/abs/1605.05273 • グラフをCNNの入力としたい – PATCHY-SANアルゴリズムの提案 • graphlet (motif)に注目したkernel • 計算量はグラフ数に対し線形 • 学習したfeatureを可視化
  60. 60. PATCHY-SAN • グラフ同士の類似度を測るグラフカーネル(Weisfeiler- Lehman Kernel)に基づいて頂点をソート • 各頂点について近い頂点を選択 • その頂点に順番をつける • 並べてテンソル(多次元行列)を作る • 詳しくは秋葉さんのslideshareを参照 – http://www.slideshare.net/iwiwi/learning-convolutional- neural-networks-for-graphs-64231265
  61. 61. 1(b).オートエンコーダのグラフクラスタ リングへの適用 • 3層NNにおいて、入力層と出力層に同じデー タを用いて学習させたもの • 類似度行列(隣接行列)を低次元空間に埋め 込む – スペクトラルクラスタリングとの類似性
  62. 62. Learning Deep Representations for Graph Clustering • Fei Tian, Bin Gao, Qing Cui, Enhong Chen, Tie-Yan Liu, AAAI 2014. • スペクトラルクラスタリングとオートエンコーダの類似 性に注目->Stacked sparse autoencoderを使ったグラフ 分割 • スペクトラルクラスタリングより効率的で柔軟 – オートエンコーダの計算量はノード数に対し線形(スペクト ラルクラスタリングは固有値分解で二乗以上) – スパースの制約があれば、スパースなオートエンコーダを 使える(スパースなスペクトラル手法は単純でない) • 非常に密なデータ(Wine, newsgroup, protein-protein interaction, BioGrid)を用いて実験
  63. 63. Deep Linear Coding for Fast Graph Clustering • Ming Shao, Sheng Li, Zhengming Ding, Yun Fu, IJCAI15 http://ijcai.org/Proceedings/15/Papers/534.pdf • 高速グラフクラスタリングのためのDeep Linear Coding – 提案手法はスペクトラルクラスタリングの枠組みを維持し て(計算コストの高い)固有値分解を排除 – Linear transform function (W)とdiscriminative coding (A)の 両方を交互に学習 – 局所的なひずみに対して頑強であり、大規模データでは スペクトラルクラスタリングと比べて1500倍程度高速 – Mnistなどの画像データを用いた実験で、スペクトラルクラ スタリングベースの手法(Spectral, Nystrom, KASP等)よりも スピードと精度の両方において優位
  64. 64. 2.DNNの圧縮 • 深層学習研究の多くはDNNのlayer数を増大させて学 習精度を向上させることに主眼を置いている – 得られたDNNのサイズが大きすぎて実際の活用が困難 • 学習結果を(ストーレッジや消費電力に制約のある)モ バイル端末で活用するためにDNNの圧縮が必要 – (学習器をクラウド上に置いて通信しながら実行する場合 と比較して)応答速度や通信回線に対する負荷が小さい – プライバシー保護の面でも有効
  65. 65. Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding • Song Han, Huizi Mao, William J. Dally • http://arxiv.org/abs/1510.00149 • ICLR 2016 のbest paper • 学習済DNNが大きくモバイルデバイスに入らな い->メモリサイズの削減 • 3段階の処理(pruning, trained quantization, Huffman coding)で1/35~1/49に
  66. 66. 1. pruning • 閾値以下の結合を除去 • 残った疎行列を相対インデックスで表現 – 上限(8)を超える場合は0で埋める
  67. 67. 2. Trained quantization & weight sharing(1) • 量子化 – 重み行列をグループ化し中央値で代表 – 勾配行列の要素もそのグループでまとめ、学習 率を掛けて先の中央値から引く • 圧縮率 – 𝑟 = 𝑛𝑏 𝑛𝑙𝑜𝑔2 𝑘 +𝑘𝑏 – 𝑟 = 16∙32 2∙16+4∙32 = 3.2 結合数 各結合の ビット数 クラスタ数
  68. 68. 2. Trained quantization & weight sharing(2) • 重み共有 – k-meansでクラスタリング(初期値としてForgy(random), Density-based, Linearを試す) – 層をまたぐ共有はしない • n個の重み𝑊 = 𝑤1, 𝑤2, … , 𝑤 𝑛 をk個のクラスタ 𝐶 = 𝑐1, 𝑐2, … , 𝑐 𝑘 に分割。クラスタ内平方和 (WCSS)を最小化 – argmin 𝐶 𝑖=1 𝑘 𝑤∈𝑐 𝑖 𝑤 − 𝑐𝑖 2 • HashNet[Chen2015]とは異なり、訓練後に重み 共有を行う
  69. 69. 3.Huffman coding • よく出現する文字には短いビット列を、あまり 出現しない文字には長いビット列を割り当て る • 重みの分布は偏っている(例:AlexNet)
  70. 70. 実験結果 • 精度を落とすことなく35~49倍の圧縮
  71. 71. “EIE: Efficient Inference Engine on Compressed Deep Neural Networks” • Song Han, Xingyu Liu, Huizi Mao, Jing Pu, Ardavan Pedram, Mark A. Horowitz, William J. Dally, arXiv:1602.01528v1 • 圧縮したDNNを用いた推論機構
  72. 72. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size • Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer • https://arxiv.org/abs/1602.07360 • 多くの研究は精度向上を目指しているが、精 度が同じなら小さいCNNの方が良い • ImageNetでAlexNetレベルの精度でパラメー タ数を1/50に。モデル圧縮もおこなうと0.5MB 以下に(AlexNetの1/510)
  73. 73. SqueezeNet • CNNアーキテクチャデザイン戦略 – 3x3フィルタを1x1フィルタに置き換え – 3x3フィルタへの入力チャネル数を減らす – delayed downsamplingの導入(Convolution layer が大きなactivation mapを持つように) • Fireモジュールの導入、ReLU, Dropoutも GitHubにコードあり https://github.com/DeepScale/SqueezeNet
  74. 74. まとめ • 現実の複雑な関係を表現・分析する枠組みと しての多層ネットワーク • DNNは対岸の火事ではない • 「密で」「重み付きで」「多層の」 DNNをネット ワークとして扱うための手法/環境の整備を

×