確率モデルを使ったグラフクラスタリング

5,259 views

Published on

0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,259
On SlideShare
0
From Embeds
0
Number of Embeds
55
Actions
Shares
0
Downloads
27
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

確率モデルを使ったグラフクラスタリング

  1. 1. 確率モデルを用いた グラフクラスタリングの手法 (文献紹介) 数理第四研究室 M1 坪坂正志 指導教員 : 増田 直紀 講師 2007年 11月 30日(金)
  2. 2. 文献紹介 [1]M.E.J. Newman. Mixture models and exploratory analysis in networks. PNAS, Vol. 104, No. 23, pp. 9564-9569, 2007. [2]桑田, 上田, 山田.ノンパラメトリックベイズモデル によるグラフクラスタリング. PRMU2007-41, Vol. 107, No. 115,pp. 81-86, 2007. 数理情報学輪講 2
  3. 3. 発表概要 • 確率モデルをもちいたグラフクラスタリングの 方法およびその実ネットワークに対しての適 応例について紹介する. • まず文献[1]の確率モデル及びEMを用いた推 定法について述べる.次に文献[2]のクラス数 を固定しない拡張モデルについて述べる. 数理情報学輪講 3
  4. 4. グラフクラスタリングの例 数理情報学輪講 4 [1] より、左が空手クラブの人間関係ネットワークの グラフ,右が単語の接続関係のグラフで名詞と接 続詞で分けている.
  5. 5. グラフクラスタリングの方法 • ネットワークの特徴に基づく方法 – クリークや中心性,modularity などのある尺度に もとづいてクラスタリングを行う. – 決定的,クラスタの構造を仮定する. • 確率モデルに基づく方法(今回紹介) – リンクの生成モデルを考え,モデル学習を通じて クラスタリングを行う. – 確率的,クラスタの構造は仮定しない 数理情報学輪講 5
  6. 6. 特徴量に基づく方法 数理情報学輪講 6 あらかじめクラスの特徴を定義して,それに基づ いてクラスタリング 例: クラスはクリークである 実際のネットワークの構造を 知りたいからクラスタリングを 行うのにネットワークの構造を 仮定するのは矛盾では? (chicken-and-egg problem)
  7. 7. 確率モデルに基づく方法 • ノードは何らかのクラスに帰属していて,それ に基づいてリンクを生成している. 数理情報学輪講 7 1 2 3 4 5 6 同一のクラスに属する ノードは同一の確率分布 に従ってリンクを生成する. 観測データから元のクラ スを推定する
  8. 8. グラフの記法 数理情報学輪講 8 A: グラフを表す接続行列. がノード iから ノードjへのリンクの数を表す ijA iA : ノードi から出ているリンクの集合 1 2 3 4 5 6 )5,4( )6,4( )6,5,3( )4,2,1( )3,1( )3,2( 6 5 4 3 2 1       A A A A A A
  9. 9. クラスタリング 数理情報学輪講 9 頂点数 n のグラフ が与えられた時に頂点の クラスタリング を与える. A ),,,( 21 nzzzZ  1 2 3 4 5 6 )2,2,2,1,1,1(Z クラス1 クラス2
  10. 10. リンク生成モデル • 同じクラスに属するノードは同一の多項分布 に基づいてリンクを生成する. 数理情報学輪講 10  1r 2r rn  j A rjiri ij rzAp  ),|( ノードiから出ているリンク 多項分布のパラメータ,各クラスごとに 定まる
  11. 11. クラス生成モデル • クラスの個数をc とし,各ノードがクラスrに帰 属する確率を とする. 数理情報学輪講 11 r  i zi Zp )|( ),,( 1 c  各ノードのクラスは 独立に決まる
  12. 12. 全体の確率モデル 数理情報学輪講 12 )(Multi~ )(Multi~ izi i A z   データの生成確率 ),|(),,|(),|,(  ZpZApZAp           i j A zz ij ii 
  13. 13. 観測データからの推定 数理情報学輪講 13 観測データから元々のパラメータを推定したいので, 観測データの対数尤度関数を考える        Z ZApApL ),|,(ln),|(ln  上式を最大化する パラメータ を求めたい. しかし,上の式の解析的最大化は難しい. , EMアルゴリズム
  14. 14. EMアルゴリズム(導出) 数理情報学輪講 14        Z Zxp Zxp xZp xp xp )|,( )|,( ),|(ln )|( )|( ln 0 0 0      ),(: )|,( )|,( ln),|( 0 0 0     Q Zxp Zxp xZp Z   ),(maxarg 01   Q とすると 0 )|( )|( ln 0 1    xp xp 尤度関数が増大 観測変数, 潜在変数 , パラメータとするx Z 
  15. 15. EMアルゴリズム 1. 初期パラメータ をランダムに決定 t = 0とする 2. 収束するまで以下を繰り返す 1. E-Step を計算する 2. M-Step とし, t = t + 1とする 数理情報学輪講 15 ),(maxarg1 tt Q   0 ),( tQ  ),( tQ  は から計算できる   Z t t t Zxp Zxp xZp )|,( )|,( ),|(   
  16. 16. EMアルゴリズム(グラフクラスタリング) 1. をランダムに初期化 2. を計算 3. を最大化 4. 2へ 数理情報学輪講 16 , )),|,((  rzApq i j A rjrir ij   ,     i iri i irij ir i irr qk qA q n ,, 1  ),,|( Arzpq iir 
  17. 17. クラスの決定 • EMにより個々のノードのクラス帰属確率 が求まるのでノードのクラスをMAP推定する. • よりこれは も最大化している. 数理情報学輪講 17 irq irri qz maxarg  i i AzpAZp ),,|(),,|(  ),,|( AZp
  18. 18. 問題点 • ここでEMによるモデルではクラスの数をcと前 もって与えているので過学習が起こる可能性 がある. 数理情報学輪講 18 クラスの数を事前に仮定しないようなモデルが あるといい. Dirichlet Process (DP)の導入
  19. 19. Dirichlet Process(DP) • 確率分布に対する分布 • 基底分布 とパラメータ により定まる 数理情報学輪講 19 0G  基底分布を離散化した 分布が生成される. これを各データのパラメー タのpriorとして用いるのが DPM(Mixture)モデル
  20. 20. DPMによるリンク生成モデル 数理情報学輪講 20 )(Multi~ ~ ),(~ 0 ii i A G GDPG    パラメータのクラス数依存性がなくなった. さらに は離散分布からとってきてるので同じ値 をとりえる. i
  21. 21. DPの構成法 • DPの元々の定義は扱いづらいのでいくつか の等価な構成法を用いる. – Stick-breaking Process[Sethuraman,1994] – Chinese Restaurant Process[Aldous,1985] • 今回の発表ではChinese Restaurant Process による構成について紹介する. 数理情報学輪講 21
  22. 22. Chinese Restaurant Process(CRP) • クラスの数をあらかじめ仮定しないクラスタリ ングモデル 数理情報学輪講 22 1 2 3 12 テーブルに座っている客の数の比率に応じて行き先を決 定する,ただしある確率で新規のテーブルに座る. 345 1 :1 :2 :1:2 :1:3 テーブル
  23. 23. DPMとの関係 • から生成される が同じ値のものを同じク ラスとみなすとクラスの分布はCRPにおいての クラスの分布と一致する. • 逆にCRPで生成される各クラスに対して基底 分布 に従うパラメータ を割り当てる. 数理情報学輪講 23 iG 0G k 残りは基底分布をどう選ぶか
  24. 24. Dirichlet 分布 • K次元単体 上K個の確率変数 の同時分布 • 多項分布の共役事前分布 数理情報学輪講 24 11  n         k k k k k k k 1 )( )( );(Dirichlet      )(Dirichlet~,)(Multi~ x )()|()|(  pxpxp  Dirichlet 分布
  25. 25. CRPによるリンク生成モデル 数理情報学輪講 25 )(Multi~ )(Dirichlet~ )(CRP~ izi k A Z    0G をDirichlet分布とする. こうすることによりこの後の計算が簡単になる. クラスはCRPから生成してるので事前に個数を 仮定していない.
  26. 26. ギブスサンプリング 数理情報学輪講 26 )|( :1 Azp n からのサンプリングを求める手法 1 432 1z 2z 3z 5z 7z 4z 6z nz :11. からある を選択しクラスから外す.iz 2. にもとづいて を更新)|( ii zkzp  iz
  27. 27. 更新式(1) 数理情報学輪講 27 )|()|(),|( kzApzkzpzAkzp iiiiiii   第一項はCRPの定義より             k n k n m zkzp ki ii    1 1 )|( , は新規クラス },;{#, ijkzjm jki  は既存のクラス
  28. 28. 更新式(2) 数理情報学輪講 28           dDAp dHAp kzAp i kciki ii )|()|( )|( )|( , 既存クラス 新規クラス Dirichlet:D 分布          j j ij A ij ii i i jij DApd 1 )( )( )|()|(      )()( )()(      j ijjjj ijjjj j A A  
  29. 29. 更新式(3) 数理情報学輪講 29    ),|()|()|( kzApApdkzAp iikkikii  )),(()),(( )),(()),((        j ijijj ijjij j jkmjkm jkmjkm     kzl lj l Ajkm , ),( クラスkからノードjに出ている枝の本数 既存クラスの時も同様に計算でき ),|( iii zAkzp  が求まったのであとはギブスサンプリン グを実行
  30. 30. 実験概要 • 実験1 – 人工的に発生させたグラフデータに対して,EMに よるクラスタリングとCRPによるクラスタリング方法 の二つを適用して精度を比較した. • 実験2 – Wikipedia 日本語版の記事中のハイパーリンクに よるグラフに対してCRPによるクラスタリングを適 応した. 数理情報学輪講 30
  31. 31. 実験1 • ノード数128 でクラス2のグラフを次のように 作成. – ノードを確率0.5でクラス1 , 確率0.5 でクラス2に割 り振る. – 各ノードはリンクを確率 で同一(異なる) クラスのノードを張る.ノードの平均次数は16とす る. 数理情報学輪講 31 )( outin pp
  32. 32. クラスタリングの精度 数理情報学輪講 32
  33. 33. 実験2 • Wikipedia 日本語版の記事からカテゴリ科学, 自然,地理,人間,歴史およびそのサブカテ ゴリに属する記事を取り出し,記事中のハイ パーリンクに基づいた有向グラフを作成. • ノード数3708, エッジ数22033のグラフ. • CRPを用いたクラスタリングを実行した. 数理情報学輪講 33
  34. 34. クラスタリング結果(1) 数理情報学輪講 34 サイズ クラスタ内の記事 197 物理学, 理科, 相互作用, 宇宙論, 電磁気学 194 人体, 社会文化的進化, ヒト, 人間, 死, 生物 174 化学元素発見の年表 , 同位体の一覧,元素の記号 順一覧 ,元素の名前順一覧 ,金,水銀 , チタン 157 水, 地球 , 温室効果, 月, 水循環, 土壌, 海, 地下水 114 歴史学, 歴史の一覧, 歴史, 心性史, 民俗資料 108 軍事史, 国家, 近代, 死刑存廃問題,君主,絶対王政 105 天体一覧, 太陽系, 宇宙, 彗星, 天文学, 夜, 昼 105 生物学, 科学史, 自然科学, 科学研究費補助金 上位8クラスタの内容の一部
  35. 35. クラスタリング結果(2) 数理情報学輪講 35 上位20クラスタの相 互のリンクの様子 科学 自然 地理 人間 歴史
  36. 36. まとめ • 多項分布に基づいたリンク生成モデルを用い て,モデル学習を行う方法としてEMアルゴリ ズムとギブスサンプリングによる二つの方法 を紹介した. • 人工データおよび実データにおいてクラスタリ ングを適応することにより,有効にクラスタリ ングを行えることを示した. 数理情報学輪講 36
  37. 37. 今後の課題 数理情報学輪講 37

×