Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
確率モデルを用いた
グラフクラスタリングの手法
(文献紹介)
数理第四研究室 M1 坪坂正志
指導教員 : 増田 直紀 講師
2007年 11月 30日(金)
文献紹介
[1]M.E.J. Newman. Mixture models and exploratory
analysis in networks. PNAS, Vol. 104, No. 23,
pp. 9564-9569, 2007.
[...
発表概要
• 確率モデルをもちいたグラフクラスタリングの
方法およびその実ネットワークに対しての適
応例について紹介する.
• まず文献[1]の確率モデル及びEMを用いた推
定法について述べる.次に文献[2]のクラス数
を固定しない拡張モデルに...
グラフクラスタリングの例
数理情報学輪講 4
[1] より、左が空手クラブの人間関係ネットワークの
グラフ,右が単語の接続関係のグラフで名詞と接
続詞で分けている.
グラフクラスタリングの方法
• ネットワークの特徴に基づく方法
– クリークや中心性,modularity などのある尺度に
もとづいてクラスタリングを行う.
– 決定的,クラスタの構造を仮定する.
• 確率モデルに基づく方法(今回紹介)
– ...
特徴量に基づく方法
数理情報学輪講 6
あらかじめクラスの特徴を定義して,それに基づ
いてクラスタリング
例: クラスはクリークである
実際のネットワークの構造を
知りたいからクラスタリングを
行うのにネットワークの構造を
仮定するのは矛盾では...
確率モデルに基づく方法
• ノードは何らかのクラスに帰属していて,それ
に基づいてリンクを生成している.
数理情報学輪講 7
1
2
3
4
5
6
同一のクラスに属する
ノードは同一の確率分布
に従ってリンクを生成する.
観測データから元のク...
グラフの記法
数理情報学輪講 8
A: グラフを表す接続行列. がノード iから
ノードjへのリンクの数を表す
ijA
iA : ノードi から出ているリンクの集合
1
2
3
4
5
6
)5,4(
)6,4(
)6,5,3(
)4,2,1(...
クラスタリング
数理情報学輪講 9
頂点数 n のグラフ が与えられた時に頂点の
クラスタリング を与える.
A
),,,( 21 nzzzZ 
1
2
3
4
5
6 )2,2,2,1,1,1(Z
クラス1 クラス2
リンク生成モデル
• 同じクラスに属するノードは同一の多項分布
に基づいてリンクを生成する.
数理情報学輪講 10

1r
2r
rn

j
A
rjiri
ij
rzAp  ),|(
ノードiから出ているリンク
多項分布のパ...
クラス生成モデル
• クラスの個数をc とし,各ノードがクラスrに帰
属する確率を とする.
数理情報学輪講 11
r

i
zi
Zp )|(
),,( 1 c 
各ノードのクラスは
独立に決まる
全体の確率モデル
数理情報学輪講 12
)(Multi~
)(Multi~
izi
i
A
z


データの生成確率
),|(),,|(),|,(  ZpZApZAp 
  






i j
A
zz
i...
観測データからの推定
数理情報学輪講 13
観測データから元々のパラメータを推定したいので,
観測データの対数尤度関数を考える






 Z
ZApApL ),|,(ln),|(ln 
上式を最大化する パラメータ...
EMアルゴリズム(導出)
数理情報学輪講 14






 Z Zxp
Zxp
xZp
xp
xp
)|,(
)|,(
),|(ln
)|(
)|(
ln
0
0
0 




),(:
)|,(
)|,(
ln...
EMアルゴリズム
1. 初期パラメータ をランダムに決定 t = 0とする
2. 収束するまで以下を繰り返す
1. E-Step を計算する
2. M-Step とし, t = t + 1とする
数理情報学輪講 15
),(maxarg1 tt...
EMアルゴリズム(グラフクラスタリング)
1. をランダムに初期化
2. を計算
3. を最大化
4. 2へ
数理情報学輪講 16
,
)),|,((  rzApq i
j
A
rjrir
ij
 
,


 ...
クラスの決定
• EMにより個々のノードのクラス帰属確率
が求まるのでノードのクラスをMAP推定する.
• よりこれは
も最大化している.
数理情報学輪講 17
irq
irri qz maxarg

i
i AzpAZp ),,|(),...
問題点
• ここでEMによるモデルではクラスの数をcと前
もって与えているので過学習が起こる可能性
がある.
数理情報学輪講 18
クラスの数を事前に仮定しないようなモデルが
あるといい.
Dirichlet Process (DP)の導入
Dirichlet Process(DP)
• 確率分布に対する分布
• 基底分布 とパラメータ により定まる
数理情報学輪講 19
0G 
基底分布を離散化した
分布が生成される.
これを各データのパラメー
タのpriorとして用いるのが
...
DPMによるリンク生成モデル
数理情報学輪講 20
)(Multi~
~
),(~ 0
ii
i
A
G
GDPG



パラメータのクラス数依存性がなくなった.
さらに は離散分布からとってきてるので同じ値
をとりえる.
i
DPの構成法
• DPの元々の定義は扱いづらいのでいくつか
の等価な構成法を用いる.
– Stick-breaking Process[Sethuraman,1994]
– Chinese Restaurant Process[Aldous,1...
Chinese Restaurant Process(CRP)
• クラスの数をあらかじめ仮定しないクラスタリ
ングモデル
数理情報学輪講 22
1 2 3
12 テーブルに座っている客の数の比率に応じて行き先を決
定する,ただしある確率で新規...
DPMとの関係
• から生成される が同じ値のものを同じク
ラスとみなすとクラスの分布はCRPにおいての
クラスの分布と一致する.
• 逆にCRPで生成される各クラスに対して基底
分布 に従うパラメータ を割り当てる.
数理情報学輪講 23
i...
Dirichlet 分布
• K次元単体 上K個の確率変数
の同時分布
• 多項分布の共役事前分布
数理情報学輪講 24
11  n 


 



k
k
k k
k k k 1
)(
)(
);(Dirichlet...
CRPによるリンク生成モデル
数理情報学輪講 25
)(Multi~
)(Dirichlet~
)(CRP~
izi
k
A
Z



0G をDirichlet分布とする.
こうすることによりこの後の計算が簡単になる.
クラスはCRP...
ギブスサンプリング
数理情報学輪講 26
)|( :1 Azp n からのサンプリングを求める手法
1 432
1z 2z 3z 5z 7z
4z 6z
nz :11. からある を選択しクラスから外す.iz
2. にもとづいて を更新)|( ...
更新式(1)
数理情報学輪講 27
)|()|(),|( kzApzkzpzAkzp iiiiiii  
第一項はCRPの定義より












k
n
k
n
m
zkzp
ki
ii

...
更新式(2)
数理情報学輪講 28






 


dDAp
dHAp
kzAp
i
kciki
ii
)|()|(
)|(
)|(
, 既存クラス
新規クラス
Dirichlet:D 分布
 

...
更新式(3)
数理情報学輪講 29
   ),|()|()|( kzApApdkzAp iikkikii 
)),(()),((
)),(()),((







j ijijj
ijji...
実験概要
• 実験1
– 人工的に発生させたグラフデータに対して,EMに
よるクラスタリングとCRPによるクラスタリング方法
の二つを適用して精度を比較した.
• 実験2
– Wikipedia 日本語版の記事中のハイパーリンクに
よるグラフに...
実験1
• ノード数128 でクラス2のグラフを次のように
作成.
– ノードを確率0.5でクラス1 , 確率0.5 でクラス2に割
り振る.
– 各ノードはリンクを確率 で同一(異なる)
クラスのノードを張る.ノードの平均次数は16とす
る....
クラスタリングの精度
数理情報学輪講 32
実験2
• Wikipedia 日本語版の記事からカテゴリ科学,
自然,地理,人間,歴史およびそのサブカテ
ゴリに属する記事を取り出し,記事中のハイ
パーリンクに基づいた有向グラフを作成.
• ノード数3708, エッジ数22033のグラフ.
...
クラスタリング結果(1)
数理情報学輪講 34
サイズ クラスタ内の記事
197 物理学, 理科, 相互作用, 宇宙論, 電磁気学
194 人体, 社会文化的進化, ヒト, 人間, 死, 生物
174 化学元素発見の年表 , 同位体の一覧,元素...
クラスタリング結果(2)
数理情報学輪講 35
上位20クラスタの相
互のリンクの様子
科学
自然
地理
人間
歴史
まとめ
• 多項分布に基づいたリンク生成モデルを用い
て,モデル学習を行う方法としてEMアルゴリ
ズムとギブスサンプリングによる二つの方法
を紹介した.
• 人工データおよび実データにおいてクラスタリ
ングを適応することにより,有効にクラスタリ...
今後の課題
数理情報学輪講 37
Upcoming SlideShare
Loading in …5
×

確率モデルを使ったグラフクラスタリング

6,025 views

Published on

  • Be the first to comment

確率モデルを使ったグラフクラスタリング

  1. 1. 確率モデルを用いた グラフクラスタリングの手法 (文献紹介) 数理第四研究室 M1 坪坂正志 指導教員 : 増田 直紀 講師 2007年 11月 30日(金)
  2. 2. 文献紹介 [1]M.E.J. Newman. Mixture models and exploratory analysis in networks. PNAS, Vol. 104, No. 23, pp. 9564-9569, 2007. [2]桑田, 上田, 山田.ノンパラメトリックベイズモデル によるグラフクラスタリング. PRMU2007-41, Vol. 107, No. 115,pp. 81-86, 2007. 数理情報学輪講 2
  3. 3. 発表概要 • 確率モデルをもちいたグラフクラスタリングの 方法およびその実ネットワークに対しての適 応例について紹介する. • まず文献[1]の確率モデル及びEMを用いた推 定法について述べる.次に文献[2]のクラス数 を固定しない拡張モデルについて述べる. 数理情報学輪講 3
  4. 4. グラフクラスタリングの例 数理情報学輪講 4 [1] より、左が空手クラブの人間関係ネットワークの グラフ,右が単語の接続関係のグラフで名詞と接 続詞で分けている.
  5. 5. グラフクラスタリングの方法 • ネットワークの特徴に基づく方法 – クリークや中心性,modularity などのある尺度に もとづいてクラスタリングを行う. – 決定的,クラスタの構造を仮定する. • 確率モデルに基づく方法(今回紹介) – リンクの生成モデルを考え,モデル学習を通じて クラスタリングを行う. – 確率的,クラスタの構造は仮定しない 数理情報学輪講 5
  6. 6. 特徴量に基づく方法 数理情報学輪講 6 あらかじめクラスの特徴を定義して,それに基づ いてクラスタリング 例: クラスはクリークである 実際のネットワークの構造を 知りたいからクラスタリングを 行うのにネットワークの構造を 仮定するのは矛盾では? (chicken-and-egg problem)
  7. 7. 確率モデルに基づく方法 • ノードは何らかのクラスに帰属していて,それ に基づいてリンクを生成している. 数理情報学輪講 7 1 2 3 4 5 6 同一のクラスに属する ノードは同一の確率分布 に従ってリンクを生成する. 観測データから元のクラ スを推定する
  8. 8. グラフの記法 数理情報学輪講 8 A: グラフを表す接続行列. がノード iから ノードjへのリンクの数を表す ijA iA : ノードi から出ているリンクの集合 1 2 3 4 5 6 )5,4( )6,4( )6,5,3( )4,2,1( )3,1( )3,2( 6 5 4 3 2 1       A A A A A A
  9. 9. クラスタリング 数理情報学輪講 9 頂点数 n のグラフ が与えられた時に頂点の クラスタリング を与える. A ),,,( 21 nzzzZ  1 2 3 4 5 6 )2,2,2,1,1,1(Z クラス1 クラス2
  10. 10. リンク生成モデル • 同じクラスに属するノードは同一の多項分布 に基づいてリンクを生成する. 数理情報学輪講 10  1r 2r rn  j A rjiri ij rzAp  ),|( ノードiから出ているリンク 多項分布のパラメータ,各クラスごとに 定まる
  11. 11. クラス生成モデル • クラスの個数をc とし,各ノードがクラスrに帰 属する確率を とする. 数理情報学輪講 11 r  i zi Zp )|( ),,( 1 c  各ノードのクラスは 独立に決まる
  12. 12. 全体の確率モデル 数理情報学輪講 12 )(Multi~ )(Multi~ izi i A z   データの生成確率 ),|(),,|(),|,(  ZpZApZAp           i j A zz ij ii 
  13. 13. 観測データからの推定 数理情報学輪講 13 観測データから元々のパラメータを推定したいので, 観測データの対数尤度関数を考える        Z ZApApL ),|,(ln),|(ln  上式を最大化する パラメータ を求めたい. しかし,上の式の解析的最大化は難しい. , EMアルゴリズム
  14. 14. EMアルゴリズム(導出) 数理情報学輪講 14        Z Zxp Zxp xZp xp xp )|,( )|,( ),|(ln )|( )|( ln 0 0 0      ),(: )|,( )|,( ln),|( 0 0 0     Q Zxp Zxp xZp Z   ),(maxarg 01   Q とすると 0 )|( )|( ln 0 1    xp xp 尤度関数が増大 観測変数, 潜在変数 , パラメータとするx Z 
  15. 15. EMアルゴリズム 1. 初期パラメータ をランダムに決定 t = 0とする 2. 収束するまで以下を繰り返す 1. E-Step を計算する 2. M-Step とし, t = t + 1とする 数理情報学輪講 15 ),(maxarg1 tt Q   0 ),( tQ  ),( tQ  は から計算できる   Z t t t Zxp Zxp xZp )|,( )|,( ),|(   
  16. 16. EMアルゴリズム(グラフクラスタリング) 1. をランダムに初期化 2. を計算 3. を最大化 4. 2へ 数理情報学輪講 16 , )),|,((  rzApq i j A rjrir ij   ,     i iri i irij ir i irr qk qA q n ,, 1  ),,|( Arzpq iir 
  17. 17. クラスの決定 • EMにより個々のノードのクラス帰属確率 が求まるのでノードのクラスをMAP推定する. • よりこれは も最大化している. 数理情報学輪講 17 irq irri qz maxarg  i i AzpAZp ),,|(),,|(  ),,|( AZp
  18. 18. 問題点 • ここでEMによるモデルではクラスの数をcと前 もって与えているので過学習が起こる可能性 がある. 数理情報学輪講 18 クラスの数を事前に仮定しないようなモデルが あるといい. Dirichlet Process (DP)の導入
  19. 19. Dirichlet Process(DP) • 確率分布に対する分布 • 基底分布 とパラメータ により定まる 数理情報学輪講 19 0G  基底分布を離散化した 分布が生成される. これを各データのパラメー タのpriorとして用いるのが DPM(Mixture)モデル
  20. 20. DPMによるリンク生成モデル 数理情報学輪講 20 )(Multi~ ~ ),(~ 0 ii i A G GDPG    パラメータのクラス数依存性がなくなった. さらに は離散分布からとってきてるので同じ値 をとりえる. i
  21. 21. DPの構成法 • DPの元々の定義は扱いづらいのでいくつか の等価な構成法を用いる. – Stick-breaking Process[Sethuraman,1994] – Chinese Restaurant Process[Aldous,1985] • 今回の発表ではChinese Restaurant Process による構成について紹介する. 数理情報学輪講 21
  22. 22. Chinese Restaurant Process(CRP) • クラスの数をあらかじめ仮定しないクラスタリ ングモデル 数理情報学輪講 22 1 2 3 12 テーブルに座っている客の数の比率に応じて行き先を決 定する,ただしある確率で新規のテーブルに座る. 345 1 :1 :2 :1:2 :1:3 テーブル
  23. 23. DPMとの関係 • から生成される が同じ値のものを同じク ラスとみなすとクラスの分布はCRPにおいての クラスの分布と一致する. • 逆にCRPで生成される各クラスに対して基底 分布 に従うパラメータ を割り当てる. 数理情報学輪講 23 iG 0G k 残りは基底分布をどう選ぶか
  24. 24. Dirichlet 分布 • K次元単体 上K個の確率変数 の同時分布 • 多項分布の共役事前分布 数理情報学輪講 24 11  n         k k k k k k k 1 )( )( );(Dirichlet      )(Dirichlet~,)(Multi~ x )()|()|(  pxpxp  Dirichlet 分布
  25. 25. CRPによるリンク生成モデル 数理情報学輪講 25 )(Multi~ )(Dirichlet~ )(CRP~ izi k A Z    0G をDirichlet分布とする. こうすることによりこの後の計算が簡単になる. クラスはCRPから生成してるので事前に個数を 仮定していない.
  26. 26. ギブスサンプリング 数理情報学輪講 26 )|( :1 Azp n からのサンプリングを求める手法 1 432 1z 2z 3z 5z 7z 4z 6z nz :11. からある を選択しクラスから外す.iz 2. にもとづいて を更新)|( ii zkzp  iz
  27. 27. 更新式(1) 数理情報学輪講 27 )|()|(),|( kzApzkzpzAkzp iiiiiii   第一項はCRPの定義より             k n k n m zkzp ki ii    1 1 )|( , は新規クラス },;{#, ijkzjm jki  は既存のクラス
  28. 28. 更新式(2) 数理情報学輪講 28           dDAp dHAp kzAp i kciki ii )|()|( )|( )|( , 既存クラス 新規クラス Dirichlet:D 分布          j j ij A ij ii i i jij DApd 1 )( )( )|()|(      )()( )()(      j ijjjj ijjjj j A A  
  29. 29. 更新式(3) 数理情報学輪講 29    ),|()|()|( kzApApdkzAp iikkikii  )),(()),(( )),(()),((        j ijijj ijjij j jkmjkm jkmjkm     kzl lj l Ajkm , ),( クラスkからノードjに出ている枝の本数 既存クラスの時も同様に計算でき ),|( iii zAkzp  が求まったのであとはギブスサンプリン グを実行
  30. 30. 実験概要 • 実験1 – 人工的に発生させたグラフデータに対して,EMに よるクラスタリングとCRPによるクラスタリング方法 の二つを適用して精度を比較した. • 実験2 – Wikipedia 日本語版の記事中のハイパーリンクに よるグラフに対してCRPによるクラスタリングを適 応した. 数理情報学輪講 30
  31. 31. 実験1 • ノード数128 でクラス2のグラフを次のように 作成. – ノードを確率0.5でクラス1 , 確率0.5 でクラス2に割 り振る. – 各ノードはリンクを確率 で同一(異なる) クラスのノードを張る.ノードの平均次数は16とす る. 数理情報学輪講 31 )( outin pp
  32. 32. クラスタリングの精度 数理情報学輪講 32
  33. 33. 実験2 • Wikipedia 日本語版の記事からカテゴリ科学, 自然,地理,人間,歴史およびそのサブカテ ゴリに属する記事を取り出し,記事中のハイ パーリンクに基づいた有向グラフを作成. • ノード数3708, エッジ数22033のグラフ. • CRPを用いたクラスタリングを実行した. 数理情報学輪講 33
  34. 34. クラスタリング結果(1) 数理情報学輪講 34 サイズ クラスタ内の記事 197 物理学, 理科, 相互作用, 宇宙論, 電磁気学 194 人体, 社会文化的進化, ヒト, 人間, 死, 生物 174 化学元素発見の年表 , 同位体の一覧,元素の記号 順一覧 ,元素の名前順一覧 ,金,水銀 , チタン 157 水, 地球 , 温室効果, 月, 水循環, 土壌, 海, 地下水 114 歴史学, 歴史の一覧, 歴史, 心性史, 民俗資料 108 軍事史, 国家, 近代, 死刑存廃問題,君主,絶対王政 105 天体一覧, 太陽系, 宇宙, 彗星, 天文学, 夜, 昼 105 生物学, 科学史, 自然科学, 科学研究費補助金 上位8クラスタの内容の一部
  35. 35. クラスタリング結果(2) 数理情報学輪講 35 上位20クラスタの相 互のリンクの様子 科学 自然 地理 人間 歴史
  36. 36. まとめ • 多項分布に基づいたリンク生成モデルを用い て,モデル学習を行う方法としてEMアルゴリ ズムとギブスサンプリングによる二つの方法 を紹介した. • 人工データおよび実データにおいてクラスタリ ングを適応することにより,有効にクラスタリ ングを行えることを示した. 数理情報学輪講 36
  37. 37. 今後の課題 数理情報学輪講 37

×