確率モデルを用いた
グラフクラスタリングの手法
(文献紹介)
数理第四研究室 M1 坪坂正志
指導教員 : 増田 直紀 講師
2007年 11月 30日(金)
文献紹介
[1]M.E.J. Newman. Mixture models and exploratory
analysis in networks. PNAS, Vol. 104, No. 23,
pp. 9564-9569, 2007.
[2]桑田, 上田, 山田.ノンパラメトリックベイズモデル
によるグラフクラスタリング. PRMU2007-41,
Vol. 107, No. 115,pp. 81-86, 2007.
数理情報学輪講 2
発表概要
• 確率モデルをもちいたグラフクラスタリングの
方法およびその実ネットワークに対しての適
応例について紹介する.
• まず文献[1]の確率モデル及びEMを用いた推
定法について述べる.次に文献[2]のクラス数
を固定しない拡張モデルについて述べる.
数理情報学輪講 3
グラフクラスタリングの例
数理情報学輪講 4
[1] より、左が空手クラブの人間関係ネットワークの
グラフ,右が単語の接続関係のグラフで名詞と接
続詞で分けている.
グラフクラスタリングの方法
• ネットワークの特徴に基づく方法
– クリークや中心性,modularity などのある尺度に
もとづいてクラスタリングを行う.
– 決定的,クラスタの構造を仮定する.
• 確率モデルに基づく方法(今回紹介)
– リンクの生成モデルを考え,モデル学習を通じて
クラスタリングを行う.
– 確率的,クラスタの構造は仮定しない
数理情報学輪講 5
特徴量に基づく方法
数理情報学輪講 6
あらかじめクラスの特徴を定義して,それに基づ
いてクラスタリング
例: クラスはクリークである
実際のネットワークの構造を
知りたいからクラスタリングを
行うのにネットワークの構造を
仮定するのは矛盾では?
(chicken-and-egg problem)
確率モデルに基づく方法
• ノードは何らかのクラスに帰属していて,それ
に基づいてリンクを生成している.
数理情報学輪講 7
1
2
3
4
5
6
同一のクラスに属する
ノードは同一の確率分布
に従ってリンクを生成する.
観測データから元のクラ
スを推定する
グラフの記法
数理情報学輪講 8
A: グラフを表す接続行列. がノード iから
ノードjへのリンクの数を表す
ijA
iA : ノードi から出ているリンクの集合
1
2
3
4
5
6
)5,4(
)6,4(
)6,5,3(
)4,2,1(
)3,1(
)3,2(
6
5
4
3
2
1






A
A
A
A
A
A
クラスタリング
数理情報学輪講 9
頂点数 n のグラフ が与えられた時に頂点の
クラスタリング を与える.
A
),,,( 21 nzzzZ 
1
2
3
4
5
6 )2,2,2,1,1,1(Z
クラス1 クラス2
リンク生成モデル
• 同じクラスに属するノードは同一の多項分布
に基づいてリンクを生成する.
数理情報学輪講 10

1r
2r
rn

j
A
rjiri
ij
rzAp  ),|(
ノードiから出ているリンク
多項分布のパラメータ,各クラスごとに
定まる
クラス生成モデル
• クラスの個数をc とし,各ノードがクラスrに帰
属する確率を とする.
数理情報学輪講 11
r

i
zi
Zp )|(
),,( 1 c 
各ノードのクラスは
独立に決まる
全体の確率モデル
数理情報学輪講 12
)(Multi~
)(Multi~
izi
i
A
z


データの生成確率
),|(),,|(),|,(  ZpZApZAp 
  






i j
A
zz
ij
ii

観測データからの推定
数理情報学輪講 13
観測データから元々のパラメータを推定したいので,
観測データの対数尤度関数を考える






 Z
ZApApL ),|,(ln),|(ln 
上式を最大化する パラメータ を求めたい.
しかし,上の式の解析的最大化は難しい.
,
EMアルゴリズム
EMアルゴリズム(導出)
数理情報学輪講 14






 Z Zxp
Zxp
xZp
xp
xp
)|,(
)|,(
),|(ln
)|(
)|(
ln
0
0
0 




),(:
)|,(
)|,(
ln),|( 0
0
0 


 Q
Zxp
Zxp
xZp
Z
 
),(maxarg 01   Q とすると
0
)|(
)|(
ln
0
1



xp
xp
尤度関数が増大
観測変数, 潜在変数 , パラメータとするx Z 
EMアルゴリズム
1. 初期パラメータ をランダムに決定 t = 0とする
2. 収束するまで以下を繰り返す
1. E-Step を計算する
2. M-Step とし, t = t + 1とする
数理情報学輪講 15
),(maxarg1 tt Q  
0
),( tQ 
),( tQ  は から計算できる


Z t
t
t
Zxp
Zxp
xZp
)|,(
)|,(
),|(



EMアルゴリズム(グラフクラスタリング)
1. をランダムに初期化
2. を計算
3. を最大化
4. 2へ
数理情報学輪講 16
,
)),|,((  rzApq i
j
A
rjrir
ij
 
,


 
i iri
i irij
ir
i
irr
qk
qA
q
n
,,
1

),,|( Arzpq iir 
クラスの決定
• EMにより個々のノードのクラス帰属確率
が求まるのでノードのクラスをMAP推定する.
• よりこれは
も最大化している.
数理情報学輪講 17
irq
irri qz maxarg

i
i AzpAZp ),,|(),,|( 
),,|( AZp
問題点
• ここでEMによるモデルではクラスの数をcと前
もって与えているので過学習が起こる可能性
がある.
数理情報学輪講 18
クラスの数を事前に仮定しないようなモデルが
あるといい.
Dirichlet Process (DP)の導入
Dirichlet Process(DP)
• 確率分布に対する分布
• 基底分布 とパラメータ により定まる
数理情報学輪講 19
0G 
基底分布を離散化した
分布が生成される.
これを各データのパラメー
タのpriorとして用いるのが
DPM(Mixture)モデル
DPMによるリンク生成モデル
数理情報学輪講 20
)(Multi~
~
),(~ 0
ii
i
A
G
GDPG



パラメータのクラス数依存性がなくなった.
さらに は離散分布からとってきてるので同じ値
をとりえる.
i
DPの構成法
• DPの元々の定義は扱いづらいのでいくつか
の等価な構成法を用いる.
– Stick-breaking Process[Sethuraman,1994]
– Chinese Restaurant Process[Aldous,1985]
• 今回の発表ではChinese Restaurant Process
による構成について紹介する.
数理情報学輪講 21
Chinese Restaurant Process(CRP)
• クラスの数をあらかじめ仮定しないクラスタリ
ングモデル
数理情報学輪講 22
1 2 3
12 テーブルに座っている客の数の比率に応じて行き先を決
定する,ただしある確率で新規のテーブルに座る.
345
1 :1 :2 :1:2 :1:3
テーブル
DPMとの関係
• から生成される が同じ値のものを同じク
ラスとみなすとクラスの分布はCRPにおいての
クラスの分布と一致する.
• 逆にCRPで生成される各クラスに対して基底
分布 に従うパラメータ を割り当てる.
数理情報学輪講 23
iG
0G k
残りは基底分布をどう選ぶか
Dirichlet 分布
• K次元単体 上K個の確率変数
の同時分布
• 多項分布の共役事前分布
数理情報学輪講 24
11  n 


 



k
k
k k
k k k 1
)(
)(
);(Dirichlet 




)(Dirichlet~,)(Multi~ x
)()|()|(  pxpxp  Dirichlet 分布
CRPによるリンク生成モデル
数理情報学輪講 25
)(Multi~
)(Dirichlet~
)(CRP~
izi
k
A
Z



0G をDirichlet分布とする.
こうすることによりこの後の計算が簡単になる.
クラスはCRPから生成してるので事前に個数を
仮定していない.
ギブスサンプリング
数理情報学輪講 26
)|( :1 Azp n からのサンプリングを求める手法
1 432
1z 2z 3z 5z 7z
4z 6z
nz :11. からある を選択しクラスから外す.iz
2. にもとづいて を更新)|( ii zkzp  iz
更新式(1)
数理情報学輪講 27
)|()|(),|( kzApzkzpzAkzp iiiiiii  
第一項はCRPの定義より












k
n
k
n
m
zkzp
ki
ii



1
1
)|(
,
は新規クラス
},;{#, ijkzjm jki 
は既存のクラス
更新式(2)
数理情報学輪講 28






 


dDAp
dHAp
kzAp
i
kciki
ii
)|()|(
)|(
)|(
, 既存クラス
新規クラス
Dirichlet:D 分布
 







j j
ij
A
ij
ii
i
i
jij
DApd
1
)(
)(
)|()|(





)()(
)()(





j ijjjj
ijjjj j
A
A


更新式(3)
数理情報学輪講 29
   ),|()|()|( kzApApdkzAp iikkikii 
)),(()),((
)),(()),((







j ijijj
ijjij j
jkmjkm
jkmjkm




kzl
lj
l
Ajkm
,
),( クラスkからノードjに出ている枝の本数
既存クラスの時も同様に計算でき
),|( iii zAkzp  が求まったのであとはギブスサンプリン
グを実行
実験概要
• 実験1
– 人工的に発生させたグラフデータに対して,EMに
よるクラスタリングとCRPによるクラスタリング方法
の二つを適用して精度を比較した.
• 実験2
– Wikipedia 日本語版の記事中のハイパーリンクに
よるグラフに対してCRPによるクラスタリングを適
応した.
数理情報学輪講 30
実験1
• ノード数128 でクラス2のグラフを次のように
作成.
– ノードを確率0.5でクラス1 , 確率0.5 でクラス2に割
り振る.
– 各ノードはリンクを確率 で同一(異なる)
クラスのノードを張る.ノードの平均次数は16とす
る.
数理情報学輪講 31
)( outin pp
クラスタリングの精度
数理情報学輪講 32
実験2
• Wikipedia 日本語版の記事からカテゴリ科学,
自然,地理,人間,歴史およびそのサブカテ
ゴリに属する記事を取り出し,記事中のハイ
パーリンクに基づいた有向グラフを作成.
• ノード数3708, エッジ数22033のグラフ.
• CRPを用いたクラスタリングを実行した.
数理情報学輪講 33
クラスタリング結果(1)
数理情報学輪講 34
サイズ クラスタ内の記事
197 物理学, 理科, 相互作用, 宇宙論, 電磁気学
194 人体, 社会文化的進化, ヒト, 人間, 死, 生物
174 化学元素発見の年表 , 同位体の一覧,元素の記号
順一覧 ,元素の名前順一覧 ,金,水銀 , チタン
157 水, 地球 , 温室効果, 月, 水循環, 土壌, 海, 地下水
114 歴史学, 歴史の一覧, 歴史, 心性史, 民俗資料
108 軍事史, 国家, 近代, 死刑存廃問題,君主,絶対王政
105 天体一覧, 太陽系, 宇宙, 彗星, 天文学, 夜, 昼
105 生物学, 科学史, 自然科学, 科学研究費補助金
上位8クラスタの内容の一部
クラスタリング結果(2)
数理情報学輪講 35
上位20クラスタの相
互のリンクの様子
科学
自然
地理
人間
歴史
まとめ
• 多項分布に基づいたリンク生成モデルを用い
て,モデル学習を行う方法としてEMアルゴリ
ズムとギブスサンプリングによる二つの方法
を紹介した.
• 人工データおよび実データにおいてクラスタリ
ングを適応することにより,有効にクラスタリ
ングを行えることを示した.
数理情報学輪講 36
今後の課題
数理情報学輪講 37

確率モデルを使ったグラフクラスタリング