3.3節変分近似法(前半)

『トピックモデルによる潜在的意味解析』読書会
「3.3 変分近似法 (3.3.1～3.3.3)」
#トピ本 2015.7.7
by @tn1031

contents
• 変分法 [3.3.1]
• 変分ベイズ法 [3.3.2,3.3.3]
– まとめ
– 因子分解
– 重要ポイント
– アルゴリズムと疑似コード
– (補足)アルゴリズムの幾何的解釈
• まとめ
1

変分法
• 関数を入力とする汎関数の極値となる関数
を求めるための方法
⇒ 関数を関数で微分する方法
のとき


0
)()]([ dxxfxfL
)cos(x
)sin(x
0)cos()]([
0
 

dxxxfL
2)sin()]([
0
 

dxxxfL
KL情報量の最適化に使う予定
L[ f (x)]f
のとき
汎関数の例）積分
(3.39)
3

変分法
• 関数が関数によって構成されている場合，
と表記する
)(log)(),( xqxqqxf 
(変分ベイズ法で頻繁に登場する関数)
0
)(
),(



xq
qxf
f (x) q(x) f (x,q)
(3.40)
• 汎関数の極値を与えるは，以下の
オイラー・ラグランジュ方程式(微分方程式)によって
与えられる
 dxqxfxfL ),()]([ q
4

変分ベイズ法まとめ
• 観測に対して，潜在変数，パラメータ
をすべて確率変数として，その確率分布を求める
(事後確率でない！)
),|(log :1 nxp



 d
qzq
zxp
qzq
n
nn
n
)()(
),|,,(
log)()(
;1
;1:1
;1
)(qF






)(:1:1
)(:1:1:1
:1
)|,(logexp)()(
)|,(logexp)(
nzqnn
qnnn
zxppq
zxpzq

 
 dzxp nn ),|,,(log ;1:1
)|(~ izii xpx 
)|(~ ii zMultiz
)|(~  kk p
)|(~  Dir
生成過程(今回扱うモデル)
n
K

iz
k

ix

潜在変数とパラメータの分布を交互に更新
z1:n },{  
• を，について最大化F(q) )(q q(z1:n )
x1:n
6http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより

因子分解
• 解析的に解けない事後分布を，計算が可能な分布で近似する
• 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ
),,|,,( :1:1  nn xzp
n
K
iz
k
ix


事後分布(解析的に解けない)
),|,,( :1

nzq
変分事後分布(解析的に解ける分布で近似)
 




ddppzpzxp
ppzpzxp
z k
k
i
ikii
k
k
i
ikii
)|()|()|(),|(
)|()|()|(),|(
分母の組み合わせがツライ
その1：共役性がある場合[3.3.2]
n
K
iz
k
ix
その2：共役性がない場合[3.3.3]
),,( :1 nzq
n
K
iz
k
ix



 )|()|()(
11

 qqzq
K
k
k
n
i
i
k












  
特定の確率分布を仮定しない
Dir
Dir
ディリクレ分布を仮定
確率分布を決め打ち
因子分解
(3.72)
(3.42)
 

K
k
k
n
i
i qqzq
11
)()()( 
7

変分ベイズ法の最重要ポイント
),|(log :1 nxp



 dd
qqzq
zxp
qqzq
n
nn
n
)()()(
),|,,,(
log)()()(
;1
;1:1
;1)],,([ :1 nzqF
)],,|,,(||),,([)],,([ :1:1:1:1  nnnn xzpzqKLzqF 
変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい
),,( :1 nzq
)],,|,,(||),,([minarg :1:1:1
),,( :1


nnn
Qzq
xzpzqKL
n 

ところが、式(3.43) は計算が困難な項を含む),,|,,( :1:1  nn xzp
)43.3(
対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能
対数周辺尤度とKL情報量の満たす関係
変分下限 KL情報量
(3.46)
(3.47)
8

変分ベイズ法の最重要ポイント(続き)
),|(log :1 nxp対数周辺尤度は，変分事後分布と無関係),,( :1 nzq
変分下限最適化のイメージ
⇒ はの変化に影響されず一定),|(log :1 nxp ),,( :1 nzq
変分下限
最適化
),|(log :1 nxp
][qF
]||[ pqKL
),|(log :1 nxp
]||[ pqKL
][qF
得られる解は，とのKL情報量を最小にする),,( :1 nzq
),|(log :1 nxp
9
(一定) (一定)

解きたい問題
結局、変分ベイズ法では以下の最適化問題を解くことになる
)],,([maxarg),,( :1
),,(
:1
:1


n
Qzq
n zqFzq
n 


展開すると、
)],,([ :1 nzqF

nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1 


)]|(||)([)]|(||)([
1
 pqKLpqKL
K
k
k  
式(3.52)と式(3.53)は，それぞれが変分ベイズ法の性質を説明している
• 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項
• 式(3.53) ・・・正則化項
)51.3(
)52.3(
)53.3(
10

式から見る変分ベイズ法の性質(1)
(3.52)について

nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1 



nz n
nn
n
zq
zxp
zq
:1
)(
),|,(
log)(
:1
:1:1
:1


一般的にイメージする連続分布
今考えている確率分布
【参考】EMアルゴリズム
)),(()|(log :1:1  nn zqFxp 

nz nn
nn
nn
xzq
zxp
xzq
:1
)ˆ,|(
)|,(
log)ˆ,|(
:1:1
:1:1
:1:1



として下限をについて交互に最大化する)),(( :1 nzqF ),( :1 nzq
• これを最大化するを求める手法はEMアルゴリズム,),( izq
)52.3(
(3.54)
11

式から見る変分ベイズ法の性質(2)
(3.53)について
• この項は変分事後分布とそれぞれの事前分布のKL情報量
• 変分事後分布が事前分布から離れすぎることを防止
)]|(||)([)]|(||)([
1
 pqKLpqKL
K
k
k 
)53.3(
：の類似度(離れると値が増加))|(),(  pq)]|(||)([  pqKL k
)]|(||)([  pqKL ：の類似度(離れると値が増加))|(),(  pq
変分事後分布(求めたい分布)
事前分布
(既知・データに依らない)
正則化の効果
ちなみに、
• データ数∞でMDL/BICと一致
))ˆ()ˆ(log(log)
2
|ˆ|
2
|ˆ|
( 

ppN MDL,BIC：
12

アルゴリズムと疑似コード
• 変分事後分布の更新式は以下のようになる
• 実装上はこれらをひたすら更新することになる
• Step1：初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
• Step2：以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
)( kzq i  





  )|(log)(exp)|()( :1:1
:1
 n
z
n zpzqpq
n






 
)|(log)(exp)|()(
1
k
n
i
iikk xpkzqpq 
潜在変数の更新(E-step) パラメータの更新(M-step)
    ddkzxpqq ii ),|,(log)()(exp
(3.61)
(3.67)
(3.71)
変分ベイズ法
13

アルゴリズム理解のための補足
(本の内容から外れます)
14

情報幾何
• ある構造をもつ空間の中で確率分布を解釈する
• 統計，情報理論など異分野の問題を統一的に解釈できる
• 幾何学は直感的理解を得られる可能性がある(なお実際は…)
情報幾何の分野では，確率分布(確率モデル)を点と空間で表現する
例) 正規分布

1 2
1
2
ここまで扱ってきたモデルの場合は，モデル空間はの軸で表現可能


1 2
1
2
),,( :1
1
nzq


z
),,( :1 nzq
,,z
),,( :1
2
nzq
?),,( :1 nzq
  

n
i
K
k
ki qqzq
1 1
)()()( 
変分事後分布
最適なモデルに対応する座標はどこか？ 15
点の間隔の大きさを
表す量がKL情報量

情報幾何的世界観
• 情報幾何的に解釈すると，機械学習はデータをモデル空間(部分空間)に
射影した時のモデル空間上の座標を求める問題
• この考え方は変分ベイズ法だけでなく，EMアルゴリズムやアンサンブル学
習など様々な学習アルゴリズムを説明することが可能
モデル
データ
結果
世の中
部分空間M
十分統計量
射影
16
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより

情報幾何を用いた
変分ベイズアルゴリズムの解釈
直感的解釈
真の分布p
モデルM(e平坦)
S
e射影
初期解
• 因子分解によってモデル空間が得られる
• KL情報量から目指す座標を特定
• E/M各Stepで1変数についての最適化を繰り返す
)()()(),,|,,( :1:1:1  qqzqxzp nnn 
)],,|,,(||)()()([min :1:1
)()(
:1
)(
 nn
tt
n
t
xzpqqzqKL
：モデルM(e平坦)
：e射影
• Step1：初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
• Step2：以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
変分ベイズ法
17
https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
交互最適化の軌跡

まとめ
• 解析的に計算不可能なモデルに対する近似解法
– 因子分解を利用して事後分布を解析可能な分布で近似
• MCMCのような確率的な手法とは異なる，決定論的なアルゴリズム
– 目標とする対数周辺尤度は定数
– これの下限(変分下限)を最大化する
– 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化
• EMアルゴリズムを内包する
– パラメータの分布q(z)，q(θ)が求まる
– q(θ)がデルタ関数のとき，EMアルゴリズムと一致する
• 過学習を防止する仕組みを有する
– パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する
19

参考
• トピックモデルによる統計的潜在意味解析
• パターン認識と機械学習(下)
• http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf
• https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf
• http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf
20

3.3節変分近似法(前半)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Similar to 3.3節変分近似法(前半)

Similar to 3.3節変分近似法(前半) (20)