More Related Content Similar to 3.3節 変分近似法(前半) Similar to 3.3節 変分近似法(前半) (20) 3.3節 変分近似法(前半)4. 変分法
• 関数 を入力とする汎関数 の極値となる関数
を求めるための方法
⇒ 関数を関数で微分する方法
のとき
0
)()]([ dxxfxfL
)cos(x
)sin(x
0)cos()]([
0
dxxxfL
2)sin()]([
0
dxxxfL
KL情報量の最適化に使う予定
L[ f (x)]f
のとき
汎関数の例)積分
(3.39)
3
5. 変分法
• 関数 が関数 によって構成されている場合,
と表記する
)(log)(),( xqxqqxf
(変分ベイズ法で頻繁に登場する関数)
0
)(
),(
xq
qxf
f (x) q(x) f (x,q)
(3.40)
• 汎関数 の極値を与える は,以下の
オイラー・ラグランジュ方程式(微分方程式)によって
与えられる
dxqxfxfL ),()]([ q
4
7. 変分ベイズ法まとめ
• 観測 に対して,潜在変数 ,パラメータ
をすべて確率変数として,その確率分布を求める
(事後確率でない!)
),|(log :1 nxp
d
qzq
zxp
qzq
n
nn
n
)()(
),|,,(
log)()(
;1
;1:1
;1
)(qF
)(:1:1
)(:1:1:1
:1
)|,(logexp)()(
)|,(logexp)(
nzqnn
qnnn
zxppq
zxpzq
dzxp nn ),|,,(log ;1:1
)|(~ izii xpx
)|(~ ii zMultiz
)|(~ kk p
)|(~ Dir
生成過程(今回扱うモデル)
n
K
iz
k
ix
潜在変数とパラメータの分布を交互に更新
z1:n },{
• を , について最大化F(q) )(q q(z1:n )
x1:n
6http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより
8. 因子分解
• 解析的に解けない事後分布を,計算が可能な分布で近似する
• 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ
),,|,,( :1:1 nn xzp
n
K
iz
k
ix
事後分布(解析的に解けない)
),|,,( :1
nzq
変分事後分布(解析的に解ける分布で近似)
ddppzpzxp
ppzpzxp
z k
k
i
ikii
k
k
i
ikii
)|()|()|(),|(
)|()|()|(),|(
分母の組み合わせがツライ
その1:共役性がある場合[3.3.2]
n
K
iz
k
ix
その2:共役性がない場合[3.3.3]
),,( :1 nzq
n
K
iz
k
ix
)|()|()(
11
qqzq
K
k
k
n
i
i
k
特定の確率分布を仮定しない
Dir
Dir
ディリクレ分布を仮定
確率分布を決め打ち
因子分解
(3.72)
(3.42)
K
k
k
n
i
i qqzq
11
)()()(
7
9. 変分ベイズ法の最重要ポイント
),|(log :1 nxp
dd
qqzq
zxp
qqzq
n
nn
n
)()()(
),|,,,(
log)()()(
;1
;1:1
;1)],,([ :1 nzqF
)],,|,,(||),,([)],,([ :1:1:1:1 nnnn xzpzqKLzqF
変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい
),,( :1 nzq
)],,|,,(||),,([minarg :1:1:1
),,( :1
nnn
Qzq
xzpzqKL
n
ところが、式(3.43) は計算が困難な項 を含む),,|,,( :1:1 nn xzp
)43.3(
対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能
対数周辺尤度とKL情報量の満たす関係
変分下限 KL情報量
(3.46)
(3.47)
8
10. 変分ベイズ法の最重要ポイント(続き)
),|(log :1 nxp対数周辺尤度 は,変分事後分布 と無関係),,( :1 nzq
変分下限最適化のイメージ
⇒ は の変化に影響されず一定),|(log :1 nxp ),,( :1 nzq
変分下限
最適化
),|(log :1 nxp
][qF
]||[ pqKL
),|(log :1 nxp
]||[ pqKL
][qF
得られる解 は, とのKL情報量を最小にする),,( :1 nzq
),|(log :1 nxp
9
(一定) (一定)
11. 解きたい問題
結局、変分ベイズ法では以下の最適化問題を解くことになる
)],,([maxarg),,( :1
),,(
:1
:1
n
Qzq
n zqFzq
n
展開すると、
)],,([ :1 nzqF
nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1
)]|(||)([)]|(||)([
1
pqKLpqKL
K
k
k
式(3.52)と式(3.53)は,それぞれが変分ベイズ法の性質を説明している
• 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項
• 式(3.53) ・・・ 正則化項
)51.3(
)52.3(
)53.3(
10
12. 式から見る変分ベイズ法の性質(1)
(3.52)について
nz n
nn
n dd
zq
zxp
qqzq
:1
)(
),|,(
log)()()(
:1
:1:1
:1
nz n
nn
n
zq
zxp
zq
:1
)(
),|,(
log)(
:1
:1:1
:1
一般的にイメージする連続分布
今考えている確率分布
【参考】EMアルゴリズム
)),(()|(log :1:1 nn zqFxp
nz nn
nn
nn
xzq
zxp
xzq
:1
)ˆ,|(
)|,(
log)ˆ,|(
:1:1
:1:1
:1:1
として下限 を について交互に最大化する)),(( :1 nzqF ),( :1 nzq
• これを最大化する を求める手法はEMアルゴリズム,),( izq
)52.3(
(3.54)
11
14. アルゴリズムと疑似コード
• 変分事後分布の更新式は以下のようになる
• 実装上はこれらをひたすら更新することになる
• Step1:初期化
– ハイパーパラメータの初期化
– 潜在変数の初期化
• Step2:以下を繰り返す
– パラメータの更新(M-step)
– 潜在変数の更新(E-step)
)( kzq i
)|(log)(exp)|()( :1:1
:1
n
z
n zpzqpq
n
)|(log)(exp)|()(
1
k
n
i
iikk xpkzqpq
潜在変数の更新(E-step) パラメータの更新(M-step)
ddkzxpqq ii ),|,(log)()(exp
(3.61)
(3.67)
(3.71)
変分ベイズ法
13
16. 情報幾何
• ある構造をもつ空間の中で確率分布を解釈する
• 統計,情報理論など異分野の問題を統一的に解釈できる
• 幾何学は直感的理解を得られる可能性がある(なお実際は…)
情報幾何の分野では,確率分布(確率モデル)を点と空間で表現する
例) 正規分布
1 2
1
2
ここまで扱ってきたモデルの場合は,モデル空間は の軸で表現可能
1 2
1
2
),,( :1
1
nzq
z
),,( :1 nzq
,,z
),,( :1
2
nzq
?),,( :1 nzq
n
i
K
k
ki qqzq
1 1
)()()(
変分事後分布
最適なモデルに対応する座標はどこか? 15
点の間隔の大きさを
表す量がKL情報量
20. まとめ
• 解析的に計算不可能なモデルに対する近似解法
– 因子分解を利用して事後分布を解析可能な分布で近似
• MCMCのような確率的な手法とは異なる,決定論的なアルゴリズム
– 目標とする対数周辺尤度は定数
– これの下限(変分下限)を最大化する
– 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化
• EMアルゴリズムを内包する
– パラメータの分布q(z),q(θ)が求まる
– q(θ)がデルタ関数のとき,EMアルゴリズムと一致する
• 過学習を防止する仕組みを有する
– パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する
19
21. 参考
• トピックモデルによる統計的潜在意味解析
• パターン認識と機械学習(下)
• http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf
• https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf
• http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf
20