15.06.17
変分ベイズ法の説明
尾崎 遼
http://research.microsoft.com/en-us/um/people/cmbishop/outreach.htm
目次
概要
点推定とベイズ推定
最尤推定とEMアルゴリズム
変分ベイズ推定とVB-EMアルゴリズム
変分ベイズ推定の性質
生物学への応用
2
概要
変分ベイズ法
• 確率モデルの潜在変数およびパラメータの事後分布を求
める手法の一種
• 事後分布を近似することで計算を簡単にしている
• 因子分解可能という仮定を置く
• 決定論的な手法
• MCMCなどのサンプリング法は確率的
3
点推定とベイズ推定
例えば、 というモデルで予測分布を求めるには?
• 点推定
• 特定のパラメータの値 ( というモデル) による推定
4
• ベイズ推定
• パラメータの事後分布 を用いて周辺化
最尤推定やMAP推定で
点推定したパラメータの値
xの新しい予測値
推定に用いたデータ
最尤推定とEMアルゴリズム
観測変数 X と潜在変数 Z があるとき、
5
を最大にするパラメータ θ を求めるのが最尤推定
この最尤推定を行うための2段階の繰り返し最適化が
EMアルゴリズム
最尤推定とEMアルゴリズム: 下界
方針: 対数尤度 の下界 を最大化する
6
ln p(X|θ)の下界
(Lower bound)
Jensenの不等式より
E step
M step
最尤推定とEMアルゴリズム: E step
7
のとき、下限 が最大となる
KLダイバージェンス
なので 0以上
qが含まれて
いないので定数
はθの現在の値とする
最尤推定とEMアルゴリズム: M step
8
エントロピー
(θがはいっていないので定数)
Q関数
(完全データ対数尤度の
qに関する期待値)
の解を新しいθにする
は現在のZの事後分布とする
Q関数を最大化するために
点推定の欠点
点推定では分布がなだらかな場合や単峰でない場合に
偏った推定になる
隠れ変数が1層だけのときしか適用できない
過学習
→ ベイズ推定
9
バイオインフォマティクスと推定問題
解空間が巨大・各解の尤度は微小
• 例: RNA二次構造、系統樹
→点推定がよい予測につながらない
10Hamada, Briefings in Bioinformatics, 2013
変分ベイズの目的と手段
最尤法
• 目的: 尤度 を最大にするパラメータを求める
• 実現手段: EMアルゴリズム(二段階の繰り返し最適化)
変分ベイズ
• 目的: 周辺尤度 (モデルエビデンス) を最大にするパラ
メータの事後分布を求める
• 手段: VB-EMアルゴリズム(二段階の繰り返し最適化)
11
変分ベイズとVB-EMアルゴリズム: 下限
12
Jensenの不等式より
ln p(X)の下限
最尤法の時と異なり、この下限はそのままでは最大化できない(と
する)
そこで因子分解可能という仮定を置き、計算しやすい形に近似する
変分ベイズとVB-EMアルゴリズム: 因子分解
因子分解可能 (factorization) な分布によって、真の事
後分布を近似します
• Z を独立な因子に分解し、潜在変数およびパラメ
ータの同時事後分布を各因子の事後分布の積で近
似する
13
「事後分布を求める」問題から
「因子分解可能な近似分布の中でできるだけ真の事後
分布に近い分布を求める」問題に変換
変分ベイズとVB-EMアルゴリズム: 変分下限
14
方針: 対数周辺尤度の変分下限 を最大化する
各因子について
ln p(X)の変分下限
変分ベイズとVB-EMアルゴリズム: 更新式
15
qi はZiの確率分布だから
j以外の因子に関する対数同時分布の期待値
のexp()と q_j の間のKLダイバージェンス → これをゼロにすることが最大化につながる
変分下限 L(q) をq_j = q_j(Z_j) について整理する
変分ベイズとVB-EMアルゴリズム: 更新式
16
PRML下巻の式(10.9)
前頁の結果から、KLダイバージェンスをゼロにするのは以下のとき:
この式を各因子の現在の事後分布を用いて順番に計算する
j以外の因子の現在の事後分布に関して
XとZの対数同時分布の期待値をとることに相当
変分ベイズとVB-EMアルゴリズム: 具体的なモデル
17
XZπ
因子分解可能という仮定により、潜在変数とパラメータの事後分布は以下のようになる
変分ベイズとVB-EMアルゴリズム: 具体的なモデル
18
変分下限(最大化する対象)を計算していく
πの事後分布が事前分布と離れないようにする制約項とみなせる
→過学習を防いでいる
πの事前分布を導入せずにπの点推定を
行えば、最尤推定(EMアルゴリズム)
と同じになる(あるθの値でのみ分布関
数のクラスを仮定すると考えてもよい)
変分ベイズとVB-EMアルゴリズム
19
変分E step
変分M step
潜在変数の現在の事後分布を用いてパラメータの事後分布を改良する
パラメータの現在の事後分布を用いて潜在変数の事後分布を改良する
この式
or
変分下限を具体的に計算し
パラメータおよび潜在変数
について最適化する
を解く
更新式の導出方法
まとめ
20
最尤法 変分ベイズ
与えられているも
の
同時分布 p(X,Z|θ) 同時分布 p(X,Z)
目的
対数尤度 ln p(X|θ)を最大にする パラメー
タを求める
対数周辺尤度(=モデルエビデンス) ln p(X)
を最大にする パラメータの事後分布を求
める
目的関数の分解 ln(X|θ)= L(q, θ) + KL(q||p) ln(X) = L(q) + KL(q||p)
目的の再定義 下界 L(q, θ)の q(Z)とθに関する最大化 変分下限 L(q) の q(Z) に関する最大化
手続き EMアルゴリズムによる繰り返し最適化 VB-EMアルゴリズムによる繰り返し最適化
潜在変数に関する
最適化
パラメータの現在の値を用いて 潜在変数
の事後分布を改良する
パラメータの現在の事後分布を用いて 潜
在変数の事後分布を改良する
パラメータに関す
る最適化
潜在変数の現在の事後分布を用いて パラ
メタを更新する
潜在変数の現在の事後分布を用いて パラ
メータの事後分布を改良する
注目した因子以外の因子に関して同時分布の期待値を計算したものを新しい値 or 分布にする
参考文献
C. M. ビショップ「パターン認識と機械学習 下」 9-10章
渡辺澄夫「ベイズ統計の理論と方法」 5章
• 平均場近似から自己無矛盾条件を導く形で説明している
佐藤一誠「トピックモデルによる統計的潜在意味解析」自然言語処理シリー
ズ 8 コロナ社
Daichi Mochihashi “自然言語処理のための変分ベイズ法”
• http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf
21
生物学への応用
個々の遺伝子発現の状態がいくつあるか問題
• Nikaido et al., PLOS One, 2011
• 混合ガウスのKの数も推定
22
RNA-seqによる転写産物量推定問題
• Nariai et al., Bioinformatics, 2013
• 複雑な生成モデルの計算を容易にした
DNA断片からのハプロタイプ推定問題
• Matsumoto et al., BMC Genomics, 2013
• 複雑な生成モデルの計算を容易にした
余談
下界の導出方法には2通りある
• Jensen の不等式を使う
• 対数周辺尤度をKL divergence との和の形にする
具体的な更新式の導出方法には2通りある
• 一般的な最適解の式にモデルの式を代入する
• ラグランジュの未定乗数法で各パラメータについて変分
下限を最大化する
23
「事後分布を探すのが難しい」から始まる説明
(1)
ベイズ推定の問題の一つは事後分布の計算が困難であるという
ことだ
代わりに、事後分布を因子分解可能という仮定を置いて近似し
た近似事後分布を考える
この近似事後分布 (q) をなるべく真の事後分布 (p) に近づける
ために、qとpのKLダイバージェンスを考える
24
「事後分布を探すのが難しい」から始まる説明
(2)
しかし、目的関数に計算が困難であるpが含まれているため、この最適
化問題は計算が困難である
一方、対数周辺尤度は以下のように分解できる
左辺はqに関して一定なので、KLの最小化問題は変分下限 L の最大化問
題と同じである。そこで、変分下限の最大化を考える。
25
余談
EMアルゴリズムで下界、変分ベイズで下限と呼ぶ理
由はよくわかりませんでした
• 原著ではどちらも lower bound となっていた
26
余談
「10.4 指数分布族」の変分Eステップと変分Mステッ
プの記述(p. 206)はEとMが逆な気がする
27

変分ベイズ法の説明