Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

3.3節 変分近似法(前半)

8,984 views

Published on

  • Be the first to comment

3.3節 変分近似法(前半)

  1. 1. 『トピックモデルによる潜在的意味解析』読書会 「3.3 変分近似法 (3.3.1~3.3.3)」 #トピ本 2015.7.7 by @tn1031
  2. 2. contents • 変分法 [3.3.1] • 変分ベイズ法 [3.3.2,3.3.3] – まとめ – 因子分解 – 重要ポイント – アルゴリズムと疑似コード – (補足)アルゴリズムの幾何的解釈 • まとめ 1
  3. 3. 変分法 2
  4. 4. 変分法 • 関数 を入力とする汎関数 の極値となる関数 を求めるための方法 ⇒ 関数を関数で微分する方法 のとき   0 )()]([ dxxfxfL )cos(x )sin(x 0)cos()]([ 0    dxxxfL 2)sin()]([ 0    dxxxfL KL情報量の最適化に使う予定 L[ f (x)]f のとき 汎関数の例)積分 (3.39) 3
  5. 5. 変分法 • 関数 が関数 によって構成されている場合, と表記する )(log)(),( xqxqqxf  (変分ベイズ法で頻繁に登場する関数) 0 )( ),(    xq qxf f (x) q(x) f (x,q) (3.40) • 汎関数 の極値を与える は,以下の オイラー・ラグランジュ方程式(微分方程式)によって 与えられる  dxqxfxfL ),()]([ q 4
  6. 6. 変分ベイズ法 5
  7. 7. 変分ベイズ法まとめ • 観測 に対して,潜在変数 ,パラメータ をすべて確率変数として,その確率分布を求める (事後確率でない!) ),|(log :1 nxp     d qzq zxp qzq n nn n )()( ),|,,( log)()( ;1 ;1:1 ;1 )(qF       )(:1:1 )(:1:1:1 :1 )|,(logexp)()( )|,(logexp)( nzqnn qnnn zxppq zxpzq     dzxp nn ),|,,(log ;1:1 )|(~ izii xpx  )|(~ ii zMultiz )|(~  kk p )|(~  Dir 生成過程(今回扱うモデル) n K  iz k  ix  潜在変数とパラメータの分布を交互に更新 z1:n },{   • を , について最大化F(q) )(q q(z1:n ) x1:n 6http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfより
  8. 8. 因子分解 • 解析的に解けない事後分布を,計算が可能な分布で近似する • 変分ベイズ法で必要になるのは「分解可能である」という仮定のみ ),,|,,( :1:1  nn xzp n K iz k ix   事後分布(解析的に解けない) ),|,,( :1  nzq 変分事後分布(解析的に解ける分布で近似)       ddppzpzxp ppzpzxp z k k i ikii k k i ikii )|()|()|(),|( )|()|()|(),|( 分母の組み合わせがツライ その1:共役性がある場合[3.3.2] n K iz k ix その2:共役性がない場合[3.3.3] ),,( :1 nzq n K iz k ix     )|()|()( 11   qqzq K k k n i i k                特定の確率分布を仮定しない Dir Dir ディリクレ分布を仮定 確率分布を決め打ち 因子分解 (3.72) (3.42)    K k k n i i qqzq 11 )()()(  7
  9. 9. 変分ベイズ法の最重要ポイント ),|(log :1 nxp     dd qqzq zxp qqzq n nn n )()()( ),|,,,( log)()()( ;1 ;1:1 ;1)],,([ :1 nzqF )],,|,,(||),,([)],,([ :1:1:1:1  nnnn xzpzqKLzqF  変分事後分布(近似事後分布)を実際の事後分布にできるだけ近づけたい ),,( :1 nzq )],,|,,(||),,([minarg :1:1:1 ),,( :1   nnn Qzq xzpzqKL n   ところが、式(3.43) は計算が困難な項 を含む),,|,,( :1:1  nn xzp )43.3( 対数周辺尤度について、KL情報量に関する関係を用いることで上の最適化問題は迂回可能 対数周辺尤度とKL情報量の満たす関係 変分下限 KL情報量 (3.46) (3.47) 8
  10. 10. 変分ベイズ法の最重要ポイント(続き) ),|(log :1 nxp対数周辺尤度 は,変分事後分布 と無関係),,( :1 nzq 変分下限最適化のイメージ ⇒ は の変化に影響されず一定),|(log :1 nxp ),,( :1 nzq 変分下限 最適化 ),|(log :1 nxp ][qF ]||[ pqKL ),|(log :1 nxp ]||[ pqKL ][qF 得られる解 は, とのKL情報量を最小にする),,( :1 nzq ),|(log :1 nxp 9 (一定) (一定)
  11. 11. 解きたい問題 結局、変分ベイズ法では以下の最適化問題を解くことになる )],,([maxarg),,( :1 ),,( :1 :1   n Qzq n zqFzq n    展開すると、 )],,([ :1 nzqF  nz n nn n dd zq zxp qqzq :1 )( ),|,( log)()()( :1 :1:1 :1    )]|(||)([)]|(||)([ 1  pqKLpqKL K k k   式(3.52)と式(3.53)は,それぞれが変分ベイズ法の性質を説明している • 式(3.52) ・・・ (特定の条件下で)最尤推定としてみなせる項 • 式(3.53) ・・・ 正則化項 )51.3( )52.3( )53.3( 10
  12. 12. 式から見る変分ベイズ法の性質(1) (3.52)について  nz n nn n dd zq zxp qqzq :1 )( ),|,( log)()()( :1 :1:1 :1     nz n nn n zq zxp zq :1 )( ),|,( log)( :1 :1:1 :1   一般的にイメージする連続分布 今考えている確率分布 【参考】EMアルゴリズム )),(()|(log :1:1  nn zqFxp   nz nn nn nn xzq zxp xzq :1 )ˆ,|( )|,( log)ˆ,|( :1:1 :1:1 :1:1    として下限 を について交互に最大化する)),(( :1 nzqF ),( :1 nzq • これを最大化する を求める手法はEMアルゴリズム,),( izq )52.3( (3.54) 11
  13. 13. 式から見る変分ベイズ法の性質(2) (3.53)について • この項は変分事後分布とそれぞれの事前分布のKL情報量 • 変分事後分布が事前分布から離れすぎることを防止 )]|(||)([)]|(||)([ 1  pqKLpqKL K k k  )53.3( : の類似度(離れると値が増加))|(),(  pq)]|(||)([  pqKL k )]|(||)([  pqKL : の類似度(離れると値が増加))|(),(  pq 変分事後分布(求めたい分布) 事前分布 (既知・データに依らない) 正則化の効果 ちなみに、 • データ数∞でMDL/BICと一致 ))ˆ()ˆ(log(log) 2 |ˆ| 2 |ˆ| (   ppN MDL,BIC: 12
  14. 14. アルゴリズムと疑似コード • 変分事後分布の更新式は以下のようになる • 実装上はこれらをひたすら更新することになる • Step1:初期化 – ハイパーパラメータの初期化 – 潜在変数の初期化 • Step2:以下を繰り返す – パラメータの更新(M-step) – 潜在変数の更新(E-step) )( kzq i          )|(log)(exp)|()( :1:1 :1  n z n zpzqpq n         )|(log)(exp)|()( 1 k n i iikk xpkzqpq  潜在変数の更新(E-step) パラメータの更新(M-step)     ddkzxpqq ii ),|,(log)()(exp (3.61) (3.67) (3.71) 変分ベイズ法 13
  15. 15. アルゴリズム理解のための補足 (本の内容から外れます) 14
  16. 16. 情報幾何 • ある構造をもつ空間の中で確率分布を解釈する • 統計,情報理論など異分野の問題を統一的に解釈できる • 幾何学は直感的理解を得られる可能性がある(なお実際は…) 情報幾何の分野では,確率分布(確率モデル)を点と空間で表現する 例) 正規分布  1 2 1 2 ここまで扱ってきたモデルの場合は,モデル空間は の軸で表現可能   1 2 1 2 ),,( :1 1 nzq   z ),,( :1 nzq ,,z ),,( :1 2 nzq ?),,( :1 nzq     n i K k ki qqzq 1 1 )()()(  変分事後分布 最適なモデルに対応する座標はどこか? 15 点の間隔の大きさを 表す量がKL情報量
  17. 17. 情報幾何的世界観 • 情報幾何的に解釈すると,機械学習はデータをモデル空間(部分空間)に 射影した時のモデル空間上の座標を求める問題 • この考え方は変分ベイズ法だけでなく,EMアルゴリズムやアンサンブル学 習など様々な学習アルゴリズムを説明することが可能 モデル データ 結果 世の中 部分空間M 十分統計量 射影 16 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより
  18. 18. 情報幾何を用いた 変分ベイズアルゴリズムの解釈 直感的解釈 真の分布p モデルM(e平坦) S e射影 初期解 • 因子分解によってモデル空間が得られる • KL情報量から目指す座標を特定 • E/M各Stepで1変数についての最適化を繰り返す )()()(),,|,,( :1:1:1  qqzqxzp nnn  )],,|,,(||)()()([min :1:1 )()( :1 )(  nn tt n t xzpqqzqKL :モデルM(e平坦) :e射影 • Step1:初期化 – ハイパーパラメータの初期化 – 潜在変数の初期化 • Step2:以下を繰り返す – パラメータの更新(M-step) – 潜在変数の更新(E-step) 変分ベイズ法 17 https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdfより 交互最適化の軌跡
  19. 19. まとめ 18
  20. 20. まとめ • 解析的に計算不可能なモデルに対する近似解法 – 因子分解を利用して事後分布を解析可能な分布で近似 • MCMCのような確率的な手法とは異なる,決定論的なアルゴリズム – 目標とする対数周辺尤度は定数 – これの下限(変分下限)を最大化する – 変分下限の最大化 = 変分事後分布と本来の事後分布のKL情報量の最小化 • EMアルゴリズムを内包する – パラメータの分布q(z),q(θ)が求まる – q(θ)がデルタ関数のとき,EMアルゴリズムと一致する • 過学習を防止する仕組みを有する – パラメータの事前分布と変分事後分布とのKL情報量が正則化項として機能する 19
  21. 21. 参考 • トピックモデルによる統計的潜在意味解析 • パターン認識と機械学習(下) • http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdf • https://staff.aist.go.jp/s.akaho/papers/infogeo-sice.pdf • http://www.cse.buffalo.edu/faculty/mbeal/papers/beal03.pdf 20

×