Icml2011 Minimum Probability Flow Learning

1,616 views
1,539 views

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,616
On SlideShare
0
From Embeds
0
Number of Embeds
31
Actions
Shares
0
Downloads
10
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Icml2011 Minimum Probability Flow Learning

  1. 1. ICML2011読む会2011/08/04 -読む論文-Minimum Probability Flow LearningJascha Sohl-Dickstein, Peter Battaglino&Michael & R. DeWeese UC Berkley 読む人 佐藤一誠(助教@東大) 1
  2. 2. 概要• 目的 – Ising model, Deep belief networkなどの学習 – 分配関数(正規化項)の計算量が問題• 面白いところ – Contrastive Divergence (CD) [Hinton+,2002]との関係 – CDよりも高速に学習できる※2009年にArxivに同名タイトルで論文がすでにあがっていた 2
  3. 3. 目次• Contrastive Divergence (高速Review)• Minimum Probability Flow Learning – 概要 – 導出 – Contrastive Divergenceとの関係• 実験 3
  4. 4. 問題設定 離散 Data: 1 Model: p( x |  )  exp[  E ( x; )] Z ( ) Goal:   arg max L( X ; ) *  N 1L( X ; )    E[ xn ; ]  log Z ( ) N n 1 intractable 4
  5. 5. Contrastive Divergence (CD) [Hinton+,2002] L( X ; ) 1 E[ xn ; ] N E[ x; ]    p( x |  )  N n1  x  1 N E[ xn ; ] 1 S E[ x s ; ]     N n1  S s 1  サンプル近似→ x ~ p( x |  ) s (but 高コスト)[Point] 実際には、データXからの1回のマルコフ連鎖で代用する! 5
  6. 6. 目次• Contrastive Divergence (高速Review)• Minimum Probability Flow Learning – 概要 – 導出 – Contrastive Divergenceとの関係• 実験 6
  7. 7. 論文の表記(要注意)• 離散状態上の確率モデルを考える• i: 状態 index• 2つのコイン投げ{表:0,裏:1}を考える• θ=コインの裏表が出る確率• i=1⇔00, i=2⇔01, i=3⇔10, i=4⇔11 あるθにおける状態 i の確率 ※θの確率分布ではない pは状態の確率ベクトル 7
  8. 8. MPF学習の概要 Data分布からModel分布への マルコフ連鎖を考える Γ(θ) : 状態遷移行列経験分布をp (0)と書く Given θ 8
  9. 9. 経験分布をp (0)と書く p (t) p (∞) Γ(θ) 定常分布 9
  10. 10. どのようなΓ(θ)であればよいのか?Detailed Balance ⇔ エルゴード性を考慮して問題ごとに定義する (Isingの場合は後述する) 10
  11. 11. 最尤学習:モデル分布の空間で 経験分布に近いθを見つける Γ(θ)による マルコフ連鎖MPF学習: 定常分布へεだけ遷移する分布で 経験分布に近いθを見つける 11
  12. 12. • 最尤学習• MPF学習 12
  13. 13. MPF学習アルゴリズムの導出1/2Fist order Taylor expansion が ん ば る と 訓練データ集合 13
  14. 14. MPF学習アルゴリズムの導出2/2目的関数 が ん ば る と ↓ Gradient decent! 14
  15. 15. Contrastive Divergenceをもう一度眺める勾配を 1 N E[ xn ; ] 1 S E[ x ; ] s    S   N n1 s 1 訓練データ平均 各訓練データから1回 のマルコフ連鎖で作った サンプル平均(i.e.,S=N) として勾配法で解く 15
  16. 16. Constrictive Divergenceとの関係 j→iの 遷移確率  Ej ( )  Ei ( )    ij  | D |   P( j  i) | D | jD iD jD iD CDは、この期待値をD中の各データが互いに をjから実際に遷移させたiで unconnectedなら1 近似している 16
  17. 17. 実験• Ising model (fully visible Boltzmann machine) xは100次元binaryベクトル• Jを与えてxを生成して訓練データとする• 学習したJの平均二乗誤差で評価 17
  18. 18. CD-1,CD-10 Psedolikelihood(平均場近似ぽい) MPF 18
  19. 19. 19
  20. 20. おわりに• gをうまく選べばO(|D|) (状態数に依存しない)と主張• Deep belief netなどの実験もある• xが連続の場合への拡張にも言及• 「Long versionのappendixに書いてある文」多数 (ICML論文にappendixはない)(傾向)CD関連は毎年ICMLに出ている e.g. – Persistent Contrastive Divergence [ICML2008,2009] – Particle filtered MCMC-MLE [ICML2010] 20

×