Icml2011 Minimum Probability Flow Learning
Upcoming SlideShare
Loading in...5
×
 

Icml2011 Minimum Probability Flow Learning

on

  • 1,536 views

 

Statistics

Views

Total Views
1,536
Views on SlideShare
1,524
Embed Views
12

Actions

Likes
4
Downloads
7
Comments
0

2 Embeds 12

https://twitter.com 11
http://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Icml2011 Minimum Probability Flow Learning Icml2011 Minimum Probability Flow Learning Presentation Transcript

  • ICML2011読む会2011/08/04 -読む論文-Minimum Probability Flow LearningJascha Sohl-Dickstein, Peter Battaglino&Michael & R. DeWeese UC Berkley 読む人 佐藤一誠(助教@東大) 1
  • 概要• 目的 – Ising model, Deep belief networkなどの学習 – 分配関数(正規化項)の計算量が問題• 面白いところ – Contrastive Divergence (CD) [Hinton+,2002]との関係 – CDよりも高速に学習できる※2009年にArxivに同名タイトルで論文がすでにあがっていた 2
  • 目次• Contrastive Divergence (高速Review)• Minimum Probability Flow Learning – 概要 – 導出 – Contrastive Divergenceとの関係• 実験 3
  • 問題設定 離散 Data: 1 Model: p( x |  )  exp[  E ( x; )] Z ( ) Goal:   arg max L( X ; ) *  N 1L( X ; )    E[ xn ; ]  log Z ( ) N n 1 intractable 4
  • Contrastive Divergence (CD) [Hinton+,2002] L( X ; ) 1 E[ xn ; ] N E[ x; ]    p( x |  )  N n1  x  1 N E[ xn ; ] 1 S E[ x s ; ]     N n1  S s 1  サンプル近似→ x ~ p( x |  ) s (but 高コスト)[Point] 実際には、データXからの1回のマルコフ連鎖で代用する! 5
  • 目次• Contrastive Divergence (高速Review)• Minimum Probability Flow Learning – 概要 – 導出 – Contrastive Divergenceとの関係• 実験 6
  • 論文の表記(要注意)• 離散状態上の確率モデルを考える• i: 状態 index• 2つのコイン投げ{表:0,裏:1}を考える• θ=コインの裏表が出る確率• i=1⇔00, i=2⇔01, i=3⇔10, i=4⇔11 あるθにおける状態 i の確率 ※θの確率分布ではない pは状態の確率ベクトル 7
  • MPF学習の概要 Data分布からModel分布への マルコフ連鎖を考える Γ(θ) : 状態遷移行列経験分布をp (0)と書く Given θ 8
  • 経験分布をp (0)と書く p (t) p (∞) Γ(θ) 定常分布 9
  • どのようなΓ(θ)であればよいのか?Detailed Balance ⇔ エルゴード性を考慮して問題ごとに定義する (Isingの場合は後述する) 10
  • 最尤学習:モデル分布の空間で 経験分布に近いθを見つける Γ(θ)による マルコフ連鎖MPF学習: 定常分布へεだけ遷移する分布で 経験分布に近いθを見つける 11
  • • 最尤学習• MPF学習 12
  • MPF学習アルゴリズムの導出1/2Fist order Taylor expansion が ん ば る と 訓練データ集合 13
  • MPF学習アルゴリズムの導出2/2目的関数 が ん ば る と ↓ Gradient decent! 14
  • Contrastive Divergenceをもう一度眺める勾配を 1 N E[ xn ; ] 1 S E[ x ; ] s    S   N n1 s 1 訓練データ平均 各訓練データから1回 のマルコフ連鎖で作った サンプル平均(i.e.,S=N) として勾配法で解く 15
  • Constrictive Divergenceとの関係 j→iの 遷移確率  Ej ( )  Ei ( )    ij  | D |   P( j  i) | D | jD iD jD iD CDは、この期待値をD中の各データが互いに をjから実際に遷移させたiで unconnectedなら1 近似している 16
  • 実験• Ising model (fully visible Boltzmann machine) xは100次元binaryベクトル• Jを与えてxを生成して訓練データとする• 学習したJの平均二乗誤差で評価 17
  • CD-1,CD-10 Psedolikelihood(平均場近似ぽい) MPF 18
  • 19
  • おわりに• gをうまく選べばO(|D|) (状態数に依存しない)と主張• Deep belief netなどの実験もある• xが連続の場合への拡張にも言及• 「Long versionのappendixに書いてある文」多数 (ICML論文にappendixはない)(傾向)CD関連は毎年ICMLに出ている e.g. – Persistent Contrastive Divergence [ICML2008,2009] – Particle filtered MCMC-MLE [ICML2010] 20