Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Infinite SVM - ICML 2011 読み会

4,102 views

Published on

ICML 読み会で iSVM を紹介したときの資料です。
発表中に見つけた間違いは修正していますが、いろいろ不足していることがわかった部分の補足はまだしてません。

  • Be the first to comment

Infinite SVM - ICML 2011 読み会

  1. 1. [Zhu, Chen and Xing ICML2011]Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  2. 2. References• [Blei & Jordan 06] Variational inference for Dirichlet process mixtures• [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination• [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models• [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  3. 3. Infinite SVM (iSVM)• (多クラス)SVM を DPM で混合化• VB+リスク関数(相対エントロピー を含む)の最小化で推論• ソフトマージンはslack変数で• って書いてあるけど、[Zhu & Xing 09] + DPM という方が正しい気がする
  4. 4. Maximum Entropy Discrimination (MED) [Jaakkola+ 99]• 識別関数 + large margin に確率モデル を入れて、エントロピー最大原理で解く – パラメータに事前分布 – 識別関数を logit で定義し、境界条件によっ て admissible set を記述 – 事前分布P0から射影 (相対エントロピー最小)
  5. 5. MED (1)• 識別関数• Minimum Relative Entropy(MRE) – 次の制約の下で、KL(P||P0) を最小化 – marginに分布を入れて、ソフトマージン実現 低い確率で • ������0 (������������ ) = ������������ −������ 1−������������ 誤判定を許す ������������ 0 1
  6. 6. MED (2)• 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  7. 7. MED (3)• MED は SVM を special case として含む – 識別関数 1 • たとえば ������ ������ ������������ ∝ exp( ������( ������ ������ ������ − ������))とおく 2 – θ~N(0,1), b は無情報事前分布 – このとき J(λ) は次のようになる
  8. 8. iSVM のモデル (1)• V, Z は Dirichlet Process V~GEM(α) ηは後述 点dが属する コンポーネント
  9. 9. iSVM のモデル (2)• X は指数型分布族、γはその共役事前分布
  10. 10. iSVM のモデル (3)• ������ ∈ 1, ⋯ , ������ を使って識別関数を定義 • Y には分布が入っていない – ηは(例えば)ガウス分布からサンプリング
  11. 11. 予測ルール• ベイズ予測
  12. 12. 推論 / VBパート (1) [Blei & Jordan 06]• 独立性を仮定して事後分布を推定 – ������ ������, ������, ������, ������ = ������ ������=1 ������ ������������ ������ ������ ������������ ������=1 ������ ������=1 ������ ������������ ������−1 ������=1 ������ ������������ – DPMのトピック数をT(=20)に制限• vとγは通常のVBでそのまま推論できる• zとηはできない – Yに分布が入っていないから
  13. 13. 推論 / VBパート (2)• 例:q(v)の推論 1 ������ ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ , ������ ������ = ������ ������������ とすると、 – ln ������(������) = ������������ ������,������,������ ������������ ������ ������, ������, ������, ������, ������ = ln ������0 ������ + ������ ������������������ [ln ������(������������ |������)] + ������������������������������. ������ ln ������(������������ ) = ln ������0 ������ + ������ ������ ln ������������ + ������=������+1 ������ ������ ln 1 − ������������ +������������������������������ – ������0 ������������ = Beta 1, ������ とおくと、 ������ • ������ ������������ = Beta(1 + ������ ������ , ������ + ������ ������=������+1 ������ )• q(γ) も同様に計算できる。
  14. 14. (参考)Collapsed variational DPM [Kurihara, Welling & Teh IJCAI07]• DPMをVBで解くには、トピック数をTで切り詰める – 単純に ������ ������������ = 1 = 1、それ以降の確率は強制的に0• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  15. 15. 推論 / リスク最小化パート (1) たぶんq(z)の• q(z)とq(η)を推定する 間違い = ������������(������(������, ������, ������)||������ ������, ������, ������ ������ )から ������, ������の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  16. 16. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu & Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ ������������ (������) for all y yd
  17. 17. 推論 / リスク最小化パート (3)• これを解くと、 – p0 ������ = ������ ������0 , Σ0 , ������ ������������ = ������ ������������ , Σ0 とすると 1 ������ – ������ ������������ = Multi ������������ , ⋯ , ������������ についても解くと
  18. 18. Experiments (1)• 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  19. 19. Experiments (2)• images of 13 type animals (SIFT特徴量) – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各ク ラスタを linear SVM

×