Your SlideShare is downloading. ×
Infinite SVM [改] - ICML 2011 読み会
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Infinite SVM [改] - ICML 2011 読み会

3,834
views

Published on

http://www.slideshare.net/shuyo/i-svm-icml11 に補足を行った「ちょびっと改良版」です。

http://www.slideshare.net/shuyo/i-svm-icml11 に補足を行った「ちょびっと改良版」です。


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,834
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
14
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. [改] [Zhu, Chen and Xing ICML2011]Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16-19 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  • 2. References• [Blei & Jordan 06] Variational inference for Dirichlet process mixtures• [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination• [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models• [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  • 3. 混合SVM• データ空間は多様体をなす – ローカルにはシンプルな構造• クラスタに分類、コンポーネントごとにSVM – シンプルな素性で済む – 一度に扱うデータ数が減る→計算量が減る
  • 4. Infinite SVM (iSVM)• 多クラス SVM を DPM で混合化 – DPM=Dirichlet Process Mixture • データ点をクラスタリング • クラスタ数を自動決定 – VBと「リスク関数+相対エントロピーの最小 化」を交互に行うことで推論
  • 5. iSVM のモデル (1)• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル• Zd∈{1,2,...}: Xdのコンポーネント – Xdにどの識別器を使うか
  • 6. iSVM のモデル (2)• V, Z は Dirichlet Process に従う V~GEM(α) ηは後述 点dが属する コンポーネント
  • 7. iSVM のモデル (3)• X は指数型分布族、γはその共役事前分布
  • 8. iSVM のモデル (4) Y には分布を• ∈ 1, ⋯ , を使って識別関数を定義 入れない – f(y, x) : 素性ベクトル• ηi:i番目の識別器のパラメータ – ηi~N(μ0,Σ0), β={μ0,Σ0}
  • 9. 予測ルール• 識別関数は F を事後分布で周辺化 – z, η の事後分布を q(z, η) とすると、入力 x に対する予測値 y* は
  • 10. 推論• 識別関数と確率モデルが混じっているの で、単純な推論は出来ない – 変分ベイズ(VB) – リスク関数+相対エントロピーの最小化• を交互に行うことで推論を行う – 収束は……保証されなさそうだなあ
  • 11. 推論 / VBパート (1) [Blei Jordan 06]• 独立性を仮定して事後分布を推定 – , , , = =1 =1 =1 −1 =1 – DPMのトピック数をT(=20)に制限• vとγは通常のVBでそのまま推論できる• zとηはできない – Yに分布が入っていないから
  • 12. 推論 / VBパート (2)• 例:q(v)の推論 1 – = Multi , ⋯ , , = とすると、 – ln () = ,, , , , , = ln 0 + [ln ( |)] + . ln ( ) = ln 0 + ln + =+1 ln 1 − + – 0 = Beta 1, とおくと、 • = Beta(1 + , + =+1 )• q(γ) も同様に計算できる。
  • 13. (参考)Collapsed variational DPM [Kurihara, Welling Teh IJCAI07]• DPMをVBで解くには、トピック数をTで切り詰める – 単純に = 1 = 1、それ以降の確率は強制的に0• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  • 14. 推論 / リスク最小化パート (1) たぶんq(z)の• q(z)とq(η)を推定する 間違い = ((, , )|| , , )から , の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  • 15. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ () for all y yd
  • 16. 推論 / リスク最小化パート (3)• これを解くと、 – p0 = 0 , Σ0 , = , Σ0 とすると 1 – = Multi , ⋯ , についても解くと
  • 17. Experiments (1)• 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  • 18. Experiments (2)• images of 13 type animals (SIFT特徴量) 生SVMと あまり差がない – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各クラス タにて linear SVM • 最高速&そこそこ精度がいいから、これでいいんじゃ(爆
  • 19. [参考] Maximum Entropy Discrimination (MED) [Jaakkola+ 99]• 識別関数 + large margin に確率モデルを入 れるための一般的な枠組み – 確率的手法と組み合わせるなどの拡張性 – 事前分布を入れられる • アプリケーションに合わせた調整やロバスト性• iSVM は MED の extension” とあるが……
  • 20. MED (1)• 識別関数を以下のように定義 – Θ={θ1,θ-1,b} : パラメータ• Θに分布を入れて、L を周辺化したものを decision rule とする
  • 21. MED (2)• マージン – このままでは誤判定が許されない• 各点ごとにマージン = { }を考える• に誤判定を低確率で許す分布を入れる – 0 ( ) = − 1− 低い確率で 誤判定を許す • decision rule をさらに周辺化 0 1
  • 22. MED (3)• Minimum Relative Entropy(MRE) – 以下の制約の下、KL(P||P0) を最小化するΘ を見つける
  • 23. MED (4)• 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  • 24. MED (5)• MED は SVM を special case として含む – 識別関数 1 • たとえば ∝ exp( ( − ))とおく 2 – θ~N(0,1), b は無情報事前分布を入れる – このとき J(λ) は次のようになる
  • 25. MED vs iSVM• MED は…… – 一般的な枠組み。SVM は special case – 相対エントロピーを最小化 – マージンに分布を入れる• iSVM は…… – SVMの混合化(ノンパラベイズ) – VB と「リスク関数+相対エントロピーの最小化」を交互 に – ソフトマージンはslack変数で• iSVM は MED の拡張ではないと思う……
  • 26. まとめというか感想• コンポーネントに分割するのは筋が良い気がする – データは多様体をなす(ローカルにはシンプルな構造) – 分割により SVM の計算量も大幅に減らせる• でも生SVMとあまり精度が変わらない – 近似のせい? データのせい? コンポーネント数?• どうしていきなりノンパラベイズ? – 有限混合でもいいんでは? – ディリクレ分布で ARD 効かせるとか • VB 的近似も避けられるかもしれない

×