[改]      [Zhu, Chen and Xing ICML2011]Infinite SVM: a Dirichlet Process Mixture of       Large-Margin Kernel Machines     ...
References• [Blei & Jordan 06] Variational inference  for Dirichlet process mixtures• [Jaakkola, Meila & Jebara NIPS99]  M...
混合SVM• データ空間は多様体をなす – ローカルにはシンプルな構造• クラスタに分類、コンポーネントごとにSVM – シンプルな素性で済む – 一度に扱うデータ数が減る→計算量が減る
Infinite SVM (iSVM)• 多クラス SVM を DPM で混合化 – DPM=Dirichlet Process Mixture   • データ点をクラスタリング   • クラスタ数を自動決定 – VBと「リスク関数+相対エント...
iSVM のモデル (1)• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル• Zd∈{1,2,...}: Xdのコンポーネント – Xdにどの識別器を使うか
iSVM のモデル (2)• V, Z は Dirichlet Process に従う                                 V~GEM(α)                                 ηは後述 ...
iSVM のモデル (3)• X は指数型分布族、γはその共役事前分布
iSVM のモデル (4)                               Y には分布を•  ∈ 1, ⋯ ,  を使って識別関数を定義     入れない  – f(y, x) : 素性ベクトル• ηi:i番目の識別器のパラメータ...
予測ルール• 識別関数は F を事後分布で周辺化 – z, η の事後分布を q(z, η) とすると、入力 x   に対する予測値 y* は
推論• 識別関数と確率モデルが混じっているの  で、単純な推論は出来ない – 変分ベイズ(VB) – リスク関数+相対エントロピーの最小化• を交互に行うことで推論を行う – 収束は……保証されなさそうだなあ
推論 / VBパート (1)                                                     [Blei  Jordan 06]• 独立性を仮定して事後分布を推定 –  , , ,  =         ...
推論 / VBパート (2)• 例:q(v)の推論                     1                                             –   = Multi  , ⋯ ,  ,   =     ...
(参考)Collapsed variational DPM                          [Kurihara, Welling  Teh IJCAI07]• DPMをVBで解くには、トピック数をTで切り詰める  – 単純に ...
推論 / リスク最小化パート (1)                                       たぶんq(z)の• q(z)とq(η)を推定する                        間違い              ...
推論 / リスク最小化パート (2)                = 0 (if y is correct)                                         [Zhu  Xing 09]            ...
推論 / リスク最小化パート (3)• これを解くと、 – p0  =  0 , Σ0 ,   =   , Σ0 とすると                     1           –   = Multi  , ⋯ ,  についても解くと
Experiments (1)• 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+   JMLR09)
Experiments (2)• images of 13 type animals (SIFT特徴量)                                            生SVMと                     ...
[参考] Maximum Entropy    Discrimination (MED) [Jaakkola+ 99]• 識別関数 + large margin に確率モデルを入  れるための一般的な枠組み – 確率的手法と組み合わせるなどの拡...
MED (1)• 識別関数を以下のように定義 – Θ={θ1,θ-1,b} : パラメータ• Θに分布を入れて、L を周辺化したものを  decision rule とする
MED (2)• マージン  – このままでは誤判定が許されない• 各点ごとにマージン = { }を考える•  に誤判定を低確率で許す分布を入れる – 0 ( ) =  −   1−     低い確率で                     ...
MED (3)• Minimum Relative Entropy(MRE)  – 以下の制約の下、KL(P||P0) を最小化するΘ    を見つける
MED (4)• 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、   J(λ)=-log Z(λ) の unique maximum
MED (5)• MED は SVM を special case として含む – 識別関数                             1   • たとえば    ∝ exp( (    − ))とおく              ...
MED vs iSVM• MED は……  – 一般的な枠組み。SVM は special case  – 相対エントロピーを最小化  – マージンに分布を入れる• iSVM は……  – SVMの混合化(ノンパラベイズ)  – VB と「リス...
まとめというか感想• コンポーネントに分割するのは筋が良い気がする – データは多様体をなす(ローカルにはシンプルな構造) – 分割により SVM の計算量も大幅に減らせる• でも生SVMとあまり精度が変わらない – 近似のせい?   データの...
Upcoming SlideShare
Loading in …5
×

Infinite SVM [改] - ICML 2011 読み会

4,203
-1

Published on

http://www.slideshare.net/shuyo/i-svm-icml11 に補足を行った「ちょびっと改良版」です。

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,203
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
14
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Infinite SVM [改] - ICML 2011 読み会

  1. 1. [改] [Zhu, Chen and Xing ICML2011]Infinite SVM: a Dirichlet Process Mixture of Large-Margin Kernel Machines 2011/07/16-19 中谷秀洋 @ サイボウズ・ラボ株式会社 @shuyo / id:n_shuyo
  2. 2. References• [Blei & Jordan 06] Variational inference for Dirichlet process mixtures• [Jaakkola, Meila & Jebara NIPS99] Maximum entropy discrimination• [Kurihara, Welling & Teh IJCAI07] Collapsed variational Dirichlet process mixture models• [Zhu & Xing JMLR09] Maximum entropy discrimination Markov networks
  3. 3. 混合SVM• データ空間は多様体をなす – ローカルにはシンプルな構造• クラスタに分類、コンポーネントごとにSVM – シンプルな素性で済む – 一度に扱うデータ数が減る→計算量が減る
  4. 4. Infinite SVM (iSVM)• 多クラス SVM を DPM で混合化 – DPM=Dirichlet Process Mixture • データ点をクラスタリング • クラスタ数を自動決定 – VBと「リスク関数+相対エントロピーの最小 化」を交互に行うことで推論
  5. 5. iSVM のモデル (1)• Xd∈RM: データ点, Yd∈{1,...,L}: ラベル• Zd∈{1,2,...}: Xdのコンポーネント – Xdにどの識別器を使うか
  6. 6. iSVM のモデル (2)• V, Z は Dirichlet Process に従う V~GEM(α) ηは後述 点dが属する コンポーネント
  7. 7. iSVM のモデル (3)• X は指数型分布族、γはその共役事前分布
  8. 8. iSVM のモデル (4) Y には分布を• ∈ 1, ⋯ , を使って識別関数を定義 入れない – f(y, x) : 素性ベクトル• ηi:i番目の識別器のパラメータ – ηi~N(μ0,Σ0), β={μ0,Σ0}
  9. 9. 予測ルール• 識別関数は F を事後分布で周辺化 – z, η の事後分布を q(z, η) とすると、入力 x に対する予測値 y* は
  10. 10. 推論• 識別関数と確率モデルが混じっているの で、単純な推論は出来ない – 変分ベイズ(VB) – リスク関数+相対エントロピーの最小化• を交互に行うことで推論を行う – 収束は……保証されなさそうだなあ
  11. 11. 推論 / VBパート (1) [Blei Jordan 06]• 独立性を仮定して事後分布を推定 – , , , = =1 =1 =1 −1 =1 – DPMのトピック数をT(=20)に制限• vとγは通常のVBでそのまま推論できる• zとηはできない – Yに分布が入っていないから
  12. 12. 推論 / VBパート (2)• 例:q(v)の推論 1 – = Multi , ⋯ , , = とすると、 – ln () = ,, , , , , = ln 0 + [ln ( |)] + . ln ( ) = ln 0 + ln + =+1 ln 1 − + – 0 = Beta 1, とおくと、 • = Beta(1 + , + =+1 )• q(γ) も同様に計算できる。
  13. 13. (参考)Collapsed variational DPM [Kurihara, Welling Teh IJCAI07]• DPMをVBで解くには、トピック数をTで切り詰める – 単純に = 1 = 1、それ以降の確率は強制的に0• Collapsed VB DPM [Kurihara+ 07]はvを積分消去す ることで、切り詰めによる誤差を抑えている?
  14. 14. 推論 / リスク最小化パート (1) たぶんq(z)の• q(z)とq(η)を推定する 間違い = ((, , )|| , , )から , の寄与分を除いたもの = KL(q(η)||p0(η|β)) + KL(q(z,v)||p(z,v|α))
  15. 15. 推論 / リスク最小化パート (2) = 0 (if y is correct) [Zhu Xing 09] = 2 (otherwise) F(y,xd) margin ∆ ≥ () for all y yd
  16. 16. 推論 / リスク最小化パート (3)• これを解くと、 – p0 = 0 , Σ0 , = , Σ0 とすると 1 – = Multi , ⋯ , についても解くと
  17. 17. Experiments (1)• 人工データ – MNL = Multinominal Logit – dpMNL = DP mixture of MNL (Shahbaba+ JMLR09)
  18. 18. Experiments (2)• images of 13 type animals (SIFT特徴量) 生SVMと あまり差がない – MMH = multiview method (Chen+ 2010) – kmeans+SVM = kmeans でクラスタリング+各クラス タにて linear SVM • 最高速&そこそこ精度がいいから、これでいいんじゃ(爆
  19. 19. [参考] Maximum Entropy Discrimination (MED) [Jaakkola+ 99]• 識別関数 + large margin に確率モデルを入 れるための一般的な枠組み – 確率的手法と組み合わせるなどの拡張性 – 事前分布を入れられる • アプリケーションに合わせた調整やロバスト性• iSVM は MED の extension” とあるが……
  20. 20. MED (1)• 識別関数を以下のように定義 – Θ={θ1,θ-1,b} : パラメータ• Θに分布を入れて、L を周辺化したものを decision rule とする
  21. 21. MED (2)• マージン – このままでは誤判定が許されない• 各点ごとにマージン = { }を考える• に誤判定を低確率で許す分布を入れる – 0 ( ) = − 1− 低い確率で 誤判定を許す • decision rule をさらに周辺化 0 1
  22. 22. MED (3)• Minimum Relative Entropy(MRE) – 以下の制約の下、KL(P||P0) を最小化するΘ を見つける
  23. 23. MED (4)• 定理:MRE の解は次の形になる – ただし λ はラグランジュ乗数であり、 J(λ)=-log Z(λ) の unique maximum
  24. 24. MED (5)• MED は SVM を special case として含む – 識別関数 1 • たとえば ∝ exp( ( − ))とおく 2 – θ~N(0,1), b は無情報事前分布を入れる – このとき J(λ) は次のようになる
  25. 25. MED vs iSVM• MED は…… – 一般的な枠組み。SVM は special case – 相対エントロピーを最小化 – マージンに分布を入れる• iSVM は…… – SVMの混合化(ノンパラベイズ) – VB と「リスク関数+相対エントロピーの最小化」を交互 に – ソフトマージンはslack変数で• iSVM は MED の拡張ではないと思う……
  26. 26. まとめというか感想• コンポーネントに分割するのは筋が良い気がする – データは多様体をなす(ローカルにはシンプルな構造) – 分割により SVM の計算量も大幅に減らせる• でも生SVMとあまり精度が変わらない – 近似のせい? データのせい? コンポーネント数?• どうしていきなりノンパラベイズ? – 有限混合でもいいんでは? – ディリクレ分布で ARD 効かせるとか • VB 的近似も避けられるかもしれない
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×