Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

論文紹介 Semi-supervised Learning with Deep Generative Models

139,353 views

Published on

NIPS2014読み会における論文紹介資料です。

Published in: Technology
  • Be the first to comment

論文紹介 Semi-supervised Learning with Deep Generative Models

  1. 1. 論論⽂文紹介 Semi-‐‑‒supervised  Learning   with  Deep  Generative  Models NIPS2014読み会  @  東⼤大,  2015/01/20 Preferred  Networks,  得居  誠也 @beam2d
  2. 2. l  ラベルありデータが少なくて,それだけでは分離離曲⾯面を決めづらい l  ラベルなしデータを使って空間を補間して,いい感じに分離離曲⾯面を決めよう →  半教師あり学習 半教師あり学習  (semi-‐‑‒supervised  learning) 2 猫 ⽝犬 ラベルありデータ(少ない) ラベルなしデータ(多い)
  3. 3. 従来⼿手法:⼤大きく  4  種類 3 ⾃自⼰己教⽰示による学習 •  学習した予測器を使ってラベルなし データをラベル付けする •  ⼤大マージンの仮説を⼊入れることもあ る(Transductive SVM) グラフベースの⼿手法 •  データの類似度度グラフを作り,ラベ ルを伝播させる •  ⼤大概、グラフラプラシアンの固有値 問題に落落ちる 多様体学習による⼿手法 •  予測がデータ多様体に沿ってゆっ くり変化する制約や正則化を使う •  データ多様体の推定にラベルなし データが使える •  例例:Manifold Tangent Classifier (MTC), AtlasRBF ⽣生成モデルを⽤用いた⼿手法 •  ⽣生成モデルを学習する •  単に特徴学習に使うか,ラベルなし データを不不完全データとして扱う 今⽇日はこれ
  4. 4. この論論⽂文の⼿手法を使うと MNIST  をラベルありデータ  100  件で誤識識別率率率  3.33%  まで出せる (ほかにも  SVHN  や  NORB  での実験あり) 4
  5. 5. 単純な⽣生成モデル 5 x z p(x, z) = p(z)p(x|z) これをニューラルネットで定義する
  6. 6. 深い⽣生成モデル  M1(データが実ベクトルの場合) 6 Neural Net (パラメータ      ) z N(z; 0, I) (µ, ) ここは決定的 x N(x|µ, diag 2 )
  7. 7. 深い⽣生成モデル  M1(データが⼆二値ベクトルの場合) 7 Neural Net (パラメータ      ) z N(z; 0, I) ここは決定的 x Bernoulli(x|µ) µ 以降降は  Gaussian  の場合のみを考える(Bernoulli  でも同様)
  8. 8. ラベルを⼊入れた⽣生成モデル  M2(Gaussian  の場合) 8 Neural Net (パラメータ      ) z N(z; 0, I) (µ, ) y Cat(y| ) x N(x|µ, diag 2 )
  9. 9. 推論論モデル:確率率率的な  AutoEncoder l  有向モデル                                            は          から        を推論論しづらい l  そこでこの推論論を別の  NN  で表す(この論論⽂文オリジナルではな い) 9 p(z)p(x|z) x z p(z)p(x|z) q(x)q(z|x) z x NN(      ) NN(      ) ⽣生成モデル   推論論モデル(認識識モデル) (              は経験分布)q(x)
  10. 10. 推論論モデルも  NN  で書く 10 l  M1(⼊入⼒力力データの⽣生成モデル)の場合, l  M2(ラベルを⽤用いた⽣生成モデル)の場合, q (z|x) = N(z|µ (x), diag 2 (x)). NN NN q (z|y, x) = N(z|µ (y, x), diag 2 (y, x)), q (y|x) = Cat(y| (x)).
  11. 11. M1  の⽬目的関数:変分下界(変分  AutoEncoder) 11 log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]   これを最⼤大化する (                                                    のとき左辺と⼀一致)q(x, z) = p(x, z) 半教師あり学習に使う場合,                                          を特徴ベクトル としてこれを使って識識別器を(半)教師あり学習する(例例えば   TSVM  や  M2)                         z q(z|x) AutoEncoder          に関する正則化項z
  12. 12. M2  の⽬目的関数:変分下界+識識別学習 12 ラベルありデータに対しては ラベルなしデータに対しては これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する log p(x, y) L(x, y) := Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)] log p(x) U(x) := Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)] (x,y):labeled L(x, y) + x:unlabaled U(x) (x,y):labeled log q(y|x) q(y|x)ここに                            の項が ⼊入ってない
  13. 13. 勾配の計算法:SGVB  (SBP) l  ⽬目的関数を略略記: l  勾配を計算する上で                                  が厄介 l  これは  Gaussian  に関する期待値なので と書き直せて、勾配をサンプリングで近似できる: ⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は  Stochastic   Gradient  Variational  Bayes  や  Stochastic  BackProp  と呼ばれる (それぞれ  ICLRʼ’14,  ICMLʼ’14  で独⽴立立に提案されたが,基本的には同じ⼿手 法をさす) 13 Eq(z|x,y) Eq(z|x,y)[f(x, y, z)] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
  14. 14. 学習⽅方法:SGVB(SBP)  +  勾配法 l  勾配が計算できたので,あとは確率率率的勾配法に投げれば  OK l  論論⽂文では  AdaGrad  やモーメンタムつきの  RMSprop  を 使っている,とある –  3.2  には前者を,4.4  には後者を使ったよと書いてありよくわ からないが,4.4  の⽅方が詳しく書かれているのでおそらく後 者を使っているのではないかと思う 14
  15. 15. 実験:2  種類、⽚片⽅方はその中でさらに  2  種類 l  半教師あり学習  (MNIST,  SVHN,  NORB) l  条件つきデータ⽣生成:2  通りの実験 –  2  次元の          を使って学習し,ラベル        を固定して様々な           から                          を⽣生成する  (MNIST) –  テストデータ        から                を推論論し,それを使って様々なラ ベル        で                            を再⽣生成する  (MNIST,  SVHN) 15 z zy x|y, z y x|y, z x z|x
  16. 16. 実験:半教師あり学習(値はすべて誤識識別率率率  %) 16 ラベルありデータ数
  17. 17. 条件つきデータ⽣生成(ラベル固定) 17 2  次元の          にそって描画している.        は筆跡・書き⽅方の癖  (style)  みたいなものをとらえている z z
  18. 18. 条件つきデータ⽣生成(ラベルを取り替えて再⽣生成) 18 左端の列列が⼊入⼒力力データ,右の  10  列列が推論論された        と各ラベ ルから再⽣生成された z x|y, z
  19. 19. まとめ・考察 l  ⽣生成・推論論モデルを使って深い⽣生成モデルを学習できる (これ⾃自体は既存の結果) l  これが半教師あり学習に素直に応⽤用できて,性能も⾼高い l  ⽣生成モデルなのでアナロジーのような⾯面⽩白実験ができる l  DBM  とくらべて推論論が簡単で,半教師ありへの応⽤用もわか りやすい(分類器が普通の  NN  として得られる) l  DBM  と違い,尤度度や勾配も不不偏推定できる l  ⼤大規模データでうまく動くかは気になるところ 19
  20. 20. 参考⽂文献 紹介した論論⽂文 Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information Processing Systems 27 (pp. 3581–3589). Stochastic  Gradient  VB(変分  AutoEncoder)  の論論⽂文 Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International Conference on Learning Representations. Stochastic  BackProp  の論論⽂文 Rezende, D. J., Mohamed, S., & Wierstra, D. (2014). Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286). 20

×