Successfully reported this slideshow.

論文紹介 Semi-supervised Learning with Deep Generative Models

109

Share

1 of 20
1 of 20

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

論文紹介 Semi-supervised Learning with Deep Generative Models

  1. 1. 論論⽂文紹介 Semi-‐‑‒supervised  Learning   with  Deep  Generative  Models NIPS2014読み会  @  東⼤大,  2015/01/20 Preferred  Networks,  得居  誠也 @beam2d
  2. 2. l  ラベルありデータが少なくて,それだけでは分離離曲⾯面を決めづらい l  ラベルなしデータを使って空間を補間して,いい感じに分離離曲⾯面を決めよう →  半教師あり学習 半教師あり学習  (semi-‐‑‒supervised  learning) 2 猫 ⽝犬 ラベルありデータ(少ない) ラベルなしデータ(多い)
  3. 3. 従来⼿手法:⼤大きく  4  種類 3 ⾃自⼰己教⽰示による学習 •  学習した予測器を使ってラベルなし データをラベル付けする •  ⼤大マージンの仮説を⼊入れることもあ る(Transductive SVM) グラフベースの⼿手法 •  データの類似度度グラフを作り,ラベ ルを伝播させる •  ⼤大概、グラフラプラシアンの固有値 問題に落落ちる 多様体学習による⼿手法 •  予測がデータ多様体に沿ってゆっ くり変化する制約や正則化を使う •  データ多様体の推定にラベルなし データが使える •  例例:Manifold Tangent Classifier (MTC), AtlasRBF ⽣生成モデルを⽤用いた⼿手法 •  ⽣生成モデルを学習する •  単に特徴学習に使うか,ラベルなし データを不不完全データとして扱う 今⽇日はこれ
  4. 4. この論論⽂文の⼿手法を使うと MNIST  をラベルありデータ  100  件で誤識識別率率率  3.33%  まで出せる (ほかにも  SVHN  や  NORB  での実験あり) 4
  5. 5. 単純な⽣生成モデル 5 x z p(x, z) = p(z)p(x|z) これをニューラルネットで定義する
  6. 6. 深い⽣生成モデル  M1(データが実ベクトルの場合) 6 Neural Net (パラメータ      ) z N(z; 0, I) (µ, ) ここは決定的 x N(x|µ, diag 2 )
  7. 7. 深い⽣生成モデル  M1(データが⼆二値ベクトルの場合) 7 Neural Net (パラメータ      ) z N(z; 0, I) ここは決定的 x Bernoulli(x|µ) µ 以降降は  Gaussian  の場合のみを考える(Bernoulli  でも同様)
  8. 8. ラベルを⼊入れた⽣生成モデル  M2(Gaussian  の場合) 8 Neural Net (パラメータ      ) z N(z; 0, I) (µ, ) y Cat(y| ) x N(x|µ, diag 2 )
  9. 9. 推論論モデル:確率率率的な  AutoEncoder l  有向モデル                                            は          から        を推論論しづらい l  そこでこの推論論を別の  NN  で表す(この論論⽂文オリジナルではな い) 9 p(z)p(x|z) x z p(z)p(x|z) q(x)q(z|x) z x NN(      ) NN(      ) ⽣生成モデル   推論論モデル(認識識モデル) (              は経験分布)q(x)
  10. 10. 推論論モデルも  NN  で書く 10 l  M1(⼊入⼒力力データの⽣生成モデル)の場合, l  M2(ラベルを⽤用いた⽣生成モデル)の場合, q (z|x) = N(z|µ (x), diag 2 (x)). NN NN q (z|y, x) = N(z|µ (y, x), diag 2 (y, x)), q (y|x) = Cat(y| (x)).
  11. 11. M1  の⽬目的関数:変分下界(変分  AutoEncoder) 11 log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]   これを最⼤大化する (                                                    のとき左辺と⼀一致)q(x, z) = p(x, z) 半教師あり学習に使う場合,                                          を特徴ベクトル としてこれを使って識識別器を(半)教師あり学習する(例例えば   TSVM  や  M2)                         z q(z|x) AutoEncoder          に関する正則化項z
  12. 12. M2  の⽬目的関数:変分下界+識識別学習 12 ラベルありデータに対しては ラベルなしデータに対しては これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する log p(x, y) L(x, y) := Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)] log p(x) U(x) := Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)] (x,y):labeled L(x, y) + x:unlabaled U(x) (x,y):labeled log q(y|x) q(y|x)ここに                            の項が ⼊入ってない
  13. 13. 勾配の計算法:SGVB  (SBP) l  ⽬目的関数を略略記: l  勾配を計算する上で                                  が厄介 l  これは  Gaussian  に関する期待値なので と書き直せて、勾配をサンプリングで近似できる: ⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は  Stochastic   Gradient  Variational  Bayes  や  Stochastic  BackProp  と呼ばれる (それぞれ  ICLRʼ’14,  ICMLʼ’14  で独⽴立立に提案されたが,基本的には同じ⼿手 法をさす) 13 Eq(z|x,y) Eq(z|x,y)[f(x, y, z)] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
  14. 14. 学習⽅方法:SGVB(SBP)  +  勾配法 l  勾配が計算できたので,あとは確率率率的勾配法に投げれば  OK l  論論⽂文では  AdaGrad  やモーメンタムつきの  RMSprop  を 使っている,とある –  3.2  には前者を,4.4  には後者を使ったよと書いてありよくわ からないが,4.4  の⽅方が詳しく書かれているのでおそらく後 者を使っているのではないかと思う 14
  15. 15. 実験:2  種類、⽚片⽅方はその中でさらに  2  種類 l  半教師あり学習  (MNIST,  SVHN,  NORB) l  条件つきデータ⽣生成:2  通りの実験 –  2  次元の          を使って学習し,ラベル        を固定して様々な           から                          を⽣生成する  (MNIST) –  テストデータ        から                を推論論し,それを使って様々なラ ベル        で                            を再⽣生成する  (MNIST,  SVHN) 15 z zy x|y, z y x|y, z x z|x
  16. 16. 実験:半教師あり学習(値はすべて誤識識別率率率  %) 16 ラベルありデータ数
  17. 17. 条件つきデータ⽣生成(ラベル固定) 17 2  次元の          にそって描画している.        は筆跡・書き⽅方の癖  (style)  みたいなものをとらえている z z
  18. 18. 条件つきデータ⽣生成(ラベルを取り替えて再⽣生成) 18 左端の列列が⼊入⼒力力データ,右の  10  列列が推論論された        と各ラベ ルから再⽣生成された z x|y, z
  19. 19. まとめ・考察 l  ⽣生成・推論論モデルを使って深い⽣生成モデルを学習できる (これ⾃自体は既存の結果) l  これが半教師あり学習に素直に応⽤用できて,性能も⾼高い l  ⽣生成モデルなのでアナロジーのような⾯面⽩白実験ができる l  DBM  とくらべて推論論が簡単で,半教師ありへの応⽤用もわか りやすい(分類器が普通の  NN  として得られる) l  DBM  と違い,尤度度や勾配も不不偏推定できる l  ⼤大規模データでうまく動くかは気になるところ 19
  20. 20. 参考⽂文献 紹介した論論⽂文 Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information Processing Systems 27 (pp. 3581–3589). Stochastic  Gradient  VB(変分  AutoEncoder)  の論論⽂文 Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International Conference on Learning Representations. Stochastic  BackProp  の論論⽂文 Rezende, D. J., Mohamed, S., & Wierstra, D. (2014). Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286). 20

×