Successfully reported this slideshow.

# 論文紹介 Semi-supervised Learning with Deep Generative Models

109

Share   ×
1 of 20
1 of 20

# 論文紹介 Semi-supervised Learning with Deep Generative Models

109

Share

NIPS2014読み会における論文紹介資料です。

NIPS2014読み会における論文紹介資料です。

## More Related Content

### Related Books

Free with a 30 day trial from Scribd

See all

### Related Audiobooks

Free with a 30 day trial from Scribd

See all

### 論文紹介 Semi-supervised Learning with Deep Generative Models

1. 1. 論論⽂文紹介 Semi-‐‑‒supervised  Learning   with  Deep  Generative  Models NIPS2014読み会  @  東⼤大,  2015/01/20 Preferred  Networks,  得居  誠也 @beam2d
2. 2. l  ラベルありデータが少なくて，それだけでは分離離曲⾯面を決めづらい l  ラベルなしデータを使って空間を補間して，いい感じに分離離曲⾯面を決めよう →  半教師あり学習 半教師あり学習  (semi-‐‑‒supervised  learning) 2 猫 ⽝犬 ラベルありデータ（少ない） ラベルなしデータ（多い）
3. 3. 従来⼿手法：⼤大きく  4  種類 3 ⾃自⼰己教⽰示による学習 •  学習した予測器を使ってラベルなし データをラベル付けする •  ⼤大マージンの仮説を⼊入れることもあ る（Transductive SVM） グラフベースの⼿手法 •  データの類似度度グラフを作り，ラベ ルを伝播させる •  ⼤大概、グラフラプラシアンの固有値 問題に落落ちる 多様体学習による⼿手法 •  予測がデータ多様体に沿ってゆっ くり変化する制約や正則化を使う •  データ多様体の推定にラベルなし データが使える •  例例：Manifold Tangent Classifier (MTC), AtlasRBF ⽣生成モデルを⽤用いた⼿手法 •  ⽣生成モデルを学習する •  単に特徴学習に使うか，ラベルなし データを不不完全データとして扱う 今⽇日はこれ
4. 4. この論論⽂文の⼿手法を使うと MNIST  をラベルありデータ  100  件で誤識識別率率率  3.33%  まで出せる （ほかにも  SVHN  や  NORB  での実験あり） 4
5. 5. 単純な⽣生成モデル 5 x z p(x, z) = p(z)p(x|z) これをニューラルネットで定義する
6. 6. 深い⽣生成モデル  M1（データが実ベクトルの場合） 6 Neural Net （パラメータ      ） z N(z; 0, I) (µ, ) ここは決定的 x N(x|µ, diag 2 )
7. 7. 深い⽣生成モデル  M1（データが⼆二値ベクトルの場合） 7 Neural Net （パラメータ      ） z N(z; 0, I) ここは決定的 x Bernoulli(x|µ) µ 以降降は  Gaussian  の場合のみを考える（Bernoulli  でも同様）
8. 8. ラベルを⼊入れた⽣生成モデル  M2（Gaussian  の場合） 8 Neural Net （パラメータ      ） z N(z; 0, I) (µ, ) y Cat(y| ) x N(x|µ, diag 2 )
9. 9. 推論論モデル：確率率率的な  AutoEncoder l  有向モデル                                            は          から        を推論論しづらい l  そこでこの推論論を別の  NN  で表す（この論論⽂文オリジナルではな い） 9 p(z)p(x|z) x z p(z)p(x|z) q(x)q(z|x) z x NN(      ) NN(      ) ⽣生成モデル  　推論論モデル（認識識モデル） （              は経験分布）q(x)
10. 10. 推論論モデルも  NN  で書く 10 l  M1（⼊入⼒力力データの⽣生成モデル）の場合， l  M2（ラベルを⽤用いた⽣生成モデル）の場合， q (z|x) = N(z|µ (x), diag 2 (x)). NN NN q (z|y, x) = N(z|µ (y, x), diag 2 (y, x)), q (y|x) = Cat(y| (x)).
11. 11. M1  の⽬目的関数：変分下界（変分  AutoEncoder） 11 log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]  　これを最⼤大化する （                                                    のとき左辺と⼀一致）q(x, z) = p(x, z) 半教師あり学習に使う場合，                                          を特徴ベクトル としてこれを使って識識別器を（半）教師あり学習する（例例えば   TSVM  や  M2）                         z q(z|x) AutoEncoder          に関する正則化項z
12. 12. M2  の⽬目的関数：変分下界＋識識別学習 12 ラベルありデータに対しては ラベルなしデータに対しては これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する log p(x, y) L(x, y) := Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)] log p(x) U(x) := Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)] (x,y):labeled L(x, y) + x:unlabaled U(x) (x,y):labeled log q(y|x) q(y|x)ここに                            の項が ⼊入ってない
13. 13. 勾配の計算法：SGVB  (SBP) l  ⽬目的関数を略略記： l  勾配を計算する上で                                  が厄介 l  これは  Gaussian  に関する期待値なので と書き直せて、勾配をサンプリングで近似できる： ⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は  Stochastic   Gradient  Variational  Bayes  や  Stochastic  BackProp  と呼ばれる （それぞれ  ICLRʼ’14,  ICMLʼ’14  で独⽴立立に提案されたが，基本的には同じ⼿手 法をさす） 13 Eq(z|x,y) Eq(z|x,y)[f(x, y, z)] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )] Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
14. 14. 学習⽅方法：SGVB(SBP)  +  勾配法 l  勾配が計算できたので，あとは確率率率的勾配法に投げれば  OK l  論論⽂文では  AdaGrad  やモーメンタムつきの  RMSprop  を 使っている，とある –  3.2  には前者を，4.4  には後者を使ったよと書いてありよくわ からないが，4.4  の⽅方が詳しく書かれているのでおそらく後 者を使っているのではないかと思う 14
15. 15. 実験：2  種類、⽚片⽅方はその中でさらに  2  種類 l  半教師あり学習  (MNIST,  SVHN,  NORB) l  条件つきデータ⽣生成：2  通りの実験 –  2  次元の          を使って学習し，ラベル        を固定して様々な           から                          を⽣生成する  (MNIST) –  テストデータ        から                を推論論し，それを使って様々なラ ベル        で                            を再⽣生成する  (MNIST,  SVHN) 15 z zy x|y, z y x|y, z x z|x
16. 16. 実験：半教師あり学習（値はすべて誤識識別率率率  %） 16 ラベルありデータ数
17. 17. 条件つきデータ⽣生成（ラベル固定） 17 2  次元の          にそって描画している．        は筆跡・書き⽅方の癖  (style)  みたいなものをとらえている z z
18. 18. 条件つきデータ⽣生成（ラベルを取り替えて再⽣生成） 18 左端の列列が⼊入⼒力力データ，右の  10  列列が推論論された        と各ラベ ルから再⽣生成された z x|y, z
19. 19. まとめ・考察 l  ⽣生成・推論論モデルを使って深い⽣生成モデルを学習できる （これ⾃自体は既存の結果） l  これが半教師あり学習に素直に応⽤用できて，性能も⾼高い l  ⽣生成モデルなのでアナロジーのような⾯面⽩白実験ができる l  DBM  とくらべて推論論が簡単で，半教師ありへの応⽤用もわか りやすい（分類器が普通の  NN  として得られる） l  DBM  と違い，尤度度や勾配も不不偏推定できる l  ⼤大規模データでうまく動くかは気になるところ 19
20. 20. 参考⽂文献 紹介した論論⽂文 Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014). Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information Processing Systems 27 (pp. 3581–3589). Stochastic  Gradient  VB（変分  AutoEncoder）  の論論⽂文 Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International Conference on Learning Representations. Stochastic  BackProp  の論論⽂文 Rezende, D. J., Mohamed, S., & Wierstra, D. (2014). Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286). 20