More Related Content Similar to 論文紹介 Semi-supervised Learning with Deep Generative Models Similar to 論文紹介 Semi-supervised Learning with Deep Generative Models(20) More from Seiya Tokui(20) 論文紹介 Semi-supervised Learning with Deep Generative Models3. 従来⼿手法:⼤大きく 4 種類
3
⾃自⼰己教⽰示による学習
• 学習した予測器を使ってラベルなし
データをラベル付けする
• ⼤大マージンの仮説を⼊入れることもあ
る(Transductive SVM)
グラフベースの⼿手法
• データの類似度度グラフを作り,ラベ
ルを伝播させる
• ⼤大概、グラフラプラシアンの固有値
問題に落落ちる
多様体学習による⼿手法
• 予測がデータ多様体に沿ってゆっ
くり変化する制約や正則化を使う
• データ多様体の推定にラベルなし
データが使える
• 例例:Manifold Tangent Classifier
(MTC), AtlasRBF
⽣生成モデルを⽤用いた⼿手法
• ⽣生成モデルを学習する
• 単に特徴学習に使うか,ラベルなし
データを不不完全データとして扱う
今⽇日はこれ
9. 推論論モデル:確率率率的な AutoEncoder
l 有向モデル は から を推論論しづらい
l そこでこの推論論を別の NN で表す(この論論⽂文オリジナルではな
い)
9
p(z)p(x|z) x z
p(z)p(x|z) q(x)q(z|x)
z
x
NN( ) NN( )
⽣生成モデル 推論論モデル(認識識モデル)
( は経験分布)q(x)
10. 推論論モデルも NN で書く
10
l M1(⼊入⼒力力データの⽣生成モデル)の場合,
l M2(ラベルを⽤用いた⽣生成モデル)の場合,
q (z|x) = N(z|µ (x), diag 2
(x)).
NN
NN
q (z|y, x) = N(z|µ (y, x), diag 2
(y, x)),
q (y|x) = Cat(y| (x)).
11. M1 の⽬目的関数:変分下界(変分 AutoEncoder)
11
log p(x) Eq(z|x)[log p(x|z)] KL[q(z|x) p(z)]
これを最⼤大化する
( のとき左辺と⼀一致)q(x, z) = p(x, z)
半教師あり学習に使う場合, を特徴ベクトル
としてこれを使って識識別器を(半)教師あり学習する(例例えば
TSVM や M2)
z q(z|x)
AutoEncoder に関する正則化項z
12. M2 の⽬目的関数:変分下界+識識別学習
12
ラベルありデータに対しては
ラベルなしデータに対しては
これらとラベルありデータに対する損失を合わせて次の関数を最⼩小化する
log p(x, y) L(x, y) :=
Eq(z|x,y)[log p(x|y, z) + log p(y) + log p(z) log q(z|x, y)]
log p(x) U(x) :=
Eq(y,z|x)[log p(x|y, z) + log p(y) + log p(z) log q(y, z|x)]
(x,y):labeled
L(x, y) +
x:unlabaled
U(x)
(x,y):labeled
log q(y|x)
q(y|x)ここに の項が
⼊入ってない
13. 勾配の計算法:SGVB (SBP)
l ⽬目的関数を略略記:
l 勾配を計算する上で が厄介
l これは Gaussian に関する期待値なので
と書き直せて、勾配をサンプリングで近似できる:
⽣生成・推論論モデルの変分下界の勾配を求めるこの⽅方法は Stochastic
Gradient Variational Bayes や Stochastic BackProp と呼ばれる
(それぞれ ICLRʼ’14, ICMLʼ’14 で独⽴立立に提案されたが,基本的には同じ⼿手
法をさす)
13
Eq(z|x,y)
Eq(z|x,y)[f(x, y, z)]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[f(x, y, µ(x) + (x) )]
Eq(z|x,y)[f(x, y, z)] = EN ( |0,I)[ f(x, y, µ(x) + (x) )]
14. 学習⽅方法:SGVB(SBP) + 勾配法
l 勾配が計算できたので,あとは確率率率的勾配法に投げれば OK
l 論論⽂文では AdaGrad やモーメンタムつきの RMSprop を
使っている,とある
– 3.2 には前者を,4.4 には後者を使ったよと書いてありよくわ
からないが,4.4 の⽅方が詳しく書かれているのでおそらく後
者を使っているのではないかと思う
14
15. 実験:2 種類、⽚片⽅方はその中でさらに 2 種類
l 半教師あり学習 (MNIST, SVHN, NORB)
l 条件つきデータ⽣生成:2 通りの実験
– 2 次元の を使って学習し,ラベル を固定して様々な
から を⽣生成する (MNIST)
– テストデータ から を推論論し,それを使って様々なラ
ベル で を再⽣生成する (MNIST, SVHN)
15
z zy
x|y, z
y x|y, z
x z|x
20. 参考⽂文献
紹介した論論⽂文
Kingma, D. P., Mohamed, S., Jimenez Rezende, D., & Welling, M. (2014).
Semi-supervised Learning with Deep Generative Models. In Advances in Neural Information
Processing Systems 27 (pp. 3581–3589).
Stochastic Gradient VB(変分 AutoEncoder) の論論⽂文
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes.International
Conference on Learning Representations.
Stochastic BackProp の論論⽂文
Rezende, D. J., Mohamed, S., & Wierstra, D. (2014).
Stochastic Backpropagation and Approximate Inference in Deep Generative Models. In
Proceedings of the 31st International Conference on Machine Learning (pp. 1278–1286).
20