NIPS2015読み会: Ladder Networks

Eiichi Matsumoto
Semi-supervised learning
with Ladder Networks
NIPS読み会, 2016/1/20
Preferred Networks, 松元 叡一
@mattya1089
自己紹介
2
 松元 叡一 (@mattya1089)
 Preferred Networksリサーチャー
ロボット Chainer-gogh Chainer-DCGAN
アジェンダ
 半教師あり深層学習の最先端の手法を紹介します
 Deep Generative Models
– Semi-supervised learning with deep generative models (Kingma et al., 2014)
– Improving Semi-Supervised Learning with Auxiliary Deep Generative Models
(Maaloe et al., 2015)
 Virtual Adversarial Training
– Distributional smoothing with virtual adversarial training (Miyato et al., 2015)
 Ladder Networks (これをメインに)
– Semi-supervised learning with Ladder network (Rasmus et al., 2015)
– Deconstructing the ladder network architecture (Mohammad et al., 2016)
半教師あり学習(semi-supervised learning)
4
分離面をどこに引きますか?
半教師あり学習(semi-supervised learning)
5
分離面をどこに引きますか?
(わりとどうしようもない)
半教師あり学習(semi-supervised learning)
6
現実
テストデータたち
半教師あり学習(semi-supervised learning)
7
※青と黄色は50%ずつ存在するとする
ラベル無しデータ(白丸)があったら?
半教師あり学習(semi-supervised learning)
8
※青と黄色は50%ずつ存在するとする
ラベル無しデータ(白丸)があったら?
まあここらへんに引くよね
半教師あり学習(semi-supervised learning)
9
ラベル無しデータ(白丸)があったら?
パーフェクト!
半教師あり学習の問題設定
 x: データ、y: ラベル
 データセットにはラベルがついてないデータもある
 しばしばラベル有りデータ数 << ラベル無しデータ数
– ラベルを付けるのは大変なんだ
10
MNIST dataset
28 x 28 pixelの手書き数字データセット
0~9のどれかを当てるタスク
70000個の(画像, 正解)ペアがあるが、
100個のラベル有りデータ
59900個のラベル無しデータ
10000個のテスト用データ
と分割して半教師学習を行う。
なお、空間構造を使ってはいけない縛りのとき、
Permutation-invariant MNISTという。
半教師あり学習のアイデア
 類似したデータは同じラベルになりやすいとする
– 近傍グラフやクラスタリング
– 次元に呪われる
 きれいな中間表現に飛ばす
– 多様体学習
– 生成モデル
 分離面をデータから遠ざける
– 自己教示(ラベル無しデータに仮ラベルをふる)
– ノイズを入れる
11
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
12
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
①
①
②
③
③
今日話す順番 (半教師手法は全教師でもつよい)
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
13
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
☆
半教師あり学習の手法 – Deep Generative Models
 Deep Generative Modelのアイデア (VAE, AAEなどなど)
データの分布
本当はもっと高次元で複雑
Inference
Generation
狙った形の分布に押し込める
(画像は二次元正規分布)
まだラベルデータは使ってない
http://www.informatik.uni-
bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644
Deep NN
半教師あり学習の手法 – Deep Generative Models
 Semi-supervised Deep Generative Modelのアイデア
データの分布
本当はもっと高次元で複雑
Inference
Generation
こんな感じの分布を狙っても良い。
ラベルがあるデータは、
どの羽根に行くかもlossに入れる
http://www.informatik.uni-
bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644
Deep NN
0 1
2
3
半教師あり学習の手法 – Deep Generative Models
 Deep Generative Model (M1+M2) (Kingma et al., 2014)
16
Gen.
Inf.
Gen. Inf.
http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
矢印は全部
Deep NN
半教師あり学習の手法 – Deep Generative Models
 Auxiliary Deep Generative Model (ADGM) (Maaloe et al., 2015)
17
NIPS2015のワークショップ論文
100 label MNISTで0.97%のerror (現在最高記録)を主張している…
(まだあまり検証されていない)
http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
18
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
半教師あり学習の手法 – Virtual Adversarial Training
 Virtual Adversarial Training (Miyato et al., 2015)
19
データ点の側に分離面が来ない
↔ データ点x近辺で f(x) が平ら
↔ f(x) と f(x+ε) の出力が十分近い
εがふつうのノイズだと、ただのdata augmentationだが、
「最も意地悪なε」が、実はback-propagationで求められる!
http://arxiv.org/abs/1507.00677
データがスカスカなところに
線を引くと正解になるような
データセットに強い
ε
半教師あり学習の手法 – Virtual Adversarial Training
 Virtual Adversarial Training (Miyato et al., 2015)
20
既存のNNに
たったこれだけの実装を
加えるだけ。
ハイパーパラメタも3つ
↓
実用上とても使いやすい
実用上とても使いやすい
半教師あり学習のアイデア
 類似したデータは同じラベルになりやすいとする
– 近傍グラフやクラスタリング
– 次元に呪われる
 きれいな中間表現に飛ばす
– 多様体学習
– 生成モデル
 分離面をデータから遠ざける
– 自己教示(ラベル無しデータに仮ラベルをふる)
– ノイズを入れる
21
Generative models
VAT
半教師あり学習の手法
 Permutation-invariant MNISTのstate-of-the-art
22
100 labels 60000 (all)
Feed-forward NN 25.8% 1.18%
Deep generative model (M1+M2)
(Kingma et al., 2014)
3.33% 0.96%
Virtual adversarial training
(Miyato et al., 2015)
2.12% 0.64%
Ladder network (Original)
(Rasmus et al., 2015)
1.06% 0.61%
Ladder network (AMLP)
(Mohammad et al., 2016)
1.00% 0.57%
Auxiliary deep generative model
(Maaloe et al., 2015)
0.96% -
☆
☆
半教師あり学習の手法 – Ladder Network
???
半教師あり学習の手法 – Ladder Network
1. 普通のNN
x
y
x’
y’
xラベル無しデータを使わない
とても過学習する
ラベル無しデータを使わない
Data augmentationの一種となる。
分離面はラベルデータからは遠ざかる
2. 入力にノイズ
t t
100 label: 25.8%
60000 : 1.18%
100 label: 23.0%
60000 : 0.82%
Noise
半教師あり学習の手法 – Ladder Network
3. Decoderをつける
x’
x
x~
y’
t
Encoder
Decoder
Reconstruction loss
Supervised loss
Noise
ラベル無しデータが使えるようになるので、100labelのときに改善が見られる。
通常のDAEとは違い、y (softmaxをとる手前)まで求めてから
Decodeするので、復元に必要な情報はほとんど落ちている。
100 label: 23.0 -> 16.4%
60000 : 0.82 -> 0.82%
・ラベル無しデータで起こること
ノイズ入り画像x’
→これは「3」かな?
→3といえばこんな形だよな
→ノイズ入れる前と比較
半教師あり学習の手法 – Ladder Network
4. Lateral connectionをつける
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
入力の分布が、各クラスごとに中心が異なるガウシアンとかだとこれでOK
(x’が、推定したラベルに対応する中心に向かうようにdenoisingする)
Combination
(精度のデータ無し)
どのクラスかが推定できれば
どっち向きにdenoisingすれば
いいか分かる
半教師あり学習の手法 – Ladder Network
5. 中間層もつなぐ
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
Reconstructionのための手がかりが、ラベルの推定結果だけでなく
途中の層からもやってくる。
Semi-supervisedの成績がこの時点で圧倒的に良くなる。
h1’
h2’
h1~
h2~
100 label: 16.4 -> 1.86%
60000 : 0.82 -> 0.73%
y~
半教師あり学習の手法 – Ladder Network
6. 中間層にもノイズを入れる
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
ノイズに対してロバストな表現に向かうような圧力がかかる。
VATみたいに分離面をデータから遠ざける働きをすると思われる
h1’
h2’
h1~
h2~
100 label: 1.86 -> 1.69%
60000 : 0.73 -> 0.61%
Noise
Noise
Noise
Noise
y~
半教師あり学習の手法 – Ladder Network
7. 中間層にもReconstruction lossを入れる
Ladder Networkの完成!
x’
x
x~
y’
t
Reconstruction loss
Supervised loss
h1’
h2’
h1~
h2~
100 label: 1.69 -> 1.09%
60000 : 0.61 -> 0.61%
Noise
Noise
Noise
Noise
x
x
y
h1
h2
ノイズ無しEncoder
y~
最上位層のDecoderはPriorを
表現するようになる
上の方に行くほど、Lossは小さいweightで重み付けする
Fully-supervisedのときには実は寄与しない
半教師あり学習の手法 – Ladder Network
1. ただのFeed-forward NN
2. 入力にノイズ
3. Decoderで入力のReconstruction
4. Lateral connectionをつける
5. 各層にノイズ
6. 各層にReconstruction loss
100 labels
25.8%
23.0%
16.4%
1.86%
1.69%
1.09%
60000 labels
1.18%
0.82%
0.82%
0.73%
0.61%
0.61%
 (最近まで)最強のNNはこのようにして作られた!
まとめ・考察
 Generative models, VAT, Ladderが現在のdeep unsupervisedの3強
 比較的直感的な前者2つと比べると、Ladderは謎めいている
– Lateral connection、中間層へのノイズ、中間層のReconstruction、具体的にど
ういった働きをしているのか?
– Lateral connectionを持ったGenerative modelsとの対応関係
– MNISTよりももっと複雑なタスクだとどうなるんだろう
 とくに回帰問題にも適用できるのだろうか?
– The proposed model is simple and easy to implement with many existing
feedforward architectures
 パラメタも気を使わないといけない点も多すぎるよ…(´・ω・`)
おしまい
 文献
– Semi-supervised learning with Ladder network (Rasmus et al., 2015)
– Deconstructing the ladder network architecture (Mohammad et al., 2016)
– Semi-supervised learning with deep generative models (Kingma et al., 2014)
– Improving Semi-Supervised Learning with Auxiliary Deep Generative Models
(Maaloe et al., 2015)
– Distributional smoothing with virtual adversarial training (Miyato et al., 2015)
 ソースコード
– https://github.com/mattya/chainer-semi-supervised
– VATとLadder Network (1.4%までしか落ちない…1.1%まではいけるはずなのに)の
Chainer実装です。だれかLadderのどこがおかしいのか教えて…
 以下補足
半教師あり学習の手法 – Ladder Network
 実装上の詳細①:Encoderでノイズを入れるところ
– Batch Normalizationの、平均引いて標準偏差で割った直後に入れる
(そうしないとノイズ耐性がつくように大きなスケールの値を出すように学習される)
半教師あり学習の手法 – Ladder Network
 実装上の詳細②:Lateral connectionをDecoderに入れるところ
– Encoder側の、ノイズを入れた直後の値を、
– Decoder側の、平均引いて標準偏差で割った直後と混ぜる(混ぜ方は後述)
– ちなみにDecoder側にはBNでのscale, shiftは無い
半教師あり学習の手法 – Ladder Network
 実装上の詳細③:混ぜ方
– Encoder側からz~、Decoder側からuが来ている
– 各成分ごとに、小さなニューラルネットで混ぜる(CNNとかとは違って、パラメタは
全部異なる)
 Denoisingなので、基本はz~
iで、uiがその補正量
– ちなみにオリジナル論文は左のやつで、右ので少し精度が上がるらしい
半教師あり学習の手法 – Ladder Network
 実装上の詳細④:Reconstruction Loss
– 何も考えずにcleanなzと、reconstructしたzを比較すると、実はLateralから来たzを
そのままコピーするのが良い解になってしまう
・・・Batch normalizationは、minibatchのサイズの有限性から、ノイズが乗る
EncoderのClean側とNoisy側で、乗るノイズはよく似るはず
これを防ぐために、reconstructionしたzから、clean側のNormalizationに用いたμを引
いて、σで割った値と、clean側のzとを比較する
半教師あり学習の手法 – Ladder Network
 実装上の詳細⑤:さらにこまかいこと
– ラベル付きデータセットは、各クラスのデータが均等に入っているように作る
– Adamで学習。Learning rateはepoch100まで0.002で、150までで0におとす
– 入力データの値域は[0,1]
– ハイパーパラメタたちはひたすらグリッドサーチなどして求めたらしい
– Decoderのtopに入力するのは、softmax後
– LinearにBias項なし
– Clean encoder側にもBackpropする?(たぶんそう)
– Weight decayはいれる?(ないほうがよさそう)
1 of 38

Recommended

【DL輪読会】時系列予測 Transfomers の精度向上手法 by
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
3.1K views48 slides
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc) by
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
3.7K views52 slides
Generative Models(メタサーベイ ) by
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
7.5K views113 slides
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜 by
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
3.8K views40 slides
一般向けのDeep Learning by
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep LearningPreferred Networks
487.4K views28 slides
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder by
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
1.9K views22 slides

More Related Content

What's hot

[DL輪読会]相互情報量最大化による表現学習 by
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
7.6K views43 slides
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces by
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
4.8K views34 slides
Humpback whale identification challenge反省会 by
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会Yusuke Uchida
13.3K views33 slides
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant... by
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
2.7K views34 slides
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning" by
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"Deep Learning JP
1K views23 slides
ブースティング入門 by
ブースティング入門ブースティング入門
ブースティング入門Retrieva inc.
34K views33 slides

What's hot(20)

[DL輪読会]相互情報量最大化による表現学習 by Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP7.6K views
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces by Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP4.8K views
Humpback whale identification challenge反省会 by Yusuke Uchida
Humpback whale identification challenge反省会Humpback whale identification challenge反省会
Humpback whale identification challenge反省会
Yusuke Uchida13.3K views
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant... by Deep Learning JP
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP2.7K views
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning" by Deep Learning JP
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
Deep Learning JP1K views
ブースティング入門 by Retrieva inc.
ブースティング入門ブースティング入門
ブースティング入門
Retrieva inc.34K views
【DL輪読会】ViT + Self Supervised Learningまとめ by Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP4K views
Vision and Language(メタサーベイ ) by cvpaper. challenge
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
cvpaper. challenge2.4K views
backbone としての timm 入門 by Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K views
Active Learning 入門 by Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K views
Transformer 動向調査 in 画像認識(修正版) by Kazuki Maeno
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno1.7K views
全力解説!Transformer by Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.5K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K views
変分ベイズ法の説明 by Haruka Ozaki
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki41.3K views
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜 by SSII
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2.3K views
自己教師学習(Self-Supervised Learning) by cvpaper. challenge
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge12.7K views
深層学習の数理 by Taiji Suzuki
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki79.7K views
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De... by Deep Learning JP
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP9K views
[DL輪読会]Flow-based Deep Generative Models by Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP14.6K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views

Viewers also liked

論文紹介 Semi-supervised Learning with Deep Generative Models by
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
150.6K views20 slides
IIBMP2016 深層生成モデルによる表現学習 by
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
51.4K views68 slides
機械学習のためのベイズ最適化入門 by
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
185.6K views67 slides
NIPS読み会2013: One-shot learning by inverting a compositional causal process by
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal processnozyh
21.6K views15 slides
半教師あり学習 by
半教師あり学習半教師あり学習
半教師あり学習syou6162
27.7K views85 slides
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料) by
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)Takuma Yagi
48.4K views88 slides

Viewers also liked(20)

論文紹介 Semi-supervised Learning with Deep Generative Models by Seiya Tokui
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui150.6K views
IIBMP2016 深層生成モデルによる表現学習 by Preferred Networks
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks51.4K views
機械学習のためのベイズ最適化入門 by hoxo_m
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m185.6K views
NIPS読み会2013: One-shot learning by inverting a compositional causal process by nozyh
NIPS読み会2013: One-shot learning by inverting  a compositional causal processNIPS読み会2013: One-shot learning by inverting  a compositional causal process
NIPS読み会2013: One-shot learning by inverting a compositional causal process
nozyh21.6K views
半教師あり学習 by syou6162
半教師あり学習半教師あり学習
半教師あり学習
syou616227.7K views
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料) by Takuma Yagi
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi48.4K views
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015) by Yusuke Iwasawa
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)
Yusuke Iwasawa11.5K views
ニューラルネットワークの数理 by Task Ohmori
ニューラルネットワークの数理ニューラルネットワークの数理
ニューラルネットワークの数理
Task Ohmori19.4K views
AutoEncoderで特徴抽出 by Kai Sasaki
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki37.7K views
これから始める人の為のディープラーニング基礎講座 by NVIDIA Japan
これから始める人の為のディープラーニング基礎講座これから始める人の為のディープラーニング基礎講座
これから始める人の為のディープラーニング基礎講座
NVIDIA Japan35.7K views
Maxout networks by Junya Saito
Maxout networksMaxout networks
Maxout networks
Junya Saito11.8K views
RBMを応用した事前学習とDNN学習 by Masayuki Tanaka
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
Masayuki Tanaka6K views
Creating AnswerBot with Keras and TensorFlow (TensorBeat) by Avkash Chauhan
Creating AnswerBot with Keras and TensorFlow (TensorBeat)Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Creating AnswerBot with Keras and TensorFlow (TensorBeat)
Avkash Chauhan17.1K views
Amazon Machine Learning by Yuta Imai
Amazon Machine LearningAmazon Machine Learning
Amazon Machine Learning
Yuta Imai72.3K views
20150310 第1回 ディープラーニング勉強会 by 哲朗 島田
20150310 第1回 ディープラーニング勉強会20150310 第1回 ディープラーニング勉強会
20150310 第1回 ディープラーニング勉強会
哲朗 島田2.2K views
iQONを支えるクローラーの裏側 by Takehiro Shiozaki
iQONを支えるクローラーの裏側iQONを支えるクローラーの裏側
iQONを支えるクローラーの裏側
Takehiro Shiozaki9.7K views
機械学習とコンピュータビジョン入門 by Kinki University
機械学習とコンピュータビジョン入門機械学習とコンピュータビジョン入門
機械学習とコンピュータビジョン入門
Kinki University9K views
GTC 2017 ディープラーニング最新情報 by NVIDIA Japan
GTC 2017 ディープラーニング最新情報GTC 2017 ディープラーニング最新情報
GTC 2017 ディープラーニング最新情報
NVIDIA Japan10.5K views
Chapter 8 ボルツマンマシン - 深層学習本読み会 by Taikai Takeda
Chapter 8 ボルツマンマシン - 深層学習本読み会Chapter 8 ボルツマンマシン - 深層学習本読み会
Chapter 8 ボルツマンマシン - 深層学習本読み会
Taikai Takeda23.4K views
[unofficial] Pyramid Scene Parsing Network (CVPR 2017) by Shunta Saito
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
Shunta Saito4.7K views

Similar to NIPS2015読み会: Ladder Networks

MIRU_Preview_JSAI2019 by
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019Takayoshi Yamashita
2.5K views56 slides
Getting Started with Deep Learning using Scala by
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using ScalaTaisuke Oe
2.5K views22 slides
【CVPR 2019】Do Better ImageNet Models Transfer Better? by
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?cvpaper. challenge
863 views17 slides
Generative Deep Learning #01 by
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01逸人 米田
51 views36 slides
深層学習フレームワーク Chainer の開発と今後の展開 by
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
26.9K views62 slides
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde... by
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
1.5K views38 slides

Similar to NIPS2015読み会: Ladder Networks(20)

Getting Started with Deep Learning using Scala by Taisuke Oe
Getting Started with Deep Learning using ScalaGetting Started with Deep Learning using Scala
Getting Started with Deep Learning using Scala
Taisuke Oe2.5K views
【CVPR 2019】Do Better ImageNet Models Transfer Better? by cvpaper. challenge
【CVPR 2019】Do Better ImageNet Models Transfer Better?【CVPR 2019】Do Better ImageNet Models Transfer Better?
【CVPR 2019】Do Better ImageNet Models Transfer Better?
cvpaper. challenge863 views
Generative Deep Learning #01 by 逸人 米田
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
逸人 米田51 views
深層学習フレームワーク Chainer の開発と今後の展開 by Seiya Tokui
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui26.9K views
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde... by Toru Fujino
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino1.5K views
【2015.08】(3/5)cvpaper.challenge@CVPR2015 by cvpaper. challenge
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
cvpaper. challenge4.6K views
Introduction to fuzzy kmeans on mahout by takaya imai
Introduction to fuzzy kmeans on mahoutIntroduction to fuzzy kmeans on mahout
Introduction to fuzzy kmeans on mahout
takaya imai4.9K views
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction by Deep Learning JP
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP2.8K views
LCCC2010:Learning on Cores, Clusters and Cloudsの解説 by Preferred Networks
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks6.3K views
[DL輪読会]Learning by Association - A versatile semi-supervised training method ... by Deep Learning JP
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
[DL輪読会]Learning by Association - A versatile semi-supervised training method ...
Deep Learning JP2.3K views
Deep learning勉強会20121214ochi by Ohsawa Goodfellow
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow26.8K views
Generative adversarial nets by Keisuke Hosaka
Generative adversarial netsGenerative adversarial nets
Generative adversarial nets
Keisuke Hosaka1.9K views
DeNAにおける機械学習・深層学習活用 by Kazuki Fujikawa
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa21.5K views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif... by Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP245 views

NIPS2015読み会: Ladder Networks

  • 1. Semi-supervised learning with Ladder Networks NIPS読み会, 2016/1/20 Preferred Networks, 松元 叡一 @mattya1089
  • 2. 自己紹介 2  松元 叡一 (@mattya1089)  Preferred Networksリサーチャー ロボット Chainer-gogh Chainer-DCGAN
  • 3. アジェンダ  半教師あり深層学習の最先端の手法を紹介します  Deep Generative Models – Semi-supervised learning with deep generative models (Kingma et al., 2014) – Improving Semi-Supervised Learning with Auxiliary Deep Generative Models (Maaloe et al., 2015)  Virtual Adversarial Training – Distributional smoothing with virtual adversarial training (Miyato et al., 2015)  Ladder Networks (これをメインに) – Semi-supervised learning with Ladder network (Rasmus et al., 2015) – Deconstructing the ladder network architecture (Mohammad et al., 2016)
  • 10. 半教師あり学習の問題設定  x: データ、y: ラベル  データセットにはラベルがついてないデータもある  しばしばラベル有りデータ数 << ラベル無しデータ数 – ラベルを付けるのは大変なんだ 10 MNIST dataset 28 x 28 pixelの手書き数字データセット 0~9のどれかを当てるタスク 70000個の(画像, 正解)ペアがあるが、 100個のラベル有りデータ 59900個のラベル無しデータ 10000個のテスト用データ と分割して半教師学習を行う。 なお、空間構造を使ってはいけない縛りのとき、 Permutation-invariant MNISTという。
  • 11. 半教師あり学習のアイデア  類似したデータは同じラベルになりやすいとする – 近傍グラフやクラスタリング – 次元に呪われる  きれいな中間表現に飛ばす – 多様体学習 – 生成モデル  分離面をデータから遠ざける – 自己教示(ラベル無しデータに仮ラベルをふる) – ノイズを入れる 11
  • 12. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 12 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ① ① ② ③ ③ 今日話す順番 (半教師手法は全教師でもつよい)
  • 13. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 13 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆ ☆
  • 14. 半教師あり学習の手法 – Deep Generative Models  Deep Generative Modelのアイデア (VAE, AAEなどなど) データの分布 本当はもっと高次元で複雑 Inference Generation 狙った形の分布に押し込める (画像は二次元正規分布) まだラベルデータは使ってない http://www.informatik.uni- bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644 Deep NN
  • 15. 半教師あり学習の手法 – Deep Generative Models  Semi-supervised Deep Generative Modelのアイデア データの分布 本当はもっと高次元で複雑 Inference Generation こんな感じの分布を狙っても良い。 ラベルがあるデータは、 どの羽根に行くかもlossに入れる http://www.informatik.uni- bremen.de/~afabisch/files/tsne/tsne_mnist_all.png arXiv:1511.05644 Deep NN 0 1 2 3
  • 16. 半教師あり学習の手法 – Deep Generative Models  Deep Generative Model (M1+M2) (Kingma et al., 2014) 16 Gen. Inf. Gen. Inf. http://approximateinference.org/accepted/MaaloeEtAl2015.pdf 矢印は全部 Deep NN
  • 17. 半教師あり学習の手法 – Deep Generative Models  Auxiliary Deep Generative Model (ADGM) (Maaloe et al., 2015) 17 NIPS2015のワークショップ論文 100 label MNISTで0.97%のerror (現在最高記録)を主張している… (まだあまり検証されていない) http://approximateinference.org/accepted/MaaloeEtAl2015.pdf
  • 18. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 18 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆
  • 19. 半教師あり学習の手法 – Virtual Adversarial Training  Virtual Adversarial Training (Miyato et al., 2015) 19 データ点の側に分離面が来ない ↔ データ点x近辺で f(x) が平ら ↔ f(x) と f(x+ε) の出力が十分近い εがふつうのノイズだと、ただのdata augmentationだが、 「最も意地悪なε」が、実はback-propagationで求められる! http://arxiv.org/abs/1507.00677 データがスカスカなところに 線を引くと正解になるような データセットに強い ε
  • 20. 半教師あり学習の手法 – Virtual Adversarial Training  Virtual Adversarial Training (Miyato et al., 2015) 20 既存のNNに たったこれだけの実装を 加えるだけ。 ハイパーパラメタも3つ ↓ 実用上とても使いやすい 実用上とても使いやすい
  • 21. 半教師あり学習のアイデア  類似したデータは同じラベルになりやすいとする – 近傍グラフやクラスタリング – 次元に呪われる  きれいな中間表現に飛ばす – 多様体学習 – 生成モデル  分離面をデータから遠ざける – 自己教示(ラベル無しデータに仮ラベルをふる) – ノイズを入れる 21 Generative models VAT
  • 22. 半教師あり学習の手法  Permutation-invariant MNISTのstate-of-the-art 22 100 labels 60000 (all) Feed-forward NN 25.8% 1.18% Deep generative model (M1+M2) (Kingma et al., 2014) 3.33% 0.96% Virtual adversarial training (Miyato et al., 2015) 2.12% 0.64% Ladder network (Original) (Rasmus et al., 2015) 1.06% 0.61% Ladder network (AMLP) (Mohammad et al., 2016) 1.00% 0.57% Auxiliary deep generative model (Maaloe et al., 2015) 0.96% - ☆ ☆
  • 24. 半教師あり学習の手法 – Ladder Network 1. 普通のNN x y x’ y’ xラベル無しデータを使わない とても過学習する ラベル無しデータを使わない Data augmentationの一種となる。 分離面はラベルデータからは遠ざかる 2. 入力にノイズ t t 100 label: 25.8% 60000 : 1.18% 100 label: 23.0% 60000 : 0.82% Noise
  • 25. 半教師あり学習の手法 – Ladder Network 3. Decoderをつける x’ x x~ y’ t Encoder Decoder Reconstruction loss Supervised loss Noise ラベル無しデータが使えるようになるので、100labelのときに改善が見られる。 通常のDAEとは違い、y (softmaxをとる手前)まで求めてから Decodeするので、復元に必要な情報はほとんど落ちている。 100 label: 23.0 -> 16.4% 60000 : 0.82 -> 0.82% ・ラベル無しデータで起こること ノイズ入り画像x’ →これは「3」かな? →3といえばこんな形だよな →ノイズ入れる前と比較
  • 26. 半教師あり学習の手法 – Ladder Network 4. Lateral connectionをつける x’ x x~ y’ t Reconstruction loss Supervised loss 入力の分布が、各クラスごとに中心が異なるガウシアンとかだとこれでOK (x’が、推定したラベルに対応する中心に向かうようにdenoisingする) Combination (精度のデータ無し) どのクラスかが推定できれば どっち向きにdenoisingすれば いいか分かる
  • 27. 半教師あり学習の手法 – Ladder Network 5. 中間層もつなぐ x’ x x~ y’ t Reconstruction loss Supervised loss Reconstructionのための手がかりが、ラベルの推定結果だけでなく 途中の層からもやってくる。 Semi-supervisedの成績がこの時点で圧倒的に良くなる。 h1’ h2’ h1~ h2~ 100 label: 16.4 -> 1.86% 60000 : 0.82 -> 0.73% y~
  • 28. 半教師あり学習の手法 – Ladder Network 6. 中間層にもノイズを入れる x’ x x~ y’ t Reconstruction loss Supervised loss ノイズに対してロバストな表現に向かうような圧力がかかる。 VATみたいに分離面をデータから遠ざける働きをすると思われる h1’ h2’ h1~ h2~ 100 label: 1.86 -> 1.69% 60000 : 0.73 -> 0.61% Noise Noise Noise Noise y~
  • 29. 半教師あり学習の手法 – Ladder Network 7. 中間層にもReconstruction lossを入れる Ladder Networkの完成! x’ x x~ y’ t Reconstruction loss Supervised loss h1’ h2’ h1~ h2~ 100 label: 1.69 -> 1.09% 60000 : 0.61 -> 0.61% Noise Noise Noise Noise x x y h1 h2 ノイズ無しEncoder y~ 最上位層のDecoderはPriorを 表現するようになる 上の方に行くほど、Lossは小さいweightで重み付けする Fully-supervisedのときには実は寄与しない
  • 30. 半教師あり学習の手法 – Ladder Network 1. ただのFeed-forward NN 2. 入力にノイズ 3. Decoderで入力のReconstruction 4. Lateral connectionをつける 5. 各層にノイズ 6. 各層にReconstruction loss 100 labels 25.8% 23.0% 16.4% 1.86% 1.69% 1.09% 60000 labels 1.18% 0.82% 0.82% 0.73% 0.61% 0.61%  (最近まで)最強のNNはこのようにして作られた!
  • 31. まとめ・考察  Generative models, VAT, Ladderが現在のdeep unsupervisedの3強  比較的直感的な前者2つと比べると、Ladderは謎めいている – Lateral connection、中間層へのノイズ、中間層のReconstruction、具体的にど ういった働きをしているのか? – Lateral connectionを持ったGenerative modelsとの対応関係 – MNISTよりももっと複雑なタスクだとどうなるんだろう  とくに回帰問題にも適用できるのだろうか? – The proposed model is simple and easy to implement with many existing feedforward architectures  パラメタも気を使わないといけない点も多すぎるよ…(´・ω・`)
  • 32. おしまい  文献 – Semi-supervised learning with Ladder network (Rasmus et al., 2015) – Deconstructing the ladder network architecture (Mohammad et al., 2016) – Semi-supervised learning with deep generative models (Kingma et al., 2014) – Improving Semi-Supervised Learning with Auxiliary Deep Generative Models (Maaloe et al., 2015) – Distributional smoothing with virtual adversarial training (Miyato et al., 2015)  ソースコード – https://github.com/mattya/chainer-semi-supervised – VATとLadder Network (1.4%までしか落ちない…1.1%まではいけるはずなのに)の Chainer実装です。だれかLadderのどこがおかしいのか教えて…
  • 34. 半教師あり学習の手法 – Ladder Network  実装上の詳細①:Encoderでノイズを入れるところ – Batch Normalizationの、平均引いて標準偏差で割った直後に入れる (そうしないとノイズ耐性がつくように大きなスケールの値を出すように学習される)
  • 35. 半教師あり学習の手法 – Ladder Network  実装上の詳細②:Lateral connectionをDecoderに入れるところ – Encoder側の、ノイズを入れた直後の値を、 – Decoder側の、平均引いて標準偏差で割った直後と混ぜる(混ぜ方は後述) – ちなみにDecoder側にはBNでのscale, shiftは無い
  • 36. 半教師あり学習の手法 – Ladder Network  実装上の詳細③:混ぜ方 – Encoder側からz~、Decoder側からuが来ている – 各成分ごとに、小さなニューラルネットで混ぜる(CNNとかとは違って、パラメタは 全部異なる)  Denoisingなので、基本はz~ iで、uiがその補正量 – ちなみにオリジナル論文は左のやつで、右ので少し精度が上がるらしい
  • 37. 半教師あり学習の手法 – Ladder Network  実装上の詳細④:Reconstruction Loss – 何も考えずにcleanなzと、reconstructしたzを比較すると、実はLateralから来たzを そのままコピーするのが良い解になってしまう ・・・Batch normalizationは、minibatchのサイズの有限性から、ノイズが乗る EncoderのClean側とNoisy側で、乗るノイズはよく似るはず これを防ぐために、reconstructionしたzから、clean側のNormalizationに用いたμを引 いて、σで割った値と、clean側のzとを比較する
  • 38. 半教師あり学習の手法 – Ladder Network  実装上の詳細⑤:さらにこまかいこと – ラベル付きデータセットは、各クラスのデータが均等に入っているように作る – Adamで学習。Learning rateはepoch100まで0.002で、150までで0におとす – 入力データの値域は[0,1] – ハイパーパラメタたちはひたすらグリッドサーチなどして求めたらしい – Decoderのtopに入力するのは、softmax後 – LinearにBias項なし – Clean encoder側にもBackpropする?(たぶんそう) – Weight decayはいれる?(ないほうがよさそう)