SlideShare a Scribd company logo
Semi-Supervised Learning
with Ladder Networks
DL Hacks Paper Reading, 2016.1.7 Yusuke IWASAWA
書誌情報
• Proc. NIPS2015 and arXiv
• arXivの方が若干詳しいのでオススメ
• Authours:
• Antti Ramsus, Harri Valpola, Mikko Honkala, Mathias Berglund, and Tapani
Raiko
• #citations: 10
• 選定理由
• 精度が良い
• 半教師、教師なし学習界隈の戦いがすごい
Abstract
• Ladder Network [Valpola, 2015]を応用したDeepでSemi-supervised
なモデルを提案
• 提案手法は、階層的潜在空間モデルをdenoising functionの
学習を通して効率的に学習可能
• 精度がとても良い
• MNISTとCIFAR-10の半教師あり学習でstate-of-the-art
• Permutation-MNISTでもstate-of-the-art
Introduction: Motivations
• 教師ありは強力、しかし教師なしデータも有効活用したい
• もっとも単純な方法の1つは潜在空間モデルを利用すること
• Ex. Auto Encoderで入力データを潜在空間に飛ばす+Fine Tuning
• ただし、単層の潜在空間だと表現力足りない
-> Deepにしたい
• Deepにする方法では、sDA + Fine Tuningがもっとも一般的
• sDAではタスクを解くのに不必要な情報も保存してしまう
• Ex. 位置などのピクセルレベルの情報
-> Deepな潜在空間モデルを解く別の方法が必要
Introduction: 提案手法
Semi-Supervised
Ladder Network
まず [Valpola, 2015]を参考にこいつを
説明します
Ladder Network: 概要 • 潜在空間モデルをUnsupervised
に学習する方法
• ハシゴみたいな形してるので
Ladder Network
• sDAと比較すると、Encoderと
Decoderの間にConnectionが張
られている
• 青: Encoder
• オレンジ: Decoder
Cited From “From Neural PCA to
Deep Unsupervised Learning”
Ladder Network: 何をするのか
• 結論から言えば、Denoising Source Separationをする
• これ自体2005年の論文で発表された方法
• 複数の情報が混ざった観測信号から元の複数の情報源を取り出す方法
• 40ページある
• Source separationもRepresentation learningも入力をうまく分解するとい
う観点では同じ(岩澤解釈)
• DSS: ノイズを加えた潜在変数z~
から加える前の潜在変数zを再
構成する
• sDA: ノイズを加えた入力から1つ前の層を再構成する
Ladder Network: 何をするのか(図示)
• 各層でノイズ付きのh~(l)から
ノイズを入れる前のh(l)を再
構成(h^(l))
• 誤差関数C(l)は2乗和誤差
• 誤差関数の重み付き和を
小さくするようなg(l)を学習
する
• C = Σλ(l) C(l)
Ladder Network: 何をしてるのか
• Denoising function gの学習により階
層的潜在変数モデルを学習
• [Bengio, 2013]
denoising functionがわかれば確率密
度を推定できる
• 良いgを求めることと良いモデル
(分布の良い近似)を得ることは
本質的に近い関係にある
図: Denoisingの周辺尤度の関係
P(z)
P(z~)
g
Ladder Network vs. Auto Encoder
• Auto Encoder(複数レイヤを一気に学習)
• そもそも学習が難しい
• 学習が遅い
• Auto Encoder(Layer Wise)
• 細部まで再現しようとする
(顔のような概念を獲得してもReconstruction Errorは下がらない)
• Deepにすると上の層で誤差が蓄積する
• Ladder Network
• 上の層はより抽象的な情報だけに集中できる
(細部の再構築は下の層に任せることができる)
Semi-supervised Ladder Net
• ラベル有りデータについ
てはその情報を利用する
• 純粋にクラス分類コスト
を追加して学習
• C = Ce + Σλ(l) Cd
(l)
• 学習にはCorrupted
Encoder(左)を利用
• 予測ではClean Encoder
(右)を利用する
Corrupted
Encoder
Decoder
Clean
Encoder
Ce
Implementation of the Model
1. Encoderを訓練※(CorruptedとCleanの2種類)
• MLPでもCNNでもRNNでも良い
• 2種類といっても重みは共有してるので実際は1種類
2. 各層で条件付き分布 𝑝(𝑧 𝑙|𝑧 𝑙+1) を求める
• 今回の実験ではガウス分布を仮定してそのパラメタをNNで求める
3. 2.の条件付き分布に乗ったノイズをうまくキャンセルするよ
うな関数gを定義する
• 次スライドで話します
4. Fully-labeled or Semi-supervisedな設定でネットワーク全体を
SGDで学習する
※論文に”1. Train any standard feedforward neural networks”と書かれているのでたぶん
先に学習しておくんじゃないかなと思いますがちょっと微妙です
Denoising function g
• 理想的なgの形は分布の形に依存
• 左カラム:分布の形
• 右カラム:理想的なgの形
• 上から順に、次の3つの例
• Super-Gaussian
• Sub-Gaussian
• Gaussian
• 今回はGaussianを使うので線形
• 具体的な式はちょっと複雑になる
ので実装したい人は論文参照
Γmodel: Special Case of Ladder Network
• 一番上の層だけ再構築
• Decoderがいらなくなるの
で実装が楽
• 結果で示すようにこれで
もまぁまぁ精度良い
黒枠の中をそっくり無くす
Experimental Setup
• Datasets: Permutation MNIST, MNIST, CIFAR-10
• Encoder: MLPとCNN
• Baselines: いろいろ
• Training:
• Adam(lr=0.002)
• Lr scheduling (linearly decreasing to zero at final epoch)
• Minibatch size = 100
• The source codes:
• https://github.com/arasmus/ladder
Results: Permutation MNIST (MLP)
• 使ったラベル数によらずState-of-the-art
• 特にラベル数が少ない場合に良い精度(エラー率でVAEの1/3)
Results: MNIST (CNN)
• State-of-the-art
• Full Labeledの評価がないのが若干気になる
(Full Labeledなら普通にCNN使えばいい話な気もする
Results: CIFAR10 (CNN)
• ラベルが限られてる場合は普通のCNNより良い
• 特に少数ラベルの場合高精度
Conclusion and Future Direction
• 複数の半教師ありタスクでstate-of-the-artなモデルを提案
• 今後は次の方針で進める予定
• どのようなEncoder+Decoderの組み合わせが適切か
• 時系列方向での発展

More Related Content

More from Yusuke Iwasawa

JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
Yusuke Iwasawa
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
Yusuke Iwasawa
 
ICLR2018参加報告
ICLR2018参加報告ICLR2018参加報告
ICLR2018参加報告
Yusuke Iwasawa
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
Yusuke Iwasawa
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
Yusuke Iwasawa
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
Yusuke Iwasawa
 
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Yusuke Iwasawa
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
Yusuke Iwasawa
 
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
Yusuke Iwasawa
 
[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity
Yusuke Iwasawa
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
Yusuke Iwasawa
 

More from Yusuke Iwasawa (13)

JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲JSAI2018 類似度学習を用いた敵対的訓練による特徴表現の検閲
JSAI2018 類似度学習を用いた敵対的訓練による 特徴表現の検閲
 
"Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes""Universal Planning Networks" and "Composable Planning with Attributes"
"Universal Planning Networks" and "Composable Planning with Attributes"
 
ICLR2018参加報告
ICLR2018参加報告ICLR2018参加報告
ICLR2018参加報告
 
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
[DL輪読会] Controllable Invariance through Adversarial Feature Learning” (NIPS2017)
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
 
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory[DL輪読会] Hybrid computing using a neural network with dynamic external memory
[DL輪読会] Hybrid computing using a neural network with dynamic external memory
 
Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12Paper Reading, "On Causal and Anticausal Learning", ICML-12
Paper Reading, "On Causal and Anticausal Learning", ICML-12
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
 
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...[Paper Reading] Learning Distributed Representations for Structured Output Pr...
[Paper Reading] Learning Distributed Representations for Structured Output Pr...
 
[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity[DL Hacks] Self Paced Learning with Diversity
[DL Hacks] Self Paced Learning with Diversity
 
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative ModelsDL Hacks輪読 Semi-supervised Learning with Deep Generative Models
DL Hacks輪読 Semi-supervised Learning with Deep Generative Models
 

Recently uploaded

JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 

Recently uploaded (8)

JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 

[DL Hacks輪読] Semi-Supervised Learning with Ladder Networks (NIPS2015)

  • 1. Semi-Supervised Learning with Ladder Networks DL Hacks Paper Reading, 2016.1.7 Yusuke IWASAWA
  • 2. 書誌情報 • Proc. NIPS2015 and arXiv • arXivの方が若干詳しいのでオススメ • Authours: • Antti Ramsus, Harri Valpola, Mikko Honkala, Mathias Berglund, and Tapani Raiko • #citations: 10 • 選定理由 • 精度が良い • 半教師、教師なし学習界隈の戦いがすごい
  • 3. Abstract • Ladder Network [Valpola, 2015]を応用したDeepでSemi-supervised なモデルを提案 • 提案手法は、階層的潜在空間モデルをdenoising functionの 学習を通して効率的に学習可能 • 精度がとても良い • MNISTとCIFAR-10の半教師あり学習でstate-of-the-art • Permutation-MNISTでもstate-of-the-art
  • 4. Introduction: Motivations • 教師ありは強力、しかし教師なしデータも有効活用したい • もっとも単純な方法の1つは潜在空間モデルを利用すること • Ex. Auto Encoderで入力データを潜在空間に飛ばす+Fine Tuning • ただし、単層の潜在空間だと表現力足りない -> Deepにしたい • Deepにする方法では、sDA + Fine Tuningがもっとも一般的 • sDAではタスクを解くのに不必要な情報も保存してしまう • Ex. 位置などのピクセルレベルの情報 -> Deepな潜在空間モデルを解く別の方法が必要
  • 5. Introduction: 提案手法 Semi-Supervised Ladder Network まず [Valpola, 2015]を参考にこいつを 説明します
  • 6. Ladder Network: 概要 • 潜在空間モデルをUnsupervised に学習する方法 • ハシゴみたいな形してるので Ladder Network • sDAと比較すると、Encoderと Decoderの間にConnectionが張 られている • 青: Encoder • オレンジ: Decoder Cited From “From Neural PCA to Deep Unsupervised Learning”
  • 7. Ladder Network: 何をするのか • 結論から言えば、Denoising Source Separationをする • これ自体2005年の論文で発表された方法 • 複数の情報が混ざった観測信号から元の複数の情報源を取り出す方法 • 40ページある • Source separationもRepresentation learningも入力をうまく分解するとい う観点では同じ(岩澤解釈) • DSS: ノイズを加えた潜在変数z~ から加える前の潜在変数zを再 構成する • sDA: ノイズを加えた入力から1つ前の層を再構成する
  • 8. Ladder Network: 何をするのか(図示) • 各層でノイズ付きのh~(l)から ノイズを入れる前のh(l)を再 構成(h^(l)) • 誤差関数C(l)は2乗和誤差 • 誤差関数の重み付き和を 小さくするようなg(l)を学習 する • C = Σλ(l) C(l)
  • 9. Ladder Network: 何をしてるのか • Denoising function gの学習により階 層的潜在変数モデルを学習 • [Bengio, 2013] denoising functionがわかれば確率密 度を推定できる • 良いgを求めることと良いモデル (分布の良い近似)を得ることは 本質的に近い関係にある 図: Denoisingの周辺尤度の関係 P(z) P(z~) g
  • 10. Ladder Network vs. Auto Encoder • Auto Encoder(複数レイヤを一気に学習) • そもそも学習が難しい • 学習が遅い • Auto Encoder(Layer Wise) • 細部まで再現しようとする (顔のような概念を獲得してもReconstruction Errorは下がらない) • Deepにすると上の層で誤差が蓄積する • Ladder Network • 上の層はより抽象的な情報だけに集中できる (細部の再構築は下の層に任せることができる)
  • 11. Semi-supervised Ladder Net • ラベル有りデータについ てはその情報を利用する • 純粋にクラス分類コスト を追加して学習 • C = Ce + Σλ(l) Cd (l) • 学習にはCorrupted Encoder(左)を利用 • 予測ではClean Encoder (右)を利用する Corrupted Encoder Decoder Clean Encoder Ce
  • 12. Implementation of the Model 1. Encoderを訓練※(CorruptedとCleanの2種類) • MLPでもCNNでもRNNでも良い • 2種類といっても重みは共有してるので実際は1種類 2. 各層で条件付き分布 𝑝(𝑧 𝑙|𝑧 𝑙+1) を求める • 今回の実験ではガウス分布を仮定してそのパラメタをNNで求める 3. 2.の条件付き分布に乗ったノイズをうまくキャンセルするよ うな関数gを定義する • 次スライドで話します 4. Fully-labeled or Semi-supervisedな設定でネットワーク全体を SGDで学習する ※論文に”1. Train any standard feedforward neural networks”と書かれているのでたぶん 先に学習しておくんじゃないかなと思いますがちょっと微妙です
  • 13. Denoising function g • 理想的なgの形は分布の形に依存 • 左カラム:分布の形 • 右カラム:理想的なgの形 • 上から順に、次の3つの例 • Super-Gaussian • Sub-Gaussian • Gaussian • 今回はGaussianを使うので線形 • 具体的な式はちょっと複雑になる ので実装したい人は論文参照
  • 14. Γmodel: Special Case of Ladder Network • 一番上の層だけ再構築 • Decoderがいらなくなるの で実装が楽 • 結果で示すようにこれで もまぁまぁ精度良い 黒枠の中をそっくり無くす
  • 15. Experimental Setup • Datasets: Permutation MNIST, MNIST, CIFAR-10 • Encoder: MLPとCNN • Baselines: いろいろ • Training: • Adam(lr=0.002) • Lr scheduling (linearly decreasing to zero at final epoch) • Minibatch size = 100 • The source codes: • https://github.com/arasmus/ladder
  • 16. Results: Permutation MNIST (MLP) • 使ったラベル数によらずState-of-the-art • 特にラベル数が少ない場合に良い精度(エラー率でVAEの1/3)
  • 17. Results: MNIST (CNN) • State-of-the-art • Full Labeledの評価がないのが若干気になる (Full Labeledなら普通にCNN使えばいい話な気もする
  • 18. Results: CIFAR10 (CNN) • ラベルが限られてる場合は普通のCNNより良い • 特に少数ラベルの場合高精度
  • 19. Conclusion and Future Direction • 複数の半教師ありタスクでstate-of-the-artなモデルを提案 • 今後は次の方針で進める予定 • どのようなEncoder+Decoderの組み合わせが適切か • 時系列方向での発展