SlideShare a Scribd company logo
1 of 46
Backprop Free Learning
と
Biologically Plausible Neural Network
紹介論文
“Training Neural Networks with Local Error Signals”
Arild Nøkland, Lars H. Eidnes
論文の新規性
 Neural Network を、2種類の
Local Loss Functions のみで学習し、
高い精度を達成
 学習には Global な Back Propagation が
必要不可欠ではないことを示す
 Biologically plausible な Neural Network
を実現
Motivation
あまり Neural ではない Network
・・・
・・・
X
Y
全ての神経細胞と結合
出所不明のY (正解ラベル)
非スモールワールド性
Back-Propagationの使用
Backprop の6つの問題
1. Backprop は純線形だが、
神経細胞は線形と非線形のくり返し
2. 逆行路は、対応する順行路の
神経活動とその微分を保持する必要がある
3. 同様に、対応する重みも保持する必要がある
4. 神経活動は 0 or 1 であり、連続値を持てない
5. forward と backward の切り替えが必要
6. Output targets (Y) の情報源が明らかではない
[Bengio et al. 2015]
[Bengio et al. 2015] Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning.
CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446.
Bio-plausible な NN の意義(機能面)
1.生物の脳:fast / one-shot learning が可能
2. “創造性” を持つNNの実現
Bio-plausible な NN の意義(実用面)
1. 並列計算が可能
 Backprop では、
forward/backward pass が完了するまで
隠れ層の重みを更新できない
2. 隠れ層の activation を記録していた
メモリを解放できる
Previous Work
逆行路は、順行路と同じ重みを保持する必要はない
「3. 同様に、対応する重みも保持する必要がある」
[Lillicrap et al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support
error backpropagation for deep learning. Nature Communications, 7:13276, 2016.
[Lillicrap et al. 2016 Fig. 1]
微小回路により、forward/backward を並列実行できる
「5. forward と backward の切り替えが必要」
[Sacramento et al. 2018] Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the
backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni-trier.de/db/journals/corr/corr1810.html
#abs-1810-11393.
[Sacramento et al. 2018 Fig. 1A]
“想定外” に反応するドパミン作動性ニューロン
「6. Output targets (Y) の情報源が明らかではない」
[Gadagkar et al. 2016] Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278-
1282, 2016.
[Gadagkar et al. 2016 Fig. 1E&G, Fig. 2B]
Method
論文の新規性(再掲)
 Neural Network を、2種類の
Local Loss Functions のみで学習し、
高い精度を達成
 学習には Global な Back Propagation が
必要不可欠ではないことを示す
 Biologically plausible な Neural Network
を実現
Local Error Signals
※BN: Batch Normalization
隠れ層ごとに
2つのsub-network
Local に計算した誤差で
学習を行う
Similarity Matching Loss (sim)
「同じクラスに分類されるデータ同士に対しては、
隠れ層は同様の活動をする」
H
※NeuralNet(X) : Conv による変換
H = (h1, h2, ..., hn) :
隠れ層のactivation (batch)
Y = (y1, y2, ..., yn) :
クラス label (batch, one-hot)
S(X) : similarity matrix
“sim” は unsupervised learning 由来
CTC = I PCA (principal component analysis)
NMF (non-negative matrix factorization)H, C, G ≧ 0
Symmetric NMFS(X) = XTX and G ≧ 0
MDS (multidimensional scaling)S(X):
Euclidian distance
sim の最小化
Cross Entropy Loss (pred)
「隠れ層ごとに予測クラスを求める」
H
※W : Linear の重み
H = (h1, h2, ..., hn) :
隠れ層のactivation (batch)
Y = (y1, y2, ..., yn) :
クラス label (batch, one-hot)
Combined Loss (predsim)
「全体の loss は、 pred と sim を合わせたもの」
初期値 0.99
!!
Is it “completely” plausible?
Y = (y1, y2, ..., yn)
全ての隠れ層で
同一の Y が使える
必要がある
Is it “completely” plausible?
sub-network
の区間内では
backprop が残る
Conv のθと Linear の W
(パラメータ)が
trainable
なぜならば
さらに plausible に( Y についての制約)
Y = (y1, y2, ..., yn)
fk+1(Y)
fk(Y)
fk-1(Y)
全ての隠れ層で
同一の Y が必要となる
制約を解除
Y を隠れ層ごとに
ランダムに変換
さらに plausible に(sim)
H Trainable でない、
ただの encoder に置換
sim-bpf と呼称
さらに plausible に(pred)
H
pred-bpf と呼称
B (固定)
[Lillicrap et al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support
error backpropagation for deep learning. Nature Communications, 7:13276, 2016.
[Lillicrap et al. 2016 Fig. 1b&c]
Linear alignment に置換
さらに plausible に(predsim)
predsim-bpf と呼称
Y = (y1, y2, ..., yn)
fk+1(Y)
fk(Y)
H
fk-1(Y) Linear alignment
初期値 0.01
お疲れ様でした。
これで準備完了です。
では、
実験に移りましょう。
Experiments
使用した Neural Network
VGG8B:
Conv128-Conv256-Pool-Conv256-Conv512-Pool-
Conv512-Pool-Conv512-Pool-Fc1024-Fc
VGG11B:
Conv128-Conv128-Conv128-Conv256-Pool-
Conv256-Conv512-Pool-Conv512-Conv512-Pool-
Conv512-Pool-Fc1024-Fc
VGG8/11B(2x/3x): Conv filter 数が2倍/3倍
Conv: 3x3 (stride=1, padding=1)
Pool: 2x2 (max-pooling)
Fc: fully connected layer
batch size = 128
CIFAR-10 (精度)
50,000 training images (32x32), class: 10
※ backprop-free の従来法では
16.9% (12.6%)
([Moskovitz et al. 2018])
3The test error was 5.60% in epoch 399.
CO: cutout (hole size = 16)
WRN: WideResNet-40-10 → baseline
[Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks.
CoRR, 12 2018.
CIFAR-10 (精度)
50,000 training images (32x32), class: 10
※ backprop-free の従来法では
16.9% (12.6%)
([Moskovitz et al. 2018])
3The test error was 5.60% in epoch 399.
CO: cutout (hole size = 16)
WRN: WideResNet-40-10 → baseline
[Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks.
CoRR, 12 2018.
Backprop-free の精度は大幅更新
Baseline に迫る精度
CIFAR-10 (学習過程)
predsim では
train-test 間の乖離が小さい
Training error は
pred > sim > predsim
MNIST
Hand-written digits
CO: cutout (hole size = 14)
Ladder: Ladder network → baseline for fc
CapsNet: CapsNet→ baseline for conv
Fashion-MNIST
clothing
CO: cutout (hole size = 14)
WRN: WideResNet-28-10 → baseline
RE: random erasing data augmentation
Kuzushiji-MNIST
Hand-drawn Japanese characters
CO: cutout (hole size = 14)
PARN: PreActResNet-18 → baseline
MM: manifold mixup regularization
CIFAR-100
50,000 training images (32x32), class: 100
Note that the CIFAR100 runs are less comparable to each other, because the sim and predsim runs had batches sampled
to have only 20 classes per batch during training, which we found to cause a higher training error, but lower test error.
WRN: WideResNet-40-10 → baseline
SVHN
73,257 + 531,131 training images (32x32)
CO: cutout (hole size = 16)
WRN: WideResNet-16-8 → baseline
STL-10
5,000 labeled images (96x96), class: 10
CO: cutout (hole size = 48)
WRN: WideResNet-16-8 → baseline
最初の Conv を 7x7, stride = 2 に変更
Discussion
&
Conclusion
Local Loss Functions について
 sim と pred を組み合わせて、高い精度を実現
 従来の正則化手法も適用できる
 dropout
 batch normalization
 cutout
 必要メモリ容量削減・並列処理が可能
 重みは forward 計算と同時に更新
 複数のGPUで、異なる batch を用いて学習できる
Optimization と Generalization について
 Local Loss Functions は、
汎化性能を向上させる
 STL-10:大きな画像 (96x96) & 少数例 (5,000 images)
Biological Plausibility について
 backprop-free の精度が大きく向上
 学習には global な backprop が
必要不可欠ではない
 bpf でなくとも、backprop は1回で十分
 未だ implausible な点と、今後の課題
 各 Conv 層における重みの共有と符号の逆転
 batch normalization → offline 学習のみを想定
 神経細胞の信号は spike であることを考慮していない
Although we did not get airplanes
from imitating birds
but from understanding the principles of
aerodynamics,
researching birds advances
aerodynamics.
参考文献
1. Nøkland A and Eidnes LH. Training neural networks with local
error signals. arXiv, 1901.06656.
2. Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards
biologically plausible deep learning. CoRR, abs/1407.7906,
2014. URL http://arxiv.org/abs/1812.11446.
3. Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random
synaptic feedback weights support error backpropagation for
deep learning. Nature Communications, 7:13276, 2016.
4. Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic
cortical microcircuits approximate the backpropagation
algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni-
trier.de/db/journals/corr/corr1810.html #abs-1810-11393.
5. Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR,
and Goldberg JH. Science, 354:1278-1282, 2016.
6. Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback
alignment in deep convolutional networks. CoRR, 12 2018.

More Related Content

What's hot

20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義Hayaru SHOUNO
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video PriorDeep Learning JP
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会Shotaro Sano
 
画像認識のための深層学習
画像認識のための深層学習画像認識のための深層学習
画像認識のための深層学習Saya Katafuchi
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)MasanoriSuganuma
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)Akisato Kimura
 
20140726.西野研セミナー
20140726.西野研セミナー20140726.西野研セミナー
20140726.西野研セミナーHayaru SHOUNO
 
20141208.名大セミナー
20141208.名大セミナー20141208.名大セミナー
20141208.名大セミナーHayaru SHOUNO
 
Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Hiroki Nakahara
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearningHayaru SHOUNO
 
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化marsee101
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAHiroki Nakahara
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable ConvolutionsDeep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 

What's hot (20)

20150803.山口大学集中講義
20150803.山口大学集中講義20150803.山口大学集中講義
20150803.山口大学集中講義
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
 
画像認識のための深層学習
画像認識のための深層学習画像認識のための深層学習
画像認識のための深層学習
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
20140726.西野研セミナー
20140726.西野研セミナー20140726.西野研セミナー
20140726.西野研セミナー
 
20141208.名大セミナー
20141208.名大セミナー20141208.名大セミナー
20141208.名大セミナー
 
Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
20130925.deeplearning
20130925.deeplearning20130925.deeplearning
20130925.deeplearning
 
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
「ゼロから作るDeep learning」の畳み込みニューラルネットワークのハードウェア化
 
FPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGAFPGAX2016 ドキュンなFPGA
FPGAX2016 ドキュンなFPGA
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Paper: seq2seq 20190320
Paper: seq2seq 20190320Paper: seq2seq 20190320
Paper: seq2seq 20190320
 

Similar to Icml2019 kyoto ohno_ver20190805

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化RCCSRENKEI
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routingKazuki Fujikawa
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedShuntaro Ohno
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Shuntaro Ohno
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎kunihikokaneko1
 
Survey in CinC 2021
Survey in CinC 2021Survey in CinC 2021
Survey in CinC 2021AMI Inc.
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①Shohei Miyashita
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistryshima o
 

Similar to Icml2019 kyoto ohno_ver20190805 (20)

DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
Matrix capsules with em routing
Matrix capsules with em routingMatrix capsules with em routing
Matrix capsules with em routing
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Combinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
 
Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎ae-3. ディープラーニングの基礎
ae-3. ディープラーニングの基礎
 
Survey in CinC 2021
Survey in CinC 2021Survey in CinC 2021
Survey in CinC 2021
 
深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①深層学習 - 画像認識のための深層学習 ①
深層学習 - 画像認識のための深層学習 ①
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
Efficient Det
Efficient DetEfficient Det
Efficient Det
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistry
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (8)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

Icml2019 kyoto ohno_ver20190805

  • 1. Backprop Free Learning と Biologically Plausible Neural Network 紹介論文 “Training Neural Networks with Local Error Signals” Arild Nøkland, Lars H. Eidnes
  • 2.
  • 3. 論文の新規性  Neural Network を、2種類の Local Loss Functions のみで学習し、 高い精度を達成  学習には Global な Back Propagation が 必要不可欠ではないことを示す  Biologically plausible な Neural Network を実現
  • 5. あまり Neural ではない Network ・・・ ・・・ X Y 全ての神経細胞と結合 出所不明のY (正解ラベル) 非スモールワールド性 Back-Propagationの使用
  • 6. Backprop の6つの問題 1. Backprop は純線形だが、 神経細胞は線形と非線形のくり返し 2. 逆行路は、対応する順行路の 神経活動とその微分を保持する必要がある 3. 同様に、対応する重みも保持する必要がある 4. 神経活動は 0 or 1 であり、連続値を持てない 5. forward と backward の切り替えが必要 6. Output targets (Y) の情報源が明らかではない [Bengio et al. 2015] [Bengio et al. 2015] Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446.
  • 7. Bio-plausible な NN の意義(機能面) 1.生物の脳:fast / one-shot learning が可能 2. “創造性” を持つNNの実現
  • 8. Bio-plausible な NN の意義(実用面) 1. 並列計算が可能  Backprop では、 forward/backward pass が完了するまで 隠れ層の重みを更新できない 2. 隠れ層の activation を記録していた メモリを解放できる
  • 10. 逆行路は、順行路と同じ重みを保持する必要はない 「3. 同様に、対応する重みも保持する必要がある」 [Lillicrap et al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1]
  • 11. 微小回路により、forward/backward を並列実行できる 「5. forward と backward の切り替えが必要」 [Sacramento et al. 2018] Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni-trier.de/db/journals/corr/corr1810.html #abs-1810-11393. [Sacramento et al. 2018 Fig. 1A]
  • 12. “想定外” に反応するドパミン作動性ニューロン 「6. Output targets (Y) の情報源が明らかではない」 [Gadagkar et al. 2016] Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278- 1282, 2016. [Gadagkar et al. 2016 Fig. 1E&G, Fig. 2B]
  • 14. 論文の新規性(再掲)  Neural Network を、2種類の Local Loss Functions のみで学習し、 高い精度を達成  学習には Global な Back Propagation が 必要不可欠ではないことを示す  Biologically plausible な Neural Network を実現
  • 15. Local Error Signals ※BN: Batch Normalization 隠れ層ごとに 2つのsub-network Local に計算した誤差で 学習を行う
  • 16. Similarity Matching Loss (sim) 「同じクラスに分類されるデータ同士に対しては、 隠れ層は同様の活動をする」 H ※NeuralNet(X) : Conv による変換 H = (h1, h2, ..., hn) : 隠れ層のactivation (batch) Y = (y1, y2, ..., yn) : クラス label (batch, one-hot) S(X) : similarity matrix
  • 17. “sim” は unsupervised learning 由来 CTC = I PCA (principal component analysis) NMF (non-negative matrix factorization)H, C, G ≧ 0 Symmetric NMFS(X) = XTX and G ≧ 0 MDS (multidimensional scaling)S(X): Euclidian distance sim の最小化
  • 18. Cross Entropy Loss (pred) 「隠れ層ごとに予測クラスを求める」 H ※W : Linear の重み H = (h1, h2, ..., hn) : 隠れ層のactivation (batch) Y = (y1, y2, ..., yn) : クラス label (batch, one-hot)
  • 19. Combined Loss (predsim) 「全体の loss は、 pred と sim を合わせたもの」 初期値 0.99
  • 20. !!
  • 21. Is it “completely” plausible? Y = (y1, y2, ..., yn) 全ての隠れ層で 同一の Y が使える 必要がある
  • 22. Is it “completely” plausible? sub-network の区間内では backprop が残る Conv のθと Linear の W (パラメータ)が trainable なぜならば
  • 23. さらに plausible に( Y についての制約) Y = (y1, y2, ..., yn) fk+1(Y) fk(Y) fk-1(Y) 全ての隠れ層で 同一の Y が必要となる 制約を解除 Y を隠れ層ごとに ランダムに変換
  • 24. さらに plausible に(sim) H Trainable でない、 ただの encoder に置換 sim-bpf と呼称
  • 25. さらに plausible に(pred) H pred-bpf と呼称 B (固定) [Lillicrap et al. 2016] Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. [Lillicrap et al. 2016 Fig. 1b&c] Linear alignment に置換
  • 26. さらに plausible に(predsim) predsim-bpf と呼称 Y = (y1, y2, ..., yn) fk+1(Y) fk(Y) H fk-1(Y) Linear alignment 初期値 0.01
  • 31. CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.
  • 32. CIFAR-10 (精度) 50,000 training images (32x32), class: 10 ※ backprop-free の従来法では 16.9% (12.6%) ([Moskovitz et al. 2018]) 3The test error was 5.60% in epoch 399. CO: cutout (hole size = 16) WRN: WideResNet-40-10 → baseline [Moskovitz et al. 2018] Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018. Backprop-free の精度は大幅更新 Baseline に迫る精度
  • 33. CIFAR-10 (学習過程) predsim では train-test 間の乖離が小さい Training error は pred > sim > predsim
  • 34. MNIST Hand-written digits CO: cutout (hole size = 14) Ladder: Ladder network → baseline for fc CapsNet: CapsNet→ baseline for conv
  • 35. Fashion-MNIST clothing CO: cutout (hole size = 14) WRN: WideResNet-28-10 → baseline RE: random erasing data augmentation
  • 36. Kuzushiji-MNIST Hand-drawn Japanese characters CO: cutout (hole size = 14) PARN: PreActResNet-18 → baseline MM: manifold mixup regularization
  • 37. CIFAR-100 50,000 training images (32x32), class: 100 Note that the CIFAR100 runs are less comparable to each other, because the sim and predsim runs had batches sampled to have only 20 classes per batch during training, which we found to cause a higher training error, but lower test error. WRN: WideResNet-40-10 → baseline
  • 38. SVHN 73,257 + 531,131 training images (32x32) CO: cutout (hole size = 16) WRN: WideResNet-16-8 → baseline
  • 39. STL-10 5,000 labeled images (96x96), class: 10 CO: cutout (hole size = 48) WRN: WideResNet-16-8 → baseline 最初の Conv を 7x7, stride = 2 に変更
  • 41. Local Loss Functions について  sim と pred を組み合わせて、高い精度を実現  従来の正則化手法も適用できる  dropout  batch normalization  cutout  必要メモリ容量削減・並列処理が可能  重みは forward 計算と同時に更新  複数のGPUで、異なる batch を用いて学習できる
  • 42. Optimization と Generalization について  Local Loss Functions は、 汎化性能を向上させる  STL-10:大きな画像 (96x96) & 少数例 (5,000 images)
  • 43. Biological Plausibility について  backprop-free の精度が大きく向上  学習には global な backprop が 必要不可欠ではない  bpf でなくとも、backprop は1回で十分  未だ implausible な点と、今後の課題  各 Conv 層における重みの共有と符号の逆転  batch normalization → offline 学習のみを想定  神経細胞の信号は spike であることを考慮していない
  • 44.
  • 45. Although we did not get airplanes from imitating birds but from understanding the principles of aerodynamics, researching birds advances aerodynamics.
  • 46. 参考文献 1. Nøkland A and Eidnes LH. Training neural networks with local error signals. arXiv, 1901.06656. 2. Bengio Y, Lee D, Bornschein J, Mesnard T, and Lin Z. Towards biologically plausible deep learning. CoRR, abs/1407.7906, 2014. URL http://arxiv.org/abs/1812.11446. 3. Lillicrap TP, Cownden D, Tweed DB, and Akerman CJ. Random synaptic feedback weights support error backpropagation for deep learning. Nature Communications, 7:13276, 2016. 4. Sacramento J, Costa RP, Bengio Y, and Senn W. Dendritic cortical microcircuits approximate the backpropagation algorithm. CoRR, abs/1810.11393, 2018. URL http://dblp.uni- trier.de/db/journals/corr/corr1810.html #abs-1810-11393. 5. Gadagkar V, Puzerey PA, Chen R, Baird-Daniel E, Farhang AR, and Goldberg JH. Science, 354:1278-1282, 2016. 6. Moskovitz TH, Litwin-Kumar A, and Abbott L. Feedback alignment in deep convolutional networks. CoRR, 12 2018.