SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models
Report
Deep Learning JP
Follow
Deep Learning JP
Apr. 7, 2017
•
0 likes
•
5,359 views
1
of
12
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models
Apr. 7, 2017
•
0 likes
•
5,359 views
Download Now
Download to read offline
Report
Technology
2017/4/7 Deep Learning JP: http://deeplearning.jp/seminar-2/
Deep Learning JP
Follow
Deep Learning JP
Recommended
近年のHierarchical Vision Transformer
Yusuke Uchida
13.3K views
•
46 slides
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
9.4K views
•
23 slides
全力解説!Transformer
Arithmer Inc.
9K views
•
43 slides
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
4.4K views
•
16 slides
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
1.8K views
•
22 slides
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
28.8K views
•
41 slides
More Related Content
What's hot
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
2.2K views
•
31 slides
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
11K views
•
46 slides
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
72.1K views
•
76 slides
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
7.8K views
•
26 slides
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
11.1K views
•
137 slides
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
5.9K views
•
26 slides
What's hot
(20)
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
•
2.2K views
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
•
11K views
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
•
72.1K views
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
•
7.8K views
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
•
11.1K views
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
•
5.9K views
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
•
4K views
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.6K views
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.2K views
モデル高速化百選
Yusuke Uchida
•
24.5K views
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
•
14K views
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
•
2.6K views
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
•
895 views
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
Kosuke Shinoda
•
1.4K views
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
•
2K views
分散深層学習 @ NIPS'17
Takuya Akiba
•
18.1K views
最適輸送入門
joisino
•
10.5K views
Optimizer入門&最新動向
Motokawa Tetsuya
•
22.7K views
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
•
14.3K views
深層生成モデルと世界モデル
Masahiro Suzuki
•
16.4K views
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
136 views
•
28 slides
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 views
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 views
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
188 views
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
449 views
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
887 views
•
29 slides
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
136 views
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 views
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 views
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
188 views
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
449 views
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
887 views
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
255 views
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
186 views
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
561 views
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
401 views
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K views
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
370 views
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 views
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
589 views
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
685 views
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
294 views
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
281 views
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
823 views
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
435 views
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
209 views
Recently uploaded
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
11 views
•
24 slides
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
125 views
•
31 slides
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
7 views
•
1 slide
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
45 views
•
38 slides
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
170 views
•
16 slides
画像生成AIの問題点
iPride Co., Ltd.
13 views
•
9 slides
Recently uploaded
(13)
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
11 views
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
125 views
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
7 views
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
45 views
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
170 views
画像生成AIの問題点
iPride Co., Ltd.
•
13 views
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
69 views
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
28 views
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 views
GraphQLはどんな時に使うか
Yutaka Tachibana
•
17 views
CatBoost on GPU のひみつ
Takuji Tahara
•
780 views
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
6 views
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
149 views
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models
1.
Batch Renormalization: Towards Reducing
Minibatch Dependence in Batch- Normalized Models DL輪読会 松尾研D1 保住 純 2017/03/31 1
2.
書誌情報 ・タイトル: Batch Renormalization:
Towards Reducing Minibatch Dependence in Batch-Normalized Models ・著者: Sergey Ioffe (Google Inc.) [Batch Normalizationの生みの親の1人] ・公開日: 02/10/2017 (on arXiv) ・引用件数: 1 (Google Scholar) ・近い将来、Tensorflowにも導入されそう。 - 既にプルリクが出ていた 2 (注:以後のスライド内の式とグラフは、すべてこの論文から引用)
3.
背景 ・Batch Normalization(バッチ正規化、BN)はDLの標準的技術になった。 - 内部共変量シフトを防ぐことで、学習を高速化 -
DropOutのような正則化効果もある - ResNetやGANの成立にBNが貢献 ・BNの特徴 - (主にCNNで)活性化関数やNNの構造によらずに使用できる。 - 学習時と推定時で、正規化のされ方が異なる。 (正規化に用いる平均・分散を計算する際に使われる事例が異なるから) - 学習時はミニバッチに、推定時は学習事例全体に影響される - 学習時から学習事例全体の統計量で正規化するのは、勾配爆発するのでNG 3
4.
・BNの特徴を踏まえると、BNは、①バッチサイズが大きく、②事例が i.i.d.(独立同分布)であれば、有効に機能する。 ・そうでない場合には、以下の問題が生じる。 ①バッチサイズが小さい → 統計量が不正確になる(母集団の統計量から乖離) -
バッチが増えたり、多層になったりすると、悪影響は深刻化 ②事例がi.i.d.でない → バッチごとに過学習してしまう - 学習時と推定時でバッチごとに分布が大きく異なると、悪影響も増大 ・この問題に対処する正規化手法は(Normalization Propagation, Layer Norm, Weight Normなど)色々あるが、BNに比べて面倒もしくは計算コストがかかる。 4 BNの手軽さを維持しつつ、以上の問題を克服する Batch Renormalization(バッチ再正規化)を提案 BNの抱える問題
5.
復習: Batch Normalization ・バッチごとに平均と分散を計算し、それらを用いて事例を正規化する。 ・γ(スケール)とβ(シフト)は、学習されるパラメータ。 5 平均 分散 正規化 ←
この式に注目! バッチ内での バッチ内での
6.
Batch Renormalizationのアイデア 正規化時のバッチ内の平均・分散を、全体の平均・分散に置き換える。 そして、新たに変数r, dを導入して、正規化部分を書き換える。 バッチ内の平均と分散を、rとdで、全体のそれらに合うよう補正する。 (バッチ内の平均と分散がデータ全体のそれらと一致する時、元のBNの式と一致。) 6 正規化 (全体での) (全体での)
7.
Batch Renormalization ハイパーパラメータとして、rmax, dmax,
(rとdの値域を定めるパラメータ)とΔ(更新率) を与える。 - rmax, dmaxは、少しずつ大きくする(詳しくは後述) 7 勾配計算時には定数扱い 全体の平均と分散は、移動平均を計算して更新 ← 前ページの式 値域の制限
8.
ポイント ・r,dは順伝播時にバッチごとに計算するが、逆伝播時は定数として扱う。 - BatchRenormは、BNの正規化に、ミニバッチの統計量を全体の統計量に移して 正しく活性化させるアフィン変換を追加したもの、とみなせる ・最初は(普通の)BNで学習させる。(つまり、最初しばらくはr=1, d=0に固定。) そして、徐々にrmax,
dmax を大きくする。 - こうすることで勾配爆発を防ぎ、うまく収束できる ・学習事例全体の統計量の算出には、移動平均を用いる。 ・推定時は普通のBNと同様、学習事例全体のμ,σを用いる。 8
9.
・画像分類問題で、BatchRenormを評価する。 Baseline: Inception v3 -
畳み込み層とReLUの間にBN Model: Inception v3 (※BNの代わりにBatchRenorm) Data Set: ImageNet BatchSize : 32(×50バッチ) - 50バッチを並列処理 Optimizer: RMS Prop Model Training: - BN (for first 5k steps) - rmax → 3 (@40k steps)、 dmax → 5(@25k steps) 9 実験
10.
実験結果1 – MicroBatch
(Small Minibatch) ・MiniBatch(事例32ずつ)では、精度にに大きな差はない。 ・MicroBatch(事例4ずつ)だと、精度に明確な差が現れる。 10 1バッチ当たり32事例の場合 (MiniBatch) 1バッチ当たり4事例の場合 (MicroBatch) ← ここ(steps=5k)まではどちらも普通のBN
11.
実験結果2- Non i.i.d.
Minibatch ・各バッチを「(ランダム選択した)16クラス×2事例=32事例」にさせて学習。 - 全部で32クラスある分類問題なので、バッチごとにデータが偏る(Non i.i.d.) BNだと(学習時ですら)精度が低い。 (オーバーフィットが発生) 11 ① BNだと(学習時ですら)精度が低い。 (過学習が発生するから) ← ② 推定時に推定バッチの平均・分散を用いた場合。 ← ③ 「16クラス×1事例=16事例」バッチの場合。 ← ④ BatchRenormなら、そんな面倒なことしなくても精度が良い。
12.
BNは学習と推定時とで正規化のされ方が異なるため、 MicrobatchやNon i.i.d. Minibatchでの学習では上手くいかなかった。 →
正規化のされ方がミニバッチに依らなくなるよう、BNを修整した。 → BNと同様の手軽さと速さを維持したまま、MicrobatchやNon i.i.d. Minibatchでの学習を大幅に改善できた。 ・今後の研究課題 - ハイパーパラメータ(rmax, dmax, Δ)の良い決め方 - GANで問題となっている「BNのもたらす非決定性」を解決できるか - RNNにも使えるか - BatchRenormなら全タイムステップを考慮できるからいける? 12 結論