SlideShare a Scribd company logo
1 of 18
Group Normalization
arXivTimes勉強会
2018/03/30
株式会社ALBERT 山内隆太郎
書誌情報
• Yuxin Wu, Kaiming He
• Facebook AI Research(FAIR)の人々
• Kaiming氏はいつもシンプルで力強いアイディアを出してきて凄い
• ResNetとかMask R-CNNとか
• https://arxiv.org/abs/1803.08494
Batch Normalizationの問題点
• Batch Normalization(BN)はバッチサイズが小さい場合に著し
く精度が下がる
• バッチの統計量を正しく推定できなくなるため
• 高精細な画像を用いたDetectionやSegmentationの学習では、メモリ
の制約からバッチサイズを確保できないことが多い
• 2とか4とか
• 評価時には事前に計算された統計量を用いるが、データの分布
が変わると意味をなさない
• 転移学習する場合に困る
BNの問題点への対処
• 凄い計算機を使う
• 本質的ではない
• Batch Renormalization
• バッチではなく学習セット全体の統計量を推定する
• Weight Normalization
• filter weightの方を正規化
• Batch次元と独立なNormalization
• Layer Normalization
• Instance Normalization
• ↑この2つはRNN/LSTMやGANでは効果的だが、画像認識では微妙
• Group Normalization
• 今回提案するのはこれ
Group Normalizationの特徴
• チャネルをいくつかのグループに分け、各グループについて正
規化する
• バッチ次元に対し独立なので、バッチサイズが変化しても精度
が変わらない
• バッチサイズ大:BN≒GN(>Others)
• バッチサイズ小:GN>BN
• 実装・導入が簡単
バッチサイズとエラー率
• 十分なバッチサイズ(>16)ではBNがわずかに良いが、バッチサ
イズが小さくなるとBNは著しく精度が落ちる
実装例(TensorFlow)
• 簡単
さまざまなNormalization methods
さまざまなNormalization methods
• 正規化の仕方はどれも
𝑥𝑖 =
1
𝜎𝑖
(𝑥𝑖 − 𝜇𝑖)
• どのような単位で正規化するかによって
• Batch Norm
• Layer Norm
• Instance Norm
• Group Norm
といった違いが出てくる
Group Normalization
• グループ数Gを適当に決めてチャネルをG個に分ける
• 右図はG=2
• 各グループで正規化
• バッチ次元を貫いていないのでバッチサイズで
精度が変わらない
また、バッチに含まれる異常なサンプルに影響
されない
GNのよさ(あるいはLN, INのよくなさ)
• チャネルは互いに独立ではなく共同で特徴を表現している
• SIFTやHOGのようなクラシカルな特徴量もそうだった
• Layer Normalization
• GNのG=1に相当
• 正規化が強すぎる
• あるチャネルが他のチャネルを潰してしまう
• Instance Normalization
• GNのG=Cに相当
• チャネルの独立性を仮定している
• チャネル毎に正規化されるため、チャネル間の関係が捉えられない
実験1 Image Classification in ImageNet
• ResNet-50でImageNetを学習
• 8 GPUsで計算
• バッチ統計量はGPUごとに算出
• 基本的にG=32
• 実験
1. バッチサイズ32でBN, GN, LN, INの精度を比較
2. バッチサイズを変えながらBNとGNの精度を比較
3. Batch Renormalizationとの比較
4. Gを変える
5. ResNet-101の場合
6. VGG16における結果と分析
実験1-1 結果
• BNがGNよりわずかに良い
実験1-2 結果
• BNはバッチサイズが小さくなると精度が一気に下がるがGNは
変わらず
実験1-3, 4
• 1-3. Batch Renormとの比較(バッチサイズ:4)
• GN(24.2%)>BR(26.3%)>GN(27.3%)
• 1-4. Gを変える
• G=32が最もよい
• 1Groupごとのチャネル数を固定した
場合、16チャネルが最も良い
実験1-5, 6
• ResNet-101
• バッチサイズ32: BN(22.0%)>GN(22.4%)
• バッチサイズ2: GN(23.0%)>GN(31.9%)
• VGG16
Future Work
• 今回用いたネットワークはBN前提に設計されている。これを
GNに最適化したら性能は上がるだろうか?
• IN, LNはRNN/LSTMではうまく機能するが、GNはどうか?
感想・疑問
• 凄い計算機を用意しにくいわれわれにとっては大変ありがたい
研究
• とくにDetectorの学習…
• 図が良い
• BNはチャネル毎に正規化されるので、チャネル間の関係を利
用しにくいはずだが、なぜINと比較して高い性能が出ているの
か?
• ミニバッチがある程度大きければチャネル間の関係がある程度安定す
る?

More Related Content

What's hot

モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...Deep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルohken
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2harmonylab
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 

What's hot (20)

モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 

More from Ryutaro Yamauchi

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset DistillationRyutaro Yamauchi
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right ConsistencyRyutaro Yamauchi
 
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicHybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicRyutaro Yamauchi
 

More from Ryutaro Yamauchi (6)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
 
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicHybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
 

Group normalization