Submit Search
Upload
Group normalization
•
Download as PPTX, PDF
•
1 like
•
3,770 views
Ryutaro Yamauchi
Follow
arXivTimes勉強会 2018/03/30
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 18
Download now
Recommended
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Recommended
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
[DL輪読会]Live-Streaming Fraud Detection: A Heterogeneous Graph Neural Network A...
Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
More Related Content
What's hot
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
Yusuke Uchida
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
KCS Keio Computer Society
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
cvpaper. challenge
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
What's hot
(20)
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
ELBO型VAEのダメなところ
ELBO型VAEのダメなところ
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Transformer メタサーベイ
Transformer メタサーベイ
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
モデル高速化百選
モデル高速化百選
Triplet Loss 徹底解説
Triplet Loss 徹底解説
全力解説!Transformer
全力解説!Transformer
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
More from Ryutaro Yamauchi
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
Structure from Motion
Structure from Motion
Ryutaro Yamauchi
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
Ryutaro Yamauchi
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
Ryutaro Yamauchi
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
Ryutaro Yamauchi
More from Ryutaro Yamauchi
(6)
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Structure from Motion
Structure from Motion
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
Group normalization
1.
Group Normalization arXivTimes勉強会 2018/03/30 株式会社ALBERT 山内隆太郎
2.
書誌情報 • Yuxin Wu,
Kaiming He • Facebook AI Research(FAIR)の人々 • Kaiming氏はいつもシンプルで力強いアイディアを出してきて凄い • ResNetとかMask R-CNNとか • https://arxiv.org/abs/1803.08494
3.
Batch Normalizationの問題点 • Batch
Normalization(BN)はバッチサイズが小さい場合に著し く精度が下がる • バッチの統計量を正しく推定できなくなるため • 高精細な画像を用いたDetectionやSegmentationの学習では、メモリ の制約からバッチサイズを確保できないことが多い • 2とか4とか • 評価時には事前に計算された統計量を用いるが、データの分布 が変わると意味をなさない • 転移学習する場合に困る
4.
BNの問題点への対処 • 凄い計算機を使う • 本質的ではない •
Batch Renormalization • バッチではなく学習セット全体の統計量を推定する • Weight Normalization • filter weightの方を正規化 • Batch次元と独立なNormalization • Layer Normalization • Instance Normalization • ↑この2つはRNN/LSTMやGANでは効果的だが、画像認識では微妙 • Group Normalization • 今回提案するのはこれ
5.
Group Normalizationの特徴 • チャネルをいくつかのグループに分け、各グループについて正 規化する •
バッチ次元に対し独立なので、バッチサイズが変化しても精度 が変わらない • バッチサイズ大:BN≒GN(>Others) • バッチサイズ小:GN>BN • 実装・導入が簡単
6.
バッチサイズとエラー率 • 十分なバッチサイズ(>16)ではBNがわずかに良いが、バッチサ イズが小さくなるとBNは著しく精度が落ちる
7.
実装例(TensorFlow) • 簡単
8.
さまざまなNormalization methods
9.
さまざまなNormalization methods • 正規化の仕方はどれも 𝑥𝑖
= 1 𝜎𝑖 (𝑥𝑖 − 𝜇𝑖) • どのような単位で正規化するかによって • Batch Norm • Layer Norm • Instance Norm • Group Norm といった違いが出てくる
10.
Group Normalization • グループ数Gを適当に決めてチャネルをG個に分ける •
右図はG=2 • 各グループで正規化 • バッチ次元を貫いていないのでバッチサイズで 精度が変わらない また、バッチに含まれる異常なサンプルに影響 されない
11.
GNのよさ(あるいはLN, INのよくなさ) • チャネルは互いに独立ではなく共同で特徴を表現している •
SIFTやHOGのようなクラシカルな特徴量もそうだった • Layer Normalization • GNのG=1に相当 • 正規化が強すぎる • あるチャネルが他のチャネルを潰してしまう • Instance Normalization • GNのG=Cに相当 • チャネルの独立性を仮定している • チャネル毎に正規化されるため、チャネル間の関係が捉えられない
12.
実験1 Image Classification
in ImageNet • ResNet-50でImageNetを学習 • 8 GPUsで計算 • バッチ統計量はGPUごとに算出 • 基本的にG=32 • 実験 1. バッチサイズ32でBN, GN, LN, INの精度を比較 2. バッチサイズを変えながらBNとGNの精度を比較 3. Batch Renormalizationとの比較 4. Gを変える 5. ResNet-101の場合 6. VGG16における結果と分析
13.
実験1-1 結果 • BNがGNよりわずかに良い
14.
実験1-2 結果 • BNはバッチサイズが小さくなると精度が一気に下がるがGNは 変わらず
15.
実験1-3, 4 • 1-3.
Batch Renormとの比較(バッチサイズ:4) • GN(24.2%)>BR(26.3%)>GN(27.3%) • 1-4. Gを変える • G=32が最もよい • 1Groupごとのチャネル数を固定した 場合、16チャネルが最も良い
16.
実験1-5, 6 • ResNet-101 •
バッチサイズ32: BN(22.0%)>GN(22.4%) • バッチサイズ2: GN(23.0%)>GN(31.9%) • VGG16
17.
Future Work • 今回用いたネットワークはBN前提に設計されている。これを GNに最適化したら性能は上がるだろうか? •
IN, LNはRNN/LSTMではうまく機能するが、GNはどうか?
18.
感想・疑問 • 凄い計算機を用意しにくいわれわれにとっては大変ありがたい 研究 • とくにDetectorの学習… •
図が良い • BNはチャネル毎に正規化されるので、チャネル間の関係を利 用しにくいはずだが、なぜINと比較して高い性能が出ているの か? • ミニバッチがある程度大きければチャネル間の関係がある程度安定す る?
Download now