Group normalization

Group Normalization
arXivTimes勉強会
2018/03/30
株式会社ALBERT 山内隆太郎

書誌情報
• Yuxin Wu, Kaiming He
• Facebook AI Research(FAIR)の人々
• Kaiming氏はいつもシンプルで力強いアイディアを出してきて凄い
• ResNetとかMask R-CNNとか
• https://arxiv.org/abs/1803.08494

Batch Normalizationの問題点
• Batch Normalization(BN)はバッチサイズが小さい場合に著し
く精度が下がる
• バッチの統計量を正しく推定できなくなるため
• 高精細な画像を用いたDetectionやSegmentationの学習では、メモリ
の制約からバッチサイズを確保できないことが多い
• 2とか4とか
• 評価時には事前に計算された統計量を用いるが、データの分布
が変わると意味をなさない
• 転移学習する場合に困る

BNの問題点への対処
• 凄い計算機を使う
• 本質的ではない
• Batch Renormalization
• バッチではなく学習セット全体の統計量を推定する
• Weight Normalization
• filter weightの方を正規化
• Batch次元と独立なNormalization
• Layer Normalization
• Instance Normalization
• ↑この2つはRNN/LSTMやGANでは効果的だが、画像認識では微妙
• Group Normalization
• 今回提案するのはこれ

Group Normalizationの特徴
• チャネルをいくつかのグループに分け、各グループについて正
規化する
• バッチ次元に対し独立なので、バッチサイズが変化しても精度
が変わらない
• バッチサイズ大：BN≒GN(＞Others)
• バッチサイズ小：GN＞BN
• 実装・導入が簡単

バッチサイズとエラー率
• 十分なバッチサイズ(>16)ではBNがわずかに良いが、バッチサ
イズが小さくなるとBNは著しく精度が落ちる

実装例（TensorFlow）
• 簡単

さまざまなNormalization methods

さまざまなNormalization methods
• 正規化の仕方はどれも
𝑥𝑖 =
1
𝜎𝑖
(𝑥𝑖 − 𝜇𝑖)
• どのような単位で正規化するかによって
• Batch Norm
• Layer Norm
• Instance Norm
• Group Norm
といった違いが出てくる

Group Normalization
• グループ数Gを適当に決めてチャネルをG個に分ける
• 右図はG=2
• 各グループで正規化
• バッチ次元を貫いていないのでバッチサイズで
精度が変わらない
また、バッチに含まれる異常なサンプルに影響
されない

GNのよさ（あるいはLN, INのよくなさ）
• チャネルは互いに独立ではなく共同で特徴を表現している
• SIFTやHOGのようなクラシカルな特徴量もそうだった
• Layer Normalization
• GNのG=1に相当
• 正規化が強すぎる
• あるチャネルが他のチャネルを潰してしまう
• Instance Normalization
• GNのG=Cに相当
• チャネルの独立性を仮定している
• チャネル毎に正規化されるため、チャネル間の関係が捉えられない

実験１ Image Classification in ImageNet
• ResNet-50でImageNetを学習
• 8 GPUsで計算
• バッチ統計量はGPUごとに算出
• 基本的にG=32
• 実験
1. バッチサイズ32でBN, GN, LN, INの精度を比較
2. バッチサイズを変えながらBNとGNの精度を比較
3. Batch Renormalizationとの比較
4. Gを変える
5. ResNet-101の場合
6. VGG16における結果と分析

実験1-1 結果
• BNがGNよりわずかに良い

実験1-2 結果
• BNはバッチサイズが小さくなると精度が一気に下がるがGNは
変わらず

実験1-3, 4
• 1-3. Batch Renormとの比較（バッチサイズ:4）
• GN(24.2%)>BR(26.3%)>GN(27.3%)
• 1-4. Gを変える
• G=32が最もよい
• 1Groupごとのチャネル数を固定した
場合、16チャネルが最も良い

実験1-5, 6
• ResNet-101
• バッチサイズ32: BN(22.0%)>GN(22.4%)
• バッチサイズ2: GN(23.0%)>GN(31.9%)
• VGG16

Future Work
• 今回用いたネットワークはBN前提に設計されている。これを
GNに最適化したら性能は上がるだろうか？
• IN, LNはRNN/LSTMではうまく機能するが、GNはどうか？

感想・疑問
• 凄い計算機を用意しにくいわれわれにとっては大変ありがたい
研究
• とくにDetectorの学習…
• 図が良い
• BNはチャネル毎に正規化されるので、チャネル間の関係を利
用しにくいはずだが、なぜINと比較して高い性能が出ているの
か？
• ミニバッチがある程度大きければチャネル間の関係がある程度安定す
る？

Group normalization

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Ryutaro Yamauchi

More from Ryutaro Yamauchi (6)

Group normalization