Batch normalization effectiveness_20190206

BatchNormalization まとめ
2019/02/06

バッチ正規化が学習に効果的な理由の検証
Understanding Batch Normalization
なぜバッチ正規化（Batch Normalization）が学習に効果的なのか
を実証的なアプローチで検証した論文

論文まとめ
● 学習率について
バッチ正規化によって設定可能になる高い学習率は、SGDのノイズを増加させる
原因となるため、正則化の効果と精度が向上する。
● チャンネルの平均と分散
正規化なしでは、層が深くなるにつれてチャンネルの平均と分散が指数関数的に増加するが、
バッチ正規化によって一定に保つことが可能となる。
● 出力層・畳込み層の勾配
チャンネル・ユニットの値の平均値に偏りがある場合、出力層・畳み込み層の勾配の大きさが
入力依存ではなくなるが、バッチ正規化によって偏りが緩和され、勾配が
入力に高い依存性を持つようになる。

論文まとめ
● 出力の正規化
高い学習率を設定した場合、正規化なしでは学習が進むにつれて出力層側での誤差が発散す
るが、バッチ正規化によって各層の出力が正規化されるため、誤差が発散
しなくなる。
● 畳み込みの重みの更新量
正規化されていない場合、畳み込み層の重みの更新量は一貫して小さくなる場合
があるが、バッチ正規化によってその現象を抑えることが出来る。
＝更新量が一貫して小さくならず学習が進む
● 重みの初期化
重みの初期化は、各チャンネルの分散が一定であるべきという考えから設計されて
いるが、実際は層が深くなるにつれて分散が大きくなる。バッチ正規化はこの
重みの初期化の影響を緩和する。

論文まとめ：オリジナル論文との違い
Batch Normalizationの
オリジナルの論文の主張
バッチ正規化の効果は
「内部共変量シフトを緩和すること」である
この論文の主張「その効果が存在しないとは主張しないが、バッチ正
規化の効果はそれなしで説明できる」

参考：内部共変量シフト
内部共変量シフトとは、入力時のxの分布が、学習途中で大きく変わってくる
こと。
→　内部共変量シフトに対応するための学習に時間を取られてしまい、
　　本質的な学習開始が遅れてしまう
→　内部共変量シフトを抑えて、すぐに本質的な問題への学習が進むよう
　　にする必要がある

バッチ正則化とは
バッチ正規化とは、ニューラルネットワークの各層への入力を正規化する手法。
これによって、
● 高い学習率を設定可能になる
● 正則化がかかる
● 精度を向上させる
● 収束が早くなる
などの効果があります。
バッチ正規化では、正規化を行うために
バッチ内の要素（チャンネルやユニット）ごとに平均と標準偏差
を求めます。このとき要素とは、
・畳み込み層のときはチャンネル
・全結合層のときはユニットとなります。

畳み込み層の場合の平均と標準偏差の求め方
チャンネルごとにバッチ × x座標 × y座標の要素の平均と標準偏差を求める。
バッチ正規化では、
（正確には違いますがざっくりいうと）
各チャンネルの値を対応する
チャンネルの平均で引き、標準偏差で割
ることで、
正規化を行っている。

このとき、バッチ正規化の入力と出力はそれぞれ４次元テンソル
（バッチ、チャンネル、x座標、y座標）で表現することが出来ます。
ここで、チャンネルの次元を特徴次元、各座標の次元を空間次元と呼びます。
畳み込み層でのバッチ正規化を数式で表すと、以下のようになります。
● INPUT(b,c,x,y)：入力 (バッチ, チャンネル, x座標, y座標)
● OUTPUT(b,c,x,y)：出力 (バッチ, チャンネル, x座標, y座標)
● μc
：各チャンネルの平均値
● σc
：各チャンネルの標準偏差
● ε：0で割らないための補正項
● γc
,βc
：アフィン変換のパラメータ

このように、バッチ正規化とは
・入力から対応するチャンネルの平均値を引き
・標準偏差（0にならないための補正項付き）で割ることで正規化行い
・アフィン変換
を行ったもの。γc
とβc
は学習可能なパラメータです。

参考：アフィン変換
x を Ax+b に対応させるような変換のこと
アフィン写像ともいう。
→　アフィン変換は、一次変換に平行移動を加えたもの。
　　１次関数 y=ax+b　を一般化したもの
２次元のアフィン変換は「拡大・縮小」「回転」「平行移動」「せん断」
という４つの基本的なアフィン変換の合成で表すことができる。

バッチ正則化の利点
実際に性能にどの程度効果があるのか
実験には、オリジナルResNetの論文の110層のResNetと同じものを使用。
・バッチ正規化をかけたネットワークの学習率を変えたものと、
・バッチ正規化をかけていないネットワーク
の学習結果比較。
(バッチ正規化なしの場合は学習率を下げなくてはいけないため、0.0001となっている。)

● bn-orig-lr：学習率 0.1, バッチ正規化あり
● bn-med-lr：学習率 0.003, バッチ正規化あり
● bn-small-lr：学習率 0.0001, バッチ正規化あり
● unnorm：学習率 0.0001, バッチ正規化なし

● 正規化されていないネットワークの精度
正規化されているネットワークの精度と比較して精度が大きく下がる。
● 学習率が低い正規化されたネットワーク
訓練とテストの精度の差が大きいため、学習率が高いほど
正則化の効果がある。

学習率と正則化
これらの結果を説明するために、SGDの単純なモデルを考える。
αを学習率、Bをミニバッチ、
fi
(x)：i番目のデータに対する誤差
誤差関数
をデータセットの全てのデータに対する誤差の平均とする。
このとき、SGDの推定する勾配の式を、次式のように２つに分割する
ことが出来ます。

最後の式の右辺の第１項は全データに対する勾配
第２項はSGDがミニバッチとしてランダムにデータを選択することにより
発生するノイズ項。
データは一様にサンプルされるため、ノイズ項の期待値はE[第二項]=0
→誤差にバイアスはかからないが、通常はノイズが発生する。
↓これは、x=y+(x−y)の変形と似たような変形。

ノイズ量の定義：
→ SGDによって与えられる勾配推定値のノイズを以下のように表現可能
この式は、「バッチサイズと学習率がSGDのノイズ量を調節する」ことを示す。

勾配と活性化の大きさ
バッチ正規化の利点は、「高い学習率を可能にすることによって発生する」
ことが判明。
ここでは、バッチ正規化が「なぜ高い学習率によって発生する大きな更新量での学習を
可能にするか」を検証。
次図は、正規化されたネットワークの勾配と正規化されていない
ネットワークの勾配を示す。

勾配と活性化の大きさ
左：正規化あり
右：正規化なし
　　　　　　　スケールが２桁異なる！
For the unnormalized network, the gradients are distributed with heavy tails,
whereas for the normalized networks the gradients are concentrated around
the mean. (Note that we have to use different scales for the two plots
because the gradients for the unnormalized network are almost two orders of
magnitude larger than for the normalized on.)

勾配と活性化の大きさ：チャンネルの平均・分散
・正規化されていないネットワークの勾配は、
正規化されたネットワークの勾配と比べて
約２桁大きく、長いテールで分散している。
これは、バッチ正規化によってチャンネルの平均と分散が正規化されることに
よる影響。
正規化されていないネットワークでは層が深くなるにつ入れて
平均と分散が指数関数的に増加している。
正規化されたネットワークでは層が深くなっても平均と分散が一定に保た
れている。

勾配と活性化の大きさ：チャンネルの平均・分散
層が深くなるにつれて
チャンネルの平均と分散が
どのように変化するか
y軸が対数スケールである
ことに注意。

勾配と活性化の大きさ：network divergence
ミニバッチの損失
オーダーが大きく
異なることにも注目。

勾配と活性化の大きさ：ヒートマップ
チャンネルの平均と分散
に関するヒートマップ
層が深いところでもBNあ
りだと小さいまま

勾配と活性化の大きさ：ヒートマップ
ネットワークの深さとともにチャンネルの平均値が増加することが分かった。
分類に対応する出力層では、平均の偏りは
ネットワークが予測するクラスが偏っていることを意味する。

出力層における各ユニットの勾配
x軸：各クラスに対応するユニット右：正規化あり
y軸：ミニバッチ内のデータの番号　左：正規化なし
ミニバッチ内のほぼ全てのデータに
ついて勾配がほぼ同じであり、勾配
が入力依存ではない。
比較的勾配の入力に
対する依存性が高い

畳込み層における勾配
正規化されていないネットワークの畳込み層の勾配が大きい理由を説明
することが出来る。
最初の２つの次元が入出力チャンネルに対応し、後の２つが空間次元
（x座標, y座標）に対応する畳み込み層の重み K(co
,ci
,i,j) を考える。
また、3×3の畳み込みを行うために、空間次元 S=−1,0,1×−1,0,1 を付与。
ここで、畳み込み処理を以下のように表現することが可能。

● 正規化されていないNN：勾配の和の絶対値は絶対値の和にほぼ等しい
● 正規化されたNN：和の絶対値と絶対値の和では102
のスケールの差がある
正規化なしなら、
勾配は空間次元内とバッチ内の両方で同じ符号を持ち、
入力依存でもなく空間次元にも依存しない
バッチ正規化によって勾配が約２桁小さくなる

勾配のスケールを超えるバッチ正規化
しかし、バッチ正規化によって
→　学習率を約４桁大きく出来る
　なので、バッチ正規化が大きな学習率の設定を可能にする理由を
　説明することは出来ていない。
正規化されていないネットワークでは、学習率を高く設定した場合、
最初の数回のミニバッチで誤差が爆発する。
発散の定義をミニバッチでの損失が103
を超えた場合
実験では、誤差がその範囲に達した場合に、ネットワークは一度も元通りにならない。

正規化されていないネットワーク
勾配の更新に伴うミニバッチの
誤差の遷移
図から分かること
勾配の更新が進むにつれて誤差が
発散する。

正規化されていないネットワークの勾配の更新によって、チャンネルの
平均と分散がどのように遷移するか
出力層側の層の平均と分散
が特に発散している

正規化されていないネットワークの勾配の更新によって、チャンネルの
平均と分散がどのように遷移するか
Layer 44
の平均、分散のスケールがそれぞ
れ1e9, 1e19であることに注意
バッチ正規化は、
各層の出力を正規化することで
出力の指数関数的な増加を阻害す
る

さらなる観測
45層目の各イン/アウトチャンネルに対応するパラメータの平均勾配の絶対値
正規化されていないネットワークでは
　一部のイン/アウトチャンネルは一貫して小さな勾配を持っており、パラメータの更新量が非常に小さい。
→バッチ正規化によって抑えることが出来ている。

重みの初期化の影響
先の図は、勾配や活性化のスケールに差があることを示している
NNの初期化手法は、ランダムに重みを設定した際に、
「チャンネルの分散が一定であるべき」
という考えから設計されている
最新の初期化手法の結果がどのようになるのか
の検証

特異値の分布はより多くの行列が掛け合わされるにつれて、
より長いテールを持つことが分かる。
→特異値の最大の値と最小の値の比が、層が深くなるにつれて増加する！

特異値の分布はより多くの行列が掛け合わされるにつれて、
より長いテールを持つことが分かる。
→特異値の最大の値と最小の値の比が、層が深くなるにつれて増加する！
これらの結果から、掛け合わせる行列数が増加することで
１）収束が遅くなる
２）小さい学習率が必要とされる
３）異なる部分空間内の勾配の比が増加
などの影響があることが考えられる。
→バッチ正規化は、このような重みの初期化の影響を緩和する

dropoutとの併用
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift
https://arxiv.org/abs/1801.05134
正則化の手法としてよく使われるDropoutとBatch Normalizationは、併用すると
パフォーマンスの悪化が起こることがあるが、その原因について検証した研究。
悪化の理由として、Dropoutを行うことで学習時と評価時で分散が変わってしまう一方、
Batch Normalizationは学習で得られた分散を評価時もキープしてしまうため齟齬が
生じることが原因と指摘された。

dropoutとの併用
Theoretically, we find that Dropout would shift the variance of a specific neural unit when we transfer the state of that
network from train to test. However, BN would maintain its statistical variance, which is accumulated from the entire learning
procedure, in the test phase. The inconsistency of that variance (we name this scheme as "variance shift") causes
the unstable numerical behavior in inference that leads to more erroneous predictions finally, when applying
Dropout before BN.
ドロップアウトによって特定のニューラルユニットの分散がシフトすることが
わかりました。
ただし、BNはテスト段階で学習手順全体から累積される統計的分散を維持します。
その分散の不一致（この方式を"分散シフト"と呼びます）は、BNの前に
ドロップアウトを適用するとき、推論において不安定な数値的振る舞いを
引き起こします。

dropoutとの併用
Batch normalizationの前にDropoutを置くとパフォーマンスが悪化する。
推奨解決策
Batch normalizationの後にDropoutを置く
という対応策があり、Dropoutを入れるならSoftmaxの直前に1層のDropoutを
入れることが推奨されている。

参考文献
Batch Normalization: Accelerating Deep Network Training by Reducing Internal
Covariate Shift
https://arxiv.org/pdf/1502.03167.pdf
Understanding Batch Normalization
Batch Normalizationが有効である理由
深層学習のいろんな教科書にも共変量シフトが抑えられるからだっていう説明があるけど、そうでは
なく、lossが安定するから。

参考文献
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift
https://arxiv.org/pdf/1801.05134.pdf

Batch normalization effectiveness_20190206

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Masakazu Shinoda

More from Masakazu Shinoda (9)

Batch normalization effectiveness_20190206