[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Dynamical Isometry and a Mean Field Theory of CNNs:
How to Train 10,000-Layer Vanilla” (ICML2018)
Kensuke Wakasugi, Panasonic Corporation.

書誌情報
タイトル：
Dynamical Isometry and a Mean Field Theory of CNNs:
How to Train 10,000-Layer Vanilla Convolutional Neural Networks
(ICML2018, Oral)
著者：
Lechao Xiao, Yasaman Bahri, Jascha Sohl-Dickstein,
Samuel S. Schoenholz, Jeffrey Pennington
所属：
Google Brain, Work done as part of the Google AI Residency program
2
ICML(2018)： https://icml.cc/Conferences/2018/Schedule?showEvent=2730
Arxiv：https://arxiv.org/abs/1806.05393
Wakasugi, Panasonic Corp.

概要 3
• 10000層のCNNの学習を可能にした．
skip connectionやBM，学習率減衰などを使わずに．
• 平均場理論を用いて，第∞層の共分散を導出．
• 重みの初期分散に応じて無限極限での消失or発散が決まる
→適切な重みを設定することで，深いNNが学習可能
10000層のCNNの学習が可能に
[Xiao et al., 2018]

背景 4
性能向上のために深いNNを学習したい
高い
表現能力
学習可能
高い
汎化性能
• deep neural
network
• 学習率の設計
• Skip Connection
• Batch
Normalization
• flat
minima
この論文はここに着目
深いNNを如何にして学習させるか？

関連研究
• Poole et al. (NIPS2016)
→深層ネットの表現能力の推定
https://papers.nips.cc/paper/6322-exponential-expressivity-in-deep-neural-networks-
through-transient-chaos
• Schoenholz et al. (ICLR2017)
→ランダムネットワークにおける層の深さの限界を推定
https://openreview.net/forum?id=H1W1UN9gg
• Pennington et al. (NISP2017)
→深層学習における等長性について理論解析
http://papers.nips.cc/paper/7064-resurrecting-the-sigmoid-in-deep-learning-through-
dynamical-isometry-theory-and-practice
5

この後の流れ
• 理論解析
データの相関が第L層まで伝達するかを推定
第∞層まで伝達する初期パラメータを導出
• 実験
上記初期パラメータで学習を実施．
早く安定な学習を実現．
10000層のCNNで学習．
6

CNNのForward Propagation 7
preactivation（h）の漸化式 → 共分散の漸化式
ℎ𝑙
ℎ𝑙+1
𝑤 𝑙+1
𝛼
𝛽
𝑖
𝑗
𝑖
𝛼
𝑗
𝑏は省略

preactivation（h）の漸化式 → 共分散の漸化式
ここで𝜔~𝑁 0, 𝜎 𝜔/𝑐(2𝑘 + 1) , 𝑏~𝑁(0, 𝜎 𝑏)とおいて，中心極限定理を適用
→ℎ𝑗
𝑙+1
(𝛼)が平均0のガウス分布に従うので，分散共分散に着目
∑ 𝛼,𝛼′
𝑙+1
= 𝐸[ℎ𝑗
𝑙+1
𝛼 ℎ𝑗
𝑙+1
𝛼′ ]とおくと

略記すると以下のようになる

第𝑙層の共分散とその収束点 10
収束した場合を考えると下記のようになる．
対角成分と非対角成分に分かれる→実質的に𝑞∗と𝑐∗の２つの変数で議論できる
共分散の漸化式 → 共分散の収束点を導出
𝑞∗と𝑐∗は初期分散𝜎 𝜔，𝜎 𝑏の関数となるので，𝜎 𝜔，𝜎 𝑏の値に応じて収束点が
決まる
𝑞∗と𝑐∗の収束点，安定性および収束までに必要な層数を推定できる

安定性解析 11
収束点の安定性を評価
𝜖 𝑙 = ∑∗
-∑𝑙
とおいて，誤差の伝播を計算する
要素毎にテイラー展開して∑∗
まわりの摂動を関数の外に出す
※𝜒 𝑞∗ ，𝜒 𝑐∗ は初期分散𝜎 𝜔，𝜎 𝑏から求める

安定性解析 12
𝑙0~𝑙までCNNを演算すると
第𝑙層までの摂動の伝播を計算

フーリエ変換によるCNN演算の代替 13
フーリエ変換をすると
この後の解析のメインとなる式．基本的な解釈は𝜆, 𝜒 ≠ 1 のとき発散or消失
フーリエ変換し，第𝑙層における摂動を導出
※ 𝜆 𝛼,𝛼′は畳み込み領域を表す関数のフーリエ変換後の値．最大値は1.
→矩形派のフーリエ変換のようなイメージ

摂動の伝達の深さを推定 14
非対角項に着目し，摂動の減衰の程度を推定
ただし，𝜉 𝛼,𝛼′ = −1/log(𝜆 𝛼,𝛼′ 𝜒 𝑐∗ )
よって𝜆 𝛼,𝛼′ 𝜒 𝑐∗ → 1で減衰の程度が発散
※𝜒 𝑞∗ ，𝜒 𝑐∗ は初期分散𝜎 𝜔，𝜎 𝑏から求める
※ 𝜆 𝛼,𝛼′は畳み込み領域を表す関数のフーリエ変換後の値．最大値は1.
→矩形派のフーリエ変換のようなイメージ

Back Propagationの理論解析 15
Back Propagationについても同様の議論が可能
第𝑙層の微分の計算
微分の漸化式
共分散の漸化式
→ 𝜒 = 1が勾配消失/発
散しない条件

学習高速化 16
ヤコビアン𝐽に等長性を持たせる初期化
𝑊の初期値を上記アルゴで生成． 𝑊を直交にする
#tensroflowに実装されている Wakasugi, Panasonic Corp.

空間相関の維持 17
フィルターのフーリエ変換後の値が全て1になるように初期化
フィルターの中心のみ値を持つ（=δ関数）
#tensroflowに実装されている

この後の流れ
• 理論解析
データの相関が第L層まで伝達するかを推定
第∞層まで伝達する初期パラメータを導出
• 実験
上記初期パラメータで学習を実施．
早く安定な学習を実現．
10000層のCNNで学習．
18

学習可能性の実験的検証 19
• MNISTについて，
重さの初期分散(横軸)と層数(縦軸0-600)を変えて学習．
• 予測性能をヒートマップに(赤：良い，黒：悪い)
• step=500，2500，10000，100000回の４つを表示
理論と実験の整合性を確認
理論と実験の整合性が見て取れる．
特に，相関長が発散(=第∞層まで学習)する性質も一致
[Xiao et al., 2018]

対角初期化による学習の高速化 20
[Xiao et al., 2018]
• MNISTについて，4000層のCNNを学習
対角初期化(赤)とガウス初期化(青)．
ガウス初期化に比べ高速に学習＠4000層
ガウス初期化に比べ優位に早くなっている

空間相関 21
[Xiao et al., 2018]
• Cifar10について，2^8~2^13層のCNNを学習
点線(テスト)，実線(訓練)
• 層を深くするほど，テストの性能が減少
特に，FCの性能に漸近する．
空間相関のあるデータでは深くなるほど性能が劣化
理論解析から，空間相関が重要な場合は
層を深くすると性能低下すると示唆されており，
実際に確認された

Delta-Orthogonal initialization 22
[Xiao et al., 2018]
• δ関数によるフィルターから一様フィルタまでの5種類を検証
• 一様フィルターに近づくほど，深層で性能が低下
𝜆 𝛼,𝛼′が全て1となる初期化により空間相関の低減を抑制
Delta-Orthogonal initializationによって，空間相関を保ったまま深層ネットでの学習が可能

10000層の学習 23
[Xiao et al., 2018]
• MNIST(上図)，Cifar10(下図)について，1250~10000層の
CNNを学習．点線(テスト)，実線(訓練)
• 必要Step数がほぼ変わらない．
10000層でも学習可能．必要Step数は1250層の場合と変わらない
10000層(or more)でも学習ができるようになった
深いNNでも学習可能 → 次の課題は汎化性能向上

Discussion
• 深いNNでも学習可能 → 学習可能性の課題はほぼ解決
• 深さ以外の汎化性能向上要因の究明に研究の主軸が移る
• Skip ConnectionsやBatch Normalizationは学習可能性向上以外の役割を果
たしているのではないか(define a good model class)．
24

まとめ
• CNNにおける学習可能性についての理論解析を実施
• 第∞層でも学習可能な重さの初期化方法を提案
• 10000層CNNが学習可能なことを実験的に検証
• 深さ以外の汎化性能向上要因の究明が必要．
25
ご清聴ありがとうございました．

[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"

Similar to [DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks" (12)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks"