A Bayesian Perspective on
Generalization and Stochastic
Gradient Descent
arXivTimes勉強会
山内隆太郎
本日紹介する論文
• A Bayesian Perspective on Generalization and Stochastic
Gradient Descent
• Samuel L. Smith, Quoc V. Le
• https://arxiv.org/abs/1710.06451
本論文のテーマ
• 以下の二つの疑問をベイジアンの観点から考察する
1. 学習におけるminimaが評価セットに汎化していることをどうすれば
予測できるか?
2. なぜSGDの汎化性能は高いのか?
背景
• Zhang et al. (2016)
• DNNはランダムにラベル付けされたデータを丸暗記できる
• ランダムデータを過学習可能なモデルが正しいデータでは汎化すると
いう事実は、モデルの複雑さを評価する従来の汎化理論では説明でき
ない
• 正しいデータにはランダムデータにはない“自然さ”がある?
汎化についての経験則
• broad minima > sharp minima
• 曲率の小さいminima(broad minima)は大きいminima(sharp minima)
より汎化する。[Chaudhari et al. (2016)]
• ランダムデータから得られた解はヘッセ行列の最大固有値が大きい。
[Krueger et al. (2017)]
• しかしパラメタの取り方を変えれば汎化性能の高いsharp minimaも作
れる。[Dinh et al. (2017)]
Contributions
1. Zhangの結果はDeep Learningに特有ではなく、より小さな
線形モデルでも観察できる。
この現象は“ベイズ証拠”を評価することで説明できる。
2. SGDが汎化するのはノイズによる。このノイズの
大きさは𝑔 ≈
𝜖𝑁
𝐵
に 従う。ノイズの大きさには最適値が存在し、
したがって最適なバッチサイズは学習率𝜖および学習データサ
イズ𝑁に比例する。
論文の流れ
1. ベイズ証拠の紹介
• モデルパラメタで周辺化したデータの尤度
𝑃 𝑦 𝑥 ; 𝑀 = ∫ 𝑑𝑤 𝑃 𝑦 𝑤, 𝑥 ; 𝑀) 𝑃(𝑤; 𝑀)
• 学習データが事前分布をどれだけ更新しなくてはならないかを意味す
る(ベイズ証拠が大きいほど少ない更新で済む)
2. 線形モデルでベイズ証拠を観察し、汎化性能と関係している
ことを示す。
• 学習セットだけで汎化性能を予測できる!
3. SGDとノイズスケーリング則
ベイズモデル比較
• L2正則化付き交差エントロピー最小化は、ガウス分布を事前分布と
したベイズ推定として解釈できる。
𝑃 𝑤 𝑦 , 𝑥 ; 𝑀) =
𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
𝑃 𝑦 𝑥 ; 𝑀
∝ 𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
ここで
𝑃 𝑦 𝑤, 𝑥 ; 𝑀 =
𝑖
𝑃 𝑦𝑖 𝑤, 𝑥𝑖; 𝑀 = 𝑒−𝐻(𝑤;𝑀)
𝑃 𝑤; 𝑀 =
𝜆
2𝜋
𝑒−
𝜆𝑤2
2
に注意すると、
※ただし𝐻(𝑤; 𝑀) = − 𝑖 ln(𝑃(𝑦𝑖|𝑤, 𝑥𝑖; 𝑀))
ベイズモデル比較(2)
𝑃 𝑤 𝑦 , 𝑥 ; 𝑀) ∝ 𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
=
𝜆
2𝜋
𝑒
− 𝐻 𝑤;𝑀 +𝜆
𝑤2
2
𝐶 𝑤; 𝑀 = 𝐻 𝑤; 𝑀 + 𝜆
𝑤2
2
はL2正則化付き交差エントロピー最小化のコ
スト関数
よって𝐶 𝑤; 𝑀 を最小化する𝑤0は𝑃 𝑤 𝑦 , 𝑥 ; 𝑀)を最大化する。
ベイズ推定の場合、予測の際には
𝑃 𝑦𝑡 𝑥𝑡, 𝑥 , 𝑦 ; 𝑀 = ∫ 𝑑𝑤 𝑃 𝑦𝑡 𝑤, 𝑥𝑡; 𝑀) 𝑃(𝑤| 𝑦 , 𝑥 ; 𝑀)
を解く必要があるが、この積分は𝑤0周りが支配的だと考えられるので、
𝑃 𝑦𝑡 𝑥𝑡; 𝑀 ≈ 𝑃 𝑦𝑡 𝑤0, 𝑥𝑡; 𝑀 と近似する。
ベイズモデル比較(3)
• ベイズモデル比較:モデル𝑀1と𝑀2の尤もらしさを比較
𝑃 𝑀1 𝑦 , 𝑥
𝑃 𝑀2 𝑦 , 𝑥
=
𝑃 𝑦 𝑥 ; 𝑀1
𝑃 𝑦 𝑥 ; 𝑀2
𝑃 𝑀1
𝑃(𝑀2)
• §3ではランダムな出力を返すモデルとのベイズモデル比較を
行う
• 本論文ではprior ratio=1と仮定
evidence ratio prior ratio
ベイズモデル比較(4)
𝑃 𝑦 𝑥 ; 𝑀 = 𝑑𝑤 𝑃 𝑦 𝑤, 𝑥 ; 𝑀) 𝑃(𝑤; 𝑀)
=
𝜆
2𝜋
∫ 𝑑𝑤 𝑒−𝐶(𝑤;𝑀)
この積分も𝑤0が支配的だと考えられるので、
𝐶 𝑤; 𝑀 ≈ 𝐶 𝑤0 +
1
2
𝐶′′
𝑤0 𝑤 − 𝑤0
2
とテーラー展開すると(𝐶’ 𝑤0 ≈ 0に注意)
𝑃 𝑦 𝑥 ; 𝑀 ≈ exp − 𝐶 𝑤0 +
1
2
ln
𝐶′′
𝑤0
𝜆
と近似できる。
これは𝐶(𝑤0)および𝑤0における𝐶(𝑤)の曲率が小さい(broad minima)ときベ
イズ証拠が大きくなることを意味する。
ベイズモデル比較(5)
• これまでモデルが一変数の場合を考えてきたが、これを多変数
に拡張すると
𝑃 𝑦 𝑥 ; 𝑀 =
𝜆
𝑃
2
∇2 𝐶 𝑤0 𝑤0
1
2
𝑒−𝐶 𝑤0
≈ exp − 𝐶 𝑤0 +
1
2 𝑖=1
𝑃
ln(
𝜆 𝑖
𝜆
)
𝑃はモデルのパラメタ数
𝜆𝑖は∇2
𝐶(𝑤0)の固有値
• Occam factorはパラメタの摂動に対する安定性を意味する
• パラメタの取り方を変えて曲率を変えてもOccam factorは一定
Occam factor
実験
• 線形モデルでベイズ証拠を計算する
モデル:200weights and 1 bias
Regularization Coefficient(λ)を変化させながらベイズ証拠と精度の
関係を見る
• データセット
𝑥 :正規分布からサンプリングされた200次元のベクトル
𝑦 : 𝑦𝑖 =
1 𝑥𝑖 > 0
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
学習セット:200 examples
評価セット:10000 examples
実験(2)
• ランダム出力を返すモデル𝑃 𝑦 𝑥 ; 𝑁𝑈𝐿𝐿 =
1
𝑛
𝑁
= 𝑒−𝑁𝑙𝑛(𝑛)
とベイズ証拠を比較
𝑃 𝑦 𝑥 ; 𝑀
𝑃 𝑦 𝑥 ; 𝑁𝑈𝐿𝐿
= 𝑒−𝐸(𝑤0)
ただし𝐸 𝑤0 = 𝐶 𝑤0 +
1
2
𝑖=1
𝑃
ln(
𝜆𝑖
𝜆
) − 𝑁𝑙𝑛(𝑛)
• 𝐸 𝑤0 <0のときランダムよりマシ
実験結果
• 線形モデルでZhangの再現ができた
(a):ランダムラベル、(b):意味のあるラベル
実験結果(2)
• log evidence ratio 𝐸 𝑤0 をプロットすると評価精度と相関
実験結果(3)
• 学習データで計算したベイズ証拠が評価データにおける精度と
関係している(汎化性能を予測できている)
• コストを最小化するのではなく、ベイズ証拠を最大化するパラ
メタを探すべきである
SGDと汎化
• ベイズ証拠を最大化するためにベイズではノイズを加える
[Mandt et al., 2017; Welling & Teh, 2011]
• SGDでも同じことが起こっていると考えられる
• バッチサイズを大きくするとノイズが減るので汎化性能が下がる
SGDのスケーリング則
• 更新式より、SGDによって発生するノイズの大きさは以下の式
に従う(導出は論文参照)
𝑔 ≈
𝜖𝑁
𝐵
ただし𝜖:学習率、𝑁:学習セットサイズ、 𝐵:バッチサイズ
• Momentum SGDの場合は
𝑔 ≈
𝜖𝑁
𝐵(1 − 𝑚)
• したがって𝑔を変えないようにバッチサイズと学習率を調整す
れば精度は維持される
• 以上の関係が成り立っていることが実験より示される
実験
• 隠れ層800次元の浅いネットワークでMNISTを学習
線形モデルには避けるべきsharp minimaが存在しないため
• バッチサイズをさまざまに変化させ評価セットでのaccuracyを
比較する
• optimizerはMomentum SGD
学習率: 1.0
momentum: 0.9
実験結果(1)
• full batchとmini batchの比較
実験結果(2)
• さまざまなバッチサイズと精度の比較
(a):学習経過と精度, (b):10000steps後の精度
実験結果(3)
• さまざまな学習率におけるバッチサイズと精度の比較
最適なバッチサイズと学習率は比例する
実験結果(4)
• 学習セットのサイズに対するバッチサイズと精度の比較
最適なバッチサイズと学習セットサイズは比例する
まとめ
1. Zhangの結果はDeep Learningに特有ではなく、より小さな
線形モデルでも観察できる。
この現象はベイズ証拠を評価することで説明できる。
2. SGDが汎化するのはノイズによる。このノイズの
大きさは𝑔 ≈
𝜖𝑁
𝐵
に 従う。ノイズの大きさには最適値が存在し、
したがって最適なバッチサイズは学習率𝜖および学習データサ
イズ𝑁に比例する。
疑問・考察
• ベイズ証拠が大きいということは事前分布に対する学習データ
セットの影響が小さいことを意味する。これは結局、学習が汎
化するか否かは、データセットとモデルの相性の問題でしかな
いことを意味しているのではないか?
Deep Image Prior(https://arxiv.org/abs/1711.10925)によればCNN自
体が強力な事前知識になっている
• モデルとデータの相性が汎化性能のupper boundを規定し、
SGDはその中で性質の良い解を見つけることができる、という
構図?

[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent