SlideShare a Scribd company logo
A Bayesian Perspective on
Generalization and Stochastic
Gradient Descent
arXivTimes勉強会
山内隆太郎
本日紹介する論文
• A Bayesian Perspective on Generalization and Stochastic
Gradient Descent
• Samuel L. Smith, Quoc V. Le
• https://arxiv.org/abs/1710.06451
本論文のテーマ
• 以下の二つの疑問をベイジアンの観点から考察する
1. 学習におけるminimaが評価セットに汎化していることをどうすれば
予測できるか?
2. なぜSGDの汎化性能は高いのか?
背景
• Zhang et al. (2016)
• DNNはランダムにラベル付けされたデータを丸暗記できる
• ランダムデータを過学習可能なモデルが正しいデータでは汎化すると
いう事実は、モデルの複雑さを評価する従来の汎化理論では説明でき
ない
• 正しいデータにはランダムデータにはない“自然さ”がある?
汎化についての経験則
• broad minima > sharp minima
• 曲率の小さいminima(broad minima)は大きいminima(sharp minima)
より汎化する。[Chaudhari et al. (2016)]
• ランダムデータから得られた解はヘッセ行列の最大固有値が大きい。
[Krueger et al. (2017)]
• しかしパラメタの取り方を変えれば汎化性能の高いsharp minimaも作
れる。[Dinh et al. (2017)]
Contributions
1. Zhangの結果はDeep Learningに特有ではなく、より小さな
線形モデルでも観察できる。
この現象は“ベイズ証拠”を評価することで説明できる。
2. SGDが汎化するのはノイズによる。このノイズの
大きさは𝑔 ≈
𝜖𝑁
𝐵
に 従う。ノイズの大きさには最適値が存在し、
したがって最適なバッチサイズは学習率𝜖および学習データサ
イズ𝑁に比例する。
論文の流れ
1. ベイズ証拠の紹介
• モデルパラメタで周辺化したデータの尤度
𝑃 𝑦 𝑥 ; 𝑀 = ∫ 𝑑𝑤 𝑃 𝑦 𝑤, 𝑥 ; 𝑀) 𝑃(𝑤; 𝑀)
• 学習データが事前分布をどれだけ更新しなくてはならないかを意味す
る(ベイズ証拠が大きいほど少ない更新で済む)
2. 線形モデルでベイズ証拠を観察し、汎化性能と関係している
ことを示す。
• 学習セットだけで汎化性能を予測できる!
3. SGDとノイズスケーリング則
ベイズモデル比較
• L2正則化付き交差エントロピー最小化は、ガウス分布を事前分布と
したベイズ推定として解釈できる。
𝑃 𝑤 𝑦 , 𝑥 ; 𝑀) =
𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
𝑃 𝑦 𝑥 ; 𝑀
∝ 𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
ここで
𝑃 𝑦 𝑤, 𝑥 ; 𝑀 =
𝑖
𝑃 𝑦𝑖 𝑤, 𝑥𝑖; 𝑀 = 𝑒−𝐻(𝑤;𝑀)
𝑃 𝑤; 𝑀 =
𝜆
2𝜋
𝑒−
𝜆𝑤2
2
に注意すると、
※ただし𝐻(𝑤; 𝑀) = − 𝑖 ln(𝑃(𝑦𝑖|𝑤, 𝑥𝑖; 𝑀))
ベイズモデル比較(2)
𝑃 𝑤 𝑦 , 𝑥 ; 𝑀) ∝ 𝑃 𝑦 𝑤, 𝑥 ; 𝑀 𝑃 𝑤; 𝑀
=
𝜆
2𝜋
𝑒
− 𝐻 𝑤;𝑀 +𝜆
𝑤2
2
𝐶 𝑤; 𝑀 = 𝐻 𝑤; 𝑀 + 𝜆
𝑤2
2
はL2正則化付き交差エントロピー最小化のコ
スト関数
よって𝐶 𝑤; 𝑀 を最小化する𝑤0は𝑃 𝑤 𝑦 , 𝑥 ; 𝑀)を最大化する。
ベイズ推定の場合、予測の際には
𝑃 𝑦𝑡 𝑥𝑡, 𝑥 , 𝑦 ; 𝑀 = ∫ 𝑑𝑤 𝑃 𝑦𝑡 𝑤, 𝑥𝑡; 𝑀) 𝑃(𝑤| 𝑦 , 𝑥 ; 𝑀)
を解く必要があるが、この積分は𝑤0周りが支配的だと考えられるので、
𝑃 𝑦𝑡 𝑥𝑡; 𝑀 ≈ 𝑃 𝑦𝑡 𝑤0, 𝑥𝑡; 𝑀 と近似する。
ベイズモデル比較(3)
• ベイズモデル比較:モデル𝑀1と𝑀2の尤もらしさを比較
𝑃 𝑀1 𝑦 , 𝑥
𝑃 𝑀2 𝑦 , 𝑥
=
𝑃 𝑦 𝑥 ; 𝑀1
𝑃 𝑦 𝑥 ; 𝑀2
𝑃 𝑀1
𝑃(𝑀2)
• §3ではランダムな出力を返すモデルとのベイズモデル比較を
行う
• 本論文ではprior ratio=1と仮定
evidence ratio prior ratio
ベイズモデル比較(4)
𝑃 𝑦 𝑥 ; 𝑀 = 𝑑𝑤 𝑃 𝑦 𝑤, 𝑥 ; 𝑀) 𝑃(𝑤; 𝑀)
=
𝜆
2𝜋
∫ 𝑑𝑤 𝑒−𝐶(𝑤;𝑀)
この積分も𝑤0が支配的だと考えられるので、
𝐶 𝑤; 𝑀 ≈ 𝐶 𝑤0 +
1
2
𝐶′′
𝑤0 𝑤 − 𝑤0
2
とテーラー展開すると(𝐶’ 𝑤0 ≈ 0に注意)
𝑃 𝑦 𝑥 ; 𝑀 ≈ exp − 𝐶 𝑤0 +
1
2
ln
𝐶′′
𝑤0
𝜆
と近似できる。
これは𝐶(𝑤0)および𝑤0における𝐶(𝑤)の曲率が小さい(broad minima)ときベ
イズ証拠が大きくなることを意味する。
ベイズモデル比較(5)
• これまでモデルが一変数の場合を考えてきたが、これを多変数
に拡張すると
𝑃 𝑦 𝑥 ; 𝑀 =
𝜆
𝑃
2
∇2 𝐶 𝑤0 𝑤0
1
2
𝑒−𝐶 𝑤0
≈ exp − 𝐶 𝑤0 +
1
2 𝑖=1
𝑃
ln(
𝜆 𝑖
𝜆
)
𝑃はモデルのパラメタ数
𝜆𝑖は∇2
𝐶(𝑤0)の固有値
• Occam factorはパラメタの摂動に対する安定性を意味する
• パラメタの取り方を変えて曲率を変えてもOccam factorは一定
Occam factor
実験
• 線形モデルでベイズ証拠を計算する
モデル:200weights and 1 bias
Regularization Coefficient(λ)を変化させながらベイズ証拠と精度の
関係を見る
• データセット
𝑥 :正規分布からサンプリングされた200次元のベクトル
𝑦 : 𝑦𝑖 =
1 𝑥𝑖 > 0
0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
学習セット:200 examples
評価セット:10000 examples
実験(2)
• ランダム出力を返すモデル𝑃 𝑦 𝑥 ; 𝑁𝑈𝐿𝐿 =
1
𝑛
𝑁
= 𝑒−𝑁𝑙𝑛(𝑛)
とベイズ証拠を比較
𝑃 𝑦 𝑥 ; 𝑀
𝑃 𝑦 𝑥 ; 𝑁𝑈𝐿𝐿
= 𝑒−𝐸(𝑤0)
ただし𝐸 𝑤0 = 𝐶 𝑤0 +
1
2
𝑖=1
𝑃
ln(
𝜆𝑖
𝜆
) − 𝑁𝑙𝑛(𝑛)
• 𝐸 𝑤0 <0のときランダムよりマシ
実験結果
• 線形モデルでZhangの再現ができた
(a):ランダムラベル、(b):意味のあるラベル
実験結果(2)
• log evidence ratio 𝐸 𝑤0 をプロットすると評価精度と相関
実験結果(3)
• 学習データで計算したベイズ証拠が評価データにおける精度と
関係している(汎化性能を予測できている)
• コストを最小化するのではなく、ベイズ証拠を最大化するパラ
メタを探すべきである
SGDと汎化
• ベイズ証拠を最大化するためにベイズではノイズを加える
[Mandt et al., 2017; Welling & Teh, 2011]
• SGDでも同じことが起こっていると考えられる
• バッチサイズを大きくするとノイズが減るので汎化性能が下がる
SGDのスケーリング則
• 更新式より、SGDによって発生するノイズの大きさは以下の式
に従う(導出は論文参照)
𝑔 ≈
𝜖𝑁
𝐵
ただし𝜖:学習率、𝑁:学習セットサイズ、 𝐵:バッチサイズ
• Momentum SGDの場合は
𝑔 ≈
𝜖𝑁
𝐵(1 − 𝑚)
• したがって𝑔を変えないようにバッチサイズと学習率を調整す
れば精度は維持される
• 以上の関係が成り立っていることが実験より示される
実験
• 隠れ層800次元の浅いネットワークでMNISTを学習
線形モデルには避けるべきsharp minimaが存在しないため
• バッチサイズをさまざまに変化させ評価セットでのaccuracyを
比較する
• optimizerはMomentum SGD
学習率: 1.0
momentum: 0.9
実験結果(1)
• full batchとmini batchの比較
実験結果(2)
• さまざまなバッチサイズと精度の比較
(a):学習経過と精度, (b):10000steps後の精度
実験結果(3)
• さまざまな学習率におけるバッチサイズと精度の比較
最適なバッチサイズと学習率は比例する
実験結果(4)
• 学習セットのサイズに対するバッチサイズと精度の比較
最適なバッチサイズと学習セットサイズは比例する
まとめ
1. Zhangの結果はDeep Learningに特有ではなく、より小さな
線形モデルでも観察できる。
この現象はベイズ証拠を評価することで説明できる。
2. SGDが汎化するのはノイズによる。このノイズの
大きさは𝑔 ≈
𝜖𝑁
𝐵
に 従う。ノイズの大きさには最適値が存在し、
したがって最適なバッチサイズは学習率𝜖および学習データサ
イズ𝑁に比例する。
疑問・考察
• ベイズ証拠が大きいということは事前分布に対する学習データ
セットの影響が小さいことを意味する。これは結局、学習が汎
化するか否かは、データセットとモデルの相性の問題でしかな
いことを意味しているのではないか?
Deep Image Prior(https://arxiv.org/abs/1711.10925)によればCNN自
体が強力な事前知識になっている
• モデルとデータの相性が汎化性能のupper boundを規定し、
SGDはその中で性質の良い解を見つけることができる、という
構図?

More Related Content

Similar to [論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent

Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
Shinsaku Kono
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について
Shohei Miyashita
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 
Regression2
Regression2Regression2
Regression2
Yuta Tomomatsu
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Katsuya Ito
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
keiodig
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
daiki hojo
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
Yu Otsuka
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
ke beck
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
DeepCas
DeepCasDeepCas
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
matsuolab
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
sleepy_yoshi
 

Similar to [論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent (20)

Deep learningbook chap7
Deep learningbook chap7Deep learningbook chap7
Deep learningbook chap7
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
Regression2
Regression2Regression2
Regression2
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
ma92007id395
ma92007id395ma92007id395
ma92007id395
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
ma99992011id513
ma99992011id513ma99992011id513
ma99992011id513
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
[The Elements of Statistical Learning]Chapter18: High Dimensional Problems
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Prml11 4
Prml11 4Prml11 4
Prml11 4
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
DeepCas
DeepCasDeepCas
DeepCas
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 

More from Ryutaro Yamauchi

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
Ryutaro Yamauchi
 
Group normalization
Group normalizationGroup normalization
Group normalization
Ryutaro Yamauchi
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
Ryutaro Yamauchi
 
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicHybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
Ryutaro Yamauchi
 

More from Ryutaro Yamauchi (6)

SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
Group normalization
Group normalizationGroup normalization
Group normalization
 
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
[論文解説]Unsupervised monocular depth estimation with Left-Right Consistency
 
Hybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamicHybrid computing using a neural network with dynamic
Hybrid computing using a neural network with dynamic
 

[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent