Bayesian Uncertainty Estimation for
Batch Normalized Deep Networks
Mattias Teye, Hossein Azizpour and Kevin Smith
北海道大学大学院情報科学研究科
調和系工学研究室
修士2年 吉田
2019年5月29日 論文紹介ゼミ
紹介する論文
• タイトル
– Bayesian Uncertainty Estimation for Batch Normalized Deep
Networks
• 著者
– Mattias Teye1,2, Hossein Azizpour1 and Kevin Smith1,3
• 1) School of Electrical Engineering and Computer Science, KTH
Royal Institute of Technology, Stockholm, Sweden
• 2) Electronic Arts, SEED, Stockholm, Sweden
• 3) Science for Life Laboratory
• 学会
– ICML2018
– http://proceedings.mlr.press/v80/teye18a.html
1
論文概要
• バッチ正規化(BN)を用いてニューラルネットを訓練するこ
とはベイズモデルにおける近似推論と等価であると示す
• MCBN(提案手法)によりモデルの不確実性を推定するこ
とが可能であると実証
– BNを用いているモデルであれば適用可能、再学習不要
2
背景
• 一般的な深層学習はモデルの不確実性の説明が不十分
– 点推定のみ
• 不確実性をモデル化
– ベイジアンニューラルネットワーク
• 深層学習との競争に苦労してる
– MCDO(ドロップアウトを適用したモデルはベイズ)
• https://arxiv.org/abs/1506.02142
• みんながドロップアウトを利用してる訳ではない
• バッチ正規化の方がよく使われている
3
バッチ正規化
• ミニバッチ内で入力分布を正規分布に変換する
• 学習で使用される平均分散はランダムに選択されたミニ
バッチに依存する
– これに注目し、バッチ正規化を用いたニューラルネットによる
不確実性の推定手法(MCBN)を提案
• Monte Carlo Batch Normalization (MCBN)
4
ベイズモデル
• ベイズモデルではパラメータの事後分布𝑝(𝜔|𝐃)を推定
• 変分近似(Variational Approximation)
– ベイズモデルでの一般的なアプローチ
– 𝑞 𝜃(𝜔)によって𝑝(𝜔|𝐃)を近似
• KLダイバージェンスを最小化
– 目的関数
5
ニューラルの最適化
• 目的関数
6
確率的なパラメータ
ニューラルの学習する
パラメータ
𝜔𝑖:ミニバッチの平均分散
Ω(𝜃):正則化項
ニューラルネットとベイズ
• ベイズモデル
• ニューラルネット
• 式1と式2の最適化が等価と見なせるらしい
–
𝜕
𝜕𝜃
𝐾𝐿(𝑞 𝜃(𝜔)||𝑝 𝜔 ) = 𝑁𝜏
𝜕
𝜕𝜃
Ω(𝜃)
7
8
MCBN(提案手法)による不確実性の推定
9
MCBN(提案手法)による不確実性の推定
バッチ正規化に使用する平均分散を
訓練データ群からサンプリング
10
MCBN(提案手法)による不確実性の推定
T回のサンプリングの結果から
モデル出力の分布を得る
(実験ではT=500)
実験1(回帰)
• データセット
– 回帰(8種のデータセット)
11
N:データセットサイズ
Q:特徴数
実験1(回帰)
• 定量的評価指標
– PLL(Predictive Log Likelihood)
– CRPS(Continuous Ranked Probability Score)
– 生のPLL,CRPSから不確実性の質を解釈するのは困難
12
𝐹(𝑦):累積分布関数(CDF)
上限と下限を設定し、正規化することを提案
実験1(回帰)
• 定量的評価指標(正規化)
– 下限
• 入力に関わらず一定の分散を予測するベースラインを定義
• 分散として検証データでCRPSを最適化する固定値を設定
• Constant Uncertainty BN (CUBN)と呼ぶ
– 上限
• 各観測点(𝑦𝑖, 𝑥𝑖)でPPLを最大化(CRPSを最小化)する分散𝑇𝑖を予測する
モデルを定義
– 正規化
13
実験1(回帰)
• 比較
– MCBN(提案手法)
– MCDO
– MNF
• Multiple Normalizing Flows for variational Bayesian networks
• http://proceedings.mlr.press/v70/louizos17a.html
• 新しい可視化手法の提案
– 後述
14
実験1(回帰)
• 結果
– *:t検定によって下限を超えているかを検定
15
MCBNは既存手法と同等の性能を示している
実験1(回帰)
• 結果
– *:t検定によって下限を超えているかを検定
16
各スコアが低い?
• 上限の達成は非常に困難(各サンプルで最適化)
• 下限も非常に合理的な見積もり
実験1(回帰)
• 予測誤差(RMSE)の比較
– BN:通常のバッチ正規化
– DO:通常のドロップアウト
17
通常のモノよりわずかに精度が良くなっている
実験1(回帰)
• 不確実性の質の可視化
18
不確かさの推定が良い
予測誤差の移動平均(灰線)
と不確実性(影部分)に相関
があるはず
予測誤差が大きい(小さい)
サンプルを認識できる
実験1(回帰)
• 不確実性の質の可視化
19
実験2(画像分類)
• データセット
– CIFAR10
• モデル
– ResNet32
• ベースライン
– 普通のBNのソフトマックス出力
• 評価指標
– PLL(Predictive Log Likelihood)
20
実験2(画像分類)
• 結果
– ベースライン(-0.32)
– サンプリングの回数の違い
• サンプリング回数が増えることでPPLも改善
21
実験3(image segmentation)
• Bayesian SegNet(既存モデル)に適用
– https://arxiv.org/pdf/1511.02680.pdf
– もともとはMCDOを用いている
• 異なるミニバッチをもとに複数回順伝搬させただけ
22
Bayesian SegNet
実験3(image segmentation)
• 結果
– 上段:元画像
– 中段:セグメンテーションの推定
– 下段:不確実性の推定
– 最小限の労力で
不確実性を取得可能(下段)
• 境界は不確実
– 右のほうがいい感じなのは
バッチサイズの違い
• 大きい方が良い
23
まとめ
• MCBNを提案
– 不確実性の推定値とモデルの予測誤差に相関があることを示した
– 既存のモデル(MCDO, MNF)と同等の性能を示した
– 既存のモデルに適用可能(再学習不要)
• 不確実性の評価法の提案
– 正規化したCRPS, PLL
– 不確実性の質について可視化方法
• 実装(実験)
– https://github.com/icml-mcbn/mcbn
24

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks