Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

Bayesian Uncertainty Estimation for
Batch Normalized Deep Networks
Mattias Teye, Hossein Azizpour and Kevin Smith
北海道大学大学院情報科学研究科
調和系工学研究室
修士2年吉田
2019年5月29日論文紹介ゼミ

紹介する論文
• タイトル
– Bayesian Uncertainty Estimation for Batch Normalized Deep
Networks
• 著者
– Mattias Teye1,2, Hossein Azizpour1 and Kevin Smith1,3
• 1) School of Electrical Engineering and Computer Science, KTH
Royal Institute of Technology, Stockholm, Sweden
• 2) Electronic Arts, SEED, Stockholm, Sweden
• 3) Science for Life Laboratory
• 学会
– ICML2018
– http://proceedings.mlr.press/v80/teye18a.html
1

論文概要
• バッチ正規化(BN)を用いてニューラルネットを訓練するこ
とはベイズモデルにおける近似推論と等価であると示す
• MCBN（提案手法）によりモデルの不確実性を推定するこ
とが可能であると実証
– BNを用いているモデルであれば適用可能、再学習不要
2

背景
• 一般的な深層学習はモデルの不確実性の説明が不十分
– 点推定のみ
• 不確実性をモデル化
– ベイジアンニューラルネットワーク
• 深層学習との競争に苦労してる
– MCDO（ドロップアウトを適用したモデルはベイズ）
• https://arxiv.org/abs/1506.02142
• みんながドロップアウトを利用してる訳ではない
• バッチ正規化の方がよく使われている
3

バッチ正規化
• ミニバッチ内で入力分布を正規分布に変換する
• 学習で使用される平均分散はランダムに選択されたミニ
バッチに依存する
– これに注目し、バッチ正規化を用いたニューラルネットによる
不確実性の推定手法(MCBN)を提案
• Monte Carlo Batch Normalization (MCBN)
4

ベイズモデル
• ベイズモデルではパラメータの事後分布𝑝(𝜔|𝐃)を推定
• 変分近似（Variational Approximation）
– ベイズモデルでの一般的なアプローチ
– 𝑞 𝜃(𝜔)によって𝑝(𝜔|𝐃)を近似
• KLダイバージェンスを最小化
– 目的関数
5

ニューラルの最適化
• 目的関数
6
確率的なパラメータ
ニューラルの学習する
パラメータ
𝜔𝑖：ミニバッチの平均分散
Ω(𝜃)：正則化項

ニューラルネットとベイズ
• ベイズモデル
• ニューラルネット
• 式1と式2の最適化が等価と見なせるらしい
–
𝜕
𝜕𝜃
𝐾𝐿(𝑞 𝜃(𝜔)||𝑝 𝜔 ) = 𝑁𝜏
𝜕
𝜕𝜃
Ω(𝜃)
7

8
MCBN（提案手法）による不確実性の推定

9
バッチ正規化に使用する平均分散を
訓練データ群からサンプリング

10
T回のサンプリングの結果から
モデル出力の分布を得る
(実験ではT=500)

実験１（回帰）
• データセット
– 回帰（8種のデータセット）
11
N:データセットサイズ
Q:特徴数

• 定量的評価指標
– PLL(Predictive Log Likelihood)
– CRPS(Continuous Ranked Probability Score)
– 生のPLL,CRPSから不確実性の質を解釈するのは困難
12
𝐹(𝑦):累積分布関数(CDF)
上限と下限を設定し、正規化することを提案

• 定量的評価指標（正規化）
– 下限
• 入力に関わらず一定の分散を予測するベースラインを定義
• 分散として検証データでCRPSを最適化する固定値を設定
• Constant Uncertainty BN (CUBN)と呼ぶ
– 上限
• 各観測点(𝑦𝑖, 𝑥𝑖)でPPLを最大化(CRPSを最小化)する分散𝑇𝑖を予測する
モデルを定義
– 正規化
13

• 比較
– MCBN（提案手法）
– MCDO
– MNF
• Multiple Normalizing Flows for variational Bayesian networks
• http://proceedings.mlr.press/v70/louizos17a.html
• 新しい可視化手法の提案
– 後述
14

• 結果
– *：t検定によって下限を超えているかを検定
15
MCBNは既存手法と同等の性能を示している

• 結果
– *：t検定によって下限を超えているかを検定
16
各スコアが低い？
• 上限の達成は非常に困難（各サンプルで最適化）
• 下限も非常に合理的な見積もり

• 予測誤差(RMSE)の比較
– BN:通常のバッチ正規化
– DO:通常のドロップアウト
17
通常のモノよりわずかに精度が良くなっている

• 不確実性の質の可視化
18
不確かさの推定が良い
予測誤差の移動平均(灰線)
と不確実性(影部分)に相関
があるはず
予測誤差が大きい(小さい)
サンプルを認識できる

• 不確実性の質の可視化
19

実験２（画像分類）
• データセット
– CIFAR10
• モデル
– ResNet32
• ベースライン
– 普通のBNのソフトマックス出力
• 評価指標
– PLL(Predictive Log Likelihood)
20

実験２（画像分類）
• 結果
– ベースライン(-0.32)
– サンプリングの回数の違い
• サンプリング回数が増えることでPPLも改善
21

実験３（image segmentation）
• Bayesian SegNet（既存モデル）に適用
– https://arxiv.org/pdf/1511.02680.pdf
– もともとはMCDOを用いている
• 異なるミニバッチをもとに複数回順伝搬させただけ
22
Bayesian SegNet

実験３（image segmentation）
• 結果
– 上段：元画像
– 中段：セグメンテーションの推定
– 下段：不確実性の推定
– 最小限の労力で
不確実性を取得可能（下段）
• 境界は不確実
– 右のほうがいい感じなのは
バッチサイズの違い
• 大きい方が良い
23

まとめ
• MCBNを提案
– 不確実性の推定値とモデルの予測誤差に相関があることを示した
– 既存のモデル（MCDO, MNF）と同等の性能を示した
– 既存のモデルに適用可能（再学習不要）
• 不確実性の評価法の提案
– 正規化したCRPS, PLL
– 不確実性の質について可視化方法
• 実装（実験）
– https://github.com/icml-mcbn/mcbn
24

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

More Related Content

What's hot

Similar to Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

More from harmonylab

Recently uploaded

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks