[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.

タイトル：
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者：
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由：
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り，図・表・式は上記論文より引用したものです．
書誌情報
Wakasugi, Panasonic Corp.
2

背景
3
深層学習を病気の診断や自動運転に適用する際，不確実性の推定は重要
 関連手法として，dropoutをガウス過程とみなし，不確実性を推定する
方法[1]が提案されているが，現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization（BN）を使い，不確実性を推定する手法を提案
mini-batch毎に規格化定数（平均，分散）が変動することを利用
 具体的には，変分近似とBNの等価性を示し，
BNを使って分散が計算できることを示した．
 左図は，提案手法により推定された信頼区間．
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.

関連研究：Bayesian Modeling
4
点推定を行う深層学習において，確率モデルの導入と周辺化を行い，予測分布を定義
 予測関数のパラメータの生成分布を導入し，
さらに周辺化を行うことで，予測分布を計算．
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算．
点推定
ベイズ推定

関連研究：Dropout as a Bayesian Approx.
5
Dropoutをベイズ近似とみなし，不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし，
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.

関連研究：Multiplicative Normalizing Flows
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど)，かつ，計算が容易．
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.

提案手法：変分近似としての目的関数
7
変分近似の目的関数を，mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし，このような式変形は先行文献[3]に習った
とのこと．
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.

提案手法：BNによる学習
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式．
 変分近似の場合と同様に，mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割．
前者はバイアス，重みなど，後者はBNの平均分散を表す．
（𝜏は先行文献に習って使われているが，本論分では特に言及はされない）
目的関数（損失項+正則項）
mini-batchで学習する場合の目的関数
※notationの変更

変分近似とBNの等価性
9
第2項の微分が一致すれば，同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても，𝜔
はBNの平均分散を指す．
 Ωとして、weight decayを考える．
 各unitが無相関などの簡単な制約を課すと，
𝑝 𝜔 がガウス分布になることが示される．
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し，
それ自身が同分布からのサンプリングとみなせる．
変分近似の目的関数
BNの目的関数
論理の流れの補足：
変分近似において，𝑝 𝜔 に適当な制約を置く（無相関，ガウス分布など）
→l2正則付きの，一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→

予測の不確実性の計算
10
BNの学習によって，𝑞 𝜃(𝜔)を求め，予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には，下記のようにして，𝑞 𝜃(𝜔)のサンプリ
ング（相当？）を実施．
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→ｙの期待値，共分散を算出
ベイズ推定
ＢＮによる期待値と共分散の計算

性能評価指標
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは，評価指標には出来ないため，
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化．
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値．
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値．
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布

比較結果
12
UCIデータセットを用いて，2指標について性能を比較
MCBN（Monte Calro Batch Normalization，提案手法）
MCDO（Monte Calro Dropout）
MNF（Multiplicative Normalizing Flows）
 最大100と考えると，かなり性能が悪いが，そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound（Constant Uncertainty）を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが，解釈が難しい．

Uncertaintyの解析と可視化
13
Uncertainty-errorプロットとセグメンテーション時の可視化で，有効性を確認
 左２列は，灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右２列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く，
メモリの関係で最右列のほうが良い推定になっ
ているらしい

推論時のサンプリング回数の影響
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32，Cifar10，batch size32で検証
 サンプリング回数を増やすと，PLLが向上（かつ収束）
mini-batchのサンプル回数毎のPLL

まとめ
15
 BNに基づくUncertaintyの推定方法を提案し，従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い，有効性を示した．
 BNを使っていれば適用可能で，アーキテクチャの修正や，再学習が不要．
計算コストも小さい．

雑感
16
• Uncertaintyは重要ではあるが，その定量評価は難しい．
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが，それはしていなかった．
先行文献では強化学習を使った検証もしている．
• 全体としては，決定論的なＮＮにおいて，ランダム性を含む処理を考えて，
そこを変分ベイズとして扱って，予測分布を計算可能にしている，というところか．

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks