1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.
タイトル:
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者:
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由:
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り,図・表・式は上記論文より引用したものです.
書誌情報
Wakasugi, Panasonic Corp.
2
背景
Wakasugi, Panasonic Corp.
3
深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要
 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する
方法[1]が提案されているが,現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization(BN)を使い,不確実性を推定する手法を提案
mini-batch毎に規格化定数(平均,分散)が変動することを利用
 具体的には,変分近似とBNの等価性を示し,
BNを使って分散が計算できることを示した.
 左図は,提案手法により推定された信頼区間.
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.
関連研究:Bayesian Modeling
Wakasugi, Panasonic Corp.
4
点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義
 予測関数のパラメータの生成分布を導入し,
さらに周辺化を行うことで,予測分布を計算.
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算.
点推定
ベイズ推定
関連研究:Dropout as a Bayesian Approx.
Wakasugi, Panasonic Corp.
5
Dropoutをベイズ近似とみなし,不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし,
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
関連研究:Multiplicative Normalizing Flows
Wakasugi, Panasonic Corp.
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど),かつ,計算が容易.
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
提案手法:変分近似としての目的関数
Wakasugi, Panasonic Corp.
7
変分近似の目的関数を,mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし,このような式変形は先行文献[3]に習った
とのこと.
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
提案手法:BNによる学習
Wakasugi, Panasonic Corp.
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式.
 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割.
前者はバイアス,重みなど,後者はBNの平均分散を表す.
(𝜏は先行文献に習って使われているが,本論分では特に言及はされない)
目的関数(損失項+正則項)
mini-batchで学習する場合の目的関数
※notationの変更
変分近似とBNの等価性
Wakasugi, Panasonic Corp.
9
第2項の微分が一致すれば,同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても,𝜔
はBNの平均分散を指す.
 Ωとして、weight decayを考える.
 各unitが無相関などの簡単な制約を課すと,
𝑝 𝜔 がガウス分布になることが示される.
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し,
それ自身が同分布からのサンプリングとみなせる.
変分近似の目的関数
BNの目的関数
論理の流れの補足:
変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など)
→l2正則付きの,一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→
予測の不確実性の計算
Wakasugi, Panasonic Corp.
10
BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ
ング(相当?)を実施.
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→yの期待値,共分散を算出
ベイズ推定
BNによる期待値と共分散の計算
性能評価指標
Wakasugi, Panasonic Corp.
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは,評価指標には出来ないため,
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化.
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値.
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値.
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布
比較結果
Wakasugi, Panasonic Corp.
12
UCIデータセットを用いて,2指標について性能を比較
MCBN(Monte Calro Batch Normalization,提案手法)
MCDO(Monte Calro Dropout)
MNF(Multiplicative Normalizing Flows)
 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが,解釈が難しい.
Uncertaintyの解析と可視化
Wakasugi, Panasonic Corp.
13
Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認
 左2列は,灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右2列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く,
メモリの関係で最右列のほうが良い推定になっ
ているらしい
推論時のサンプリング回数の影響
Wakasugi, Panasonic Corp.
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32,Cifar10,batch size32で検証
 サンプリング回数を増やすと,PLLが向上(かつ収束)
mini-batchのサンプル回数毎のPLL
まとめ
Wakasugi, Panasonic Corp.
15
 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い,有効性を示した.
 BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要.
計算コストも小さい.
雑感
Wakasugi, Panasonic Corp.
16
• Uncertaintyは重要ではあるが,その定量評価は難しい.
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった.
先行文献では強化学習を使った検証もしている.
• 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて,
そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

  • 1.
    1 DEEP LEARNING JP [DLPapers] http://deeplearning.jp/ “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation.
  • 2.
    タイトル: Bayesian Uncertainty Estimationfor Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. 書誌情報 Wakasugi, Panasonic Corp. 2
  • 3.
    背景 Wakasugi, Panasonic Corp. 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない  Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用  具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した.  左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015.
  • 4.
    関連研究:Bayesian Modeling Wakasugi, PanasonicCorp. 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義  予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算.  計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. 点推定 ベイズ推定
  • 5.
    関連研究:Dropout as aBayesian Approx. Wakasugi, Panasonic Corp. 5 Dropoutをベイズ近似とみなし,不確実性を算出  NNのパラメータ𝜔が周辺化対象  dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 NNの計算過程をベイズ推定で記述 Dropoutを確率過程とみなす [1] より引用 [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
  • 6.
    関連研究:Multiplicative Normalizing Flows Wakasugi,Panasonic Corp. 6 𝑊の生成過程を計算容易かつ複雑な形式で定義  𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. 𝑾の事前分布を潜在変数𝒛を使って定義 [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
  • 7.
    提案手法:変分近似としての目的関数 Wakasugi, Panasonic Corp. 7 変分近似の目的関数を,mini-batchで学習できるように式変形 一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. 𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数 mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • 8.
    提案手法:BNによる学習 Wakasugi, Panasonic Corp. 8 通常のBNにおける目的関数を導出 一般的な目的関数の表式.  変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形  ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) 目的関数(損失項+正則項) mini-batchで学習する場合の目的関数 ※notationの変更
  • 9.
    変分近似とBNの等価性 Wakasugi, Panasonic Corp. 9 第2項の微分が一致すれば,同様の学習をしているとみなせる 順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す.  Ωとして、weight decayを考える.  各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価  𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. 変分近似の目的関数 BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 →
  • 10.
    予測の不確実性の計算 Wakasugi, Panasonic Corp. 10 BNの学習によって,𝑞𝜃(𝜔)を求め,予測の分散を算出  左記ベイズ推定の式に相当する計算を実施可能  具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞 𝜃(𝜔)の代わりとする →yの期待値,共分散を算出 ベイズ推定 BNによる期待値と共分散の計算
  • 11.
    性能評価指標 Wakasugi, Panasonic Corp. 11 PredictiveLog Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価  これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化.  Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値.  Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. Predictive Log Likelihood Continuous Ranked Probability Score ※𝐹(𝑦)は累積密度分布
  • 12.
    比較結果 Wakasugi, Panasonic Corp. 12 UCIデータセットを用いて,2指標について性能を比較 MCBN(MonteCalro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows)  最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい  Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 • 既存手法を上回ったという主張だが,解釈が難しい.
  • 13.
    Uncertaintyの解析と可視化 Wakasugi, Panasonic Corp. 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認 左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い  右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した  理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい
  • 14.
    推論時のサンプリング回数の影響 Wakasugi, Panasonic Corp. 14 mini-batchのサンプリング回数を変えたときのPLLを検証 ResNet32,Cifar10,batch size32で検証  サンプリング回数を増やすと,PLLが向上(かつ収束) mini-batchのサンプル回数毎のPLL
  • 15.
    まとめ Wakasugi, Panasonic Corp. 15 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現  提案手法の理論検証および実験検証を行い,有効性を示した.  BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい.
  • 16.
    雑感 Wakasugi, Panasonic Corp. 16 •Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.