SlideShare a Scribd company logo
1 of 16
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.
タイトル:
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者:
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由:
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り,図・表・式は上記論文より引用したものです.
書誌情報
Wakasugi, Panasonic Corp.
2
背景
Wakasugi, Panasonic Corp.
3
深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要
 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する
方法[1]が提案されているが,現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization(BN)を使い,不確実性を推定する手法を提案
mini-batch毎に規格化定数(平均,分散)が変動することを利用
 具体的には,変分近似とBNの等価性を示し,
BNを使って分散が計算できることを示した.
 左図は,提案手法により推定された信頼区間.
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.
関連研究:Bayesian Modeling
Wakasugi, Panasonic Corp.
4
点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義
 予測関数のパラメータの生成分布を導入し,
さらに周辺化を行うことで,予測分布を計算.
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算.
点推定
ベイズ推定
関連研究:Dropout as a Bayesian Approx.
Wakasugi, Panasonic Corp.
5
Dropoutをベイズ近似とみなし,不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし,
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
関連研究:Multiplicative Normalizing Flows
Wakasugi, Panasonic Corp.
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど),かつ,計算が容易.
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
提案手法:変分近似としての目的関数
Wakasugi, Panasonic Corp.
7
変分近似の目的関数を,mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし,このような式変形は先行文献[3]に習った
とのこと.
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
提案手法:BNによる学習
Wakasugi, Panasonic Corp.
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式.
 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割.
前者はバイアス,重みなど,後者はBNの平均分散を表す.
(𝜏は先行文献に習って使われているが,本論分では特に言及はされない)
目的関数(損失項+正則項)
mini-batchで学習する場合の目的関数
※notationの変更
変分近似とBNの等価性
Wakasugi, Panasonic Corp.
9
第2項の微分が一致すれば,同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても,𝜔
はBNの平均分散を指す.
 Ωとして、weight decayを考える.
 各unitが無相関などの簡単な制約を課すと,
𝑝 𝜔 がガウス分布になることが示される.
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し,
それ自身が同分布からのサンプリングとみなせる.
変分近似の目的関数
BNの目的関数
論理の流れの補足:
変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など)
→l2正則付きの,一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→
予測の不確実性の計算
Wakasugi, Panasonic Corp.
10
BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ
ング(相当?)を実施.
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→yの期待値,共分散を算出
ベイズ推定
BNによる期待値と共分散の計算
性能評価指標
Wakasugi, Panasonic Corp.
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは,評価指標には出来ないため,
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化.
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値.
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値.
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布
比較結果
Wakasugi, Panasonic Corp.
12
UCIデータセットを用いて,2指標について性能を比較
MCBN(Monte Calro Batch Normalization,提案手法)
MCDO(Monte Calro Dropout)
MNF(Multiplicative Normalizing Flows)
 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが,解釈が難しい.
Uncertaintyの解析と可視化
Wakasugi, Panasonic Corp.
13
Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認
 左2列は,灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右2列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く,
メモリの関係で最右列のほうが良い推定になっ
ているらしい
推論時のサンプリング回数の影響
Wakasugi, Panasonic Corp.
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32,Cifar10,batch size32で検証
 サンプリング回数を増やすと,PLLが向上(かつ収束)
mini-batchのサンプル回数毎のPLL
まとめ
Wakasugi, Panasonic Corp.
15
 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い,有効性を示した.
 BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要.
計算コストも小さい.
雑感
Wakasugi, Panasonic Corp.
16
• Uncertaintyは重要ではあるが,その定量評価は難しい.
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった.
先行文献では強化学習を使った検証もしている.
• 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて,
そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

What's hot (20)

予測の不確かさのユーザー調査
予測の不確かさのユーザー調査予測の不確かさのユーザー調査
予測の不確かさのユーザー調査
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger[DL輪読会]YOLO9000: Better, Faster, Stronger
[DL輪読会]YOLO9000: Better, Faster, Stronger
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
連続時間フラクショナル・トピックモデル(NLP2023 金融・経済ドメインのための言語処理)
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

Recently uploaded (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation.
  • 2. タイトル: Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. 書誌情報 Wakasugi, Panasonic Corp. 2
  • 3. 背景 Wakasugi, Panasonic Corp. 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要  関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない  Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用  具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した.  左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015.
  • 4. 関連研究:Bayesian Modeling Wakasugi, Panasonic Corp. 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義  予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算.  計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. 点推定 ベイズ推定
  • 5. 関連研究:Dropout as a Bayesian Approx. Wakasugi, Panasonic Corp. 5 Dropoutをベイズ近似とみなし,不確実性を算出  NNのパラメータ𝜔が周辺化対象  dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 NNの計算過程をベイズ推定で記述 Dropoutを確率過程とみなす [1] より引用 [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
  • 6. 関連研究:Multiplicative Normalizing Flows Wakasugi, Panasonic Corp. 6 𝑊の生成過程を計算容易かつ複雑な形式で定義  𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. 𝑾の事前分布を潜在変数𝒛を使って定義 [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
  • 7. 提案手法:変分近似としての目的関数 Wakasugi, Panasonic Corp. 7 変分近似の目的関数を,mini-batchで学習できるように式変形  一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. 𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数 mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • 8. 提案手法:BNによる学習 Wakasugi, Panasonic Corp. 8 通常のBNにおける目的関数を導出  一般的な目的関数の表式.  変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形  ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) 目的関数(損失項+正則項) mini-batchで学習する場合の目的関数 ※notationの変更
  • 9. 変分近似とBNの等価性 Wakasugi, Panasonic Corp. 9 第2項の微分が一致すれば,同様の学習をしているとみなせる  順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す.  Ωとして、weight decayを考える.  各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価  𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. 変分近似の目的関数 BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 →
  • 10. 予測の不確実性の計算 Wakasugi, Panasonic Corp. 10 BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出  左記ベイズ推定の式に相当する計算を実施可能  具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞 𝜃(𝜔)の代わりとする →yの期待値,共分散を算出 ベイズ推定 BNによる期待値と共分散の計算
  • 11. 性能評価指標 Wakasugi, Panasonic Corp. 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価  これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化.  Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値.  Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. Predictive Log Likelihood Continuous Ranked Probability Score ※𝐹(𝑦)は累積密度分布
  • 12. 比較結果 Wakasugi, Panasonic Corp. 12 UCIデータセットを用いて,2指標について性能を比較 MCBN(Monte Calro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows)  最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい  Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 • 既存手法を上回ったという主張だが,解釈が難しい.
  • 13. Uncertaintyの解析と可視化 Wakasugi, Panasonic Corp. 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認  左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い  右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した  理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい
  • 14. 推論時のサンプリング回数の影響 Wakasugi, Panasonic Corp. 14 mini-batchのサンプリング回数を変えたときのPLLを検証  ResNet32,Cifar10,batch size32で検証  サンプリング回数を増やすと,PLLが向上(かつ収束) mini-batchのサンプル回数毎のPLL
  • 15. まとめ Wakasugi, Panasonic Corp. 15  BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現  提案手法の理論検証および実験検証を行い,有効性を示した.  BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい.
  • 16. 雑感 Wakasugi, Panasonic Corp. 16 • Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.