SlideShare a Scribd company logo
1 of 16
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Bayesian Uncertainty Estimation for Batch Normalized
Deep Networks (ICML2018)”
Kensuke Wakasugi, Panasonic Corporation.
タイトル:
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)
著者:
Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³
1 KTH Royal Institute of Technology, Stockholm, Sweden.
2 Electronic Arts, SEED, Stockholm, Sweden.
3 Science for Life Laboratory
選書理由:
Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため
※特に断りがない限り,図・表・式は上記論文より引用したものです.
書誌情報
Wakasugi, Panasonic Corp.
2
背景
Wakasugi, Panasonic Corp.
3
深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要
 関連手法として,dropoutをガウス過程とみなし,不確実性を推定する
方法[1]が提案されているが,現在ではdropoutを使ったアーキテク
チャは少ない
 Batch Normalization(BN)を使い,不確実性を推定する手法を提案
mini-batch毎に規格化定数(平均,分散)が変動することを利用
 具体的には,変分近似とBNの等価性を示し,
BNを使って分散が計算できることを示した.
 左図は,提案手法により推定された信頼区間.
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty
in Deep Learning. ICML, 48:1–10, 2015.
関連研究:Bayesian Modeling
Wakasugi, Panasonic Corp.
4
点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義
 予測関数のパラメータの生成分布を導入し,
さらに周辺化を行うことで,予測分布を計算.
 計算には𝑝(𝜔|𝐷)が必要だがわからない
→一般的には変分近似により計算.
点推定
ベイズ推定
関連研究:Dropout as a Bayesian Approx.
Wakasugi, Panasonic Corp.
5
Dropoutをベイズ近似とみなし,不確実性を算出
 NNのパラメータ𝜔が周辺化対象
 dropoutをベルヌーイ分布からのサンプリングとみなし,
dropout後の𝑊を確率変数とみなす
→ 𝑊の事前分布を定義
NNの計算過程をベイズ推定で記述
Dropoutを確率過程とみなす
[1] より引用
[1] より引用
[1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
関連研究:Multiplicative Normalizing Flows
Wakasugi, Panasonic Corp.
6
𝑊の生成過程を計算容易かつ複雑な形式で定義
 𝑊の生成過程をNormalizing Flowで定義
→関数が複雑(多蜂性を有するなど),かつ,計算が容易.
𝑾の事前分布を潜在変数𝒛を使って定義
[1] より引用
[2] より引用
[2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
提案手法:変分近似としての目的関数
Wakasugi, Panasonic Corp.
7
変分近似の目的関数を,mini-batchで学習できるように式変形
 一般的な式変形に加え、mini-batch(size M)の場
合の目的関数に変形
※ただし,このような式変形は先行文献[3]に習った
とのこと.
𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数
mini-batchで学習する場合の目的関数
[3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
提案手法:BNによる学習
Wakasugi, Panasonic Corp.
8
通常のBNにおける目的関数を導出
 一般的な目的関数の表式.
 変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形
 ネットワークパラメータを𝜃, 𝜔に分割.
前者はバイアス,重みなど,後者はBNの平均分散を表す.
(𝜏は先行文献に習って使われているが,本論分では特に言及はされない)
目的関数(損失項+正則項)
mini-batchで学習する場合の目的関数
※notationの変更
変分近似とBNの等価性
Wakasugi, Panasonic Corp.
9
第2項の微分が一致すれば,同様の学習をしているとみなせる
 順序が逆転しているが変分近似の目的関数においても,𝜔
はBNの平均分散を指す.
 Ωとして、weight decayを考える.
 各unitが無相関などの簡単な制約を課すと,
𝑝 𝜔 がガウス分布になることが示される.
→一般的なネットワークにおいて両者が等価
 𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し,
それ自身が同分布からのサンプリングとみなせる.
変分近似の目的関数
BNの目的関数
論理の流れの補足:
変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など)
→l2正則付きの,一般的なBNの目的関数と一致
→BNの最適化=変分近似の最適化
→最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算
→
予測の不確実性の計算
Wakasugi, Panasonic Corp.
10
BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出
 左記ベイズ推定の式に相当する計算を実施可能
 具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ
ング(相当?)を実施.
学習データからmini-batchを作成
→BNの平均分散を算出
→𝑞 𝜃(𝜔)の代わりとする
→yの期待値,共分散を算出
ベイズ推定
BNによる期待値と共分散の計算
性能評価指標
Wakasugi, Panasonic Corp.
11
Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価
 これそのままでは,評価指標には出来ないため,
Constant Uncertaintyを使った場合のスコアを0
Optimal Uncertaintyを使った場合のスコアを100
に規格化.
 Constant Uncertaintyは共通のUncertaintyでPLLま
たはCRPSを最適化した値.
 Optimal Uncertaintyはデータ毎にUncertaintyをPLL
またはCRPSに対し最適化した値.
Predictive Log Likelihood
Continuous Ranked Probability Score
※𝐹(𝑦)は累積密度分布
比較結果
Wakasugi, Panasonic Corp.
12
UCIデータセットを用いて,2指標について性能を比較
MCBN(Monte Calro Batch Normalization,提案手法)
MCDO(Monte Calro Dropout)
MNF(Multiplicative Normalizing Flows)
 最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい
 Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記
• 既存手法を上回ったという主張だが,解釈が難しい.
Uncertaintyの解析と可視化
Wakasugi, Panasonic Corp.
13
Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認
 左2列は,灰色線(予測誤差の移動平均)と
shaded領域(推定結果)に相関が見られると良い
 右2列は異なるデータセットに対し提案手法で
Uncertaintyを可視化した
 理論上batch-sizeが大きいほうが良く,
メモリの関係で最右列のほうが良い推定になっ
ているらしい
推論時のサンプリング回数の影響
Wakasugi, Panasonic Corp.
14
mini-batchのサンプリング回数を変えたときのPLLを検証
 ResNet32,Cifar10,batch size32で検証
 サンプリング回数を増やすと,PLLが向上(かつ収束)
mini-batchのサンプル回数毎のPLL
まとめ
Wakasugi, Panasonic Corp.
15
 BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現
 提案手法の理論検証および実験検証を行い,有効性を示した.
 BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要.
計算コストも小さい.
雑感
Wakasugi, Panasonic Corp.
16
• Uncertaintyは重要ではあるが,その定量評価は難しい.
• ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった.
先行文献では強化学習を使った検証もしている.
• 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて,
そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.

More Related Content

What's hot

モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior NetworksDeep Learning JP
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Plot Hong
 
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep NetworksBayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networksharmonylab
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...Deep Learning JP
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

What's hot (20)

モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
[DL輪読会]Estimating Predictive Uncertainty via Prior Networks
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep NetworksBayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
[DL輪読会]A Simple Unified Framework for Detecting Out-of-Distribution Samples a...
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018)” Kensuke Wakasugi, Panasonic Corporation.
  • 2. タイトル: Bayesian Uncertainty Estimation for Batch Normalized Deep Networks (ICML2018) 著者: Mattias Teye¹², Hossein Azizpour¹, Kevin Smith¹³ 1 KTH Royal Institute of Technology, Stockholm, Sweden. 2 Electronic Arts, SEED, Stockholm, Sweden. 3 Science for Life Laboratory 選書理由: Deep Neural NetworkでUncertaintyを扱う手法に関して興味があったため ※特に断りがない限り,図・表・式は上記論文より引用したものです. 書誌情報 Wakasugi, Panasonic Corp. 2
  • 3. 背景 Wakasugi, Panasonic Corp. 3 深層学習を病気の診断や自動運転に適用する際,不確実性の推定は重要  関連手法として,dropoutをガウス過程とみなし,不確実性を推定する 方法[1]が提案されているが,現在ではdropoutを使ったアーキテク チャは少ない  Batch Normalization(BN)を使い,不確実性を推定する手法を提案 mini-batch毎に規格化定数(平均,分散)が変動することを利用  具体的には,変分近似とBNの等価性を示し, BNを使って分散が計算できることを示した.  左図は,提案手法により推定された信頼区間. [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML, 48:1–10, 2015.
  • 4. 関連研究:Bayesian Modeling Wakasugi, Panasonic Corp. 4 点推定を行う深層学習において,確率モデルの導入と周辺化を行い,予測分布を定義  予測関数のパラメータの生成分布を導入し, さらに周辺化を行うことで,予測分布を計算.  計算には𝑝(𝜔|𝐷)が必要だがわからない →一般的には変分近似により計算. 点推定 ベイズ推定
  • 5. 関連研究:Dropout as a Bayesian Approx. Wakasugi, Panasonic Corp. 5 Dropoutをベイズ近似とみなし,不確実性を算出  NNのパラメータ𝜔が周辺化対象  dropoutをベルヌーイ分布からのサンプリングとみなし, dropout後の𝑊を確率変数とみなす → 𝑊の事前分布を定義 NNの計算過程をベイズ推定で記述 Dropoutを確率過程とみなす [1] より引用 [1] より引用 [1] Gal, Y. and Ghahramani, Z. Dropout as a Bayesian Approximation : Representing Model Uncertainty in Deep Learning. ICML. 2015.
  • 6. 関連研究:Multiplicative Normalizing Flows Wakasugi, Panasonic Corp. 6 𝑊の生成過程を計算容易かつ複雑な形式で定義  𝑊の生成過程をNormalizing Flowで定義 →関数が複雑(多蜂性を有するなど),かつ,計算が容易. 𝑾の事前分布を潜在変数𝒛を使って定義 [1] より引用 [2] より引用 [2] Louizos, C. and Welling, M. Multiplicative normalizing flows for variational Bayesian neural networks. ICML. 2017.
  • 7. 提案手法:変分近似としての目的関数 Wakasugi, Panasonic Corp. 7 変分近似の目的関数を,mini-batchで学習できるように式変形  一般的な式変形に加え、mini-batch(size M)の場 合の目的関数に変形 ※ただし,このような式変形は先行文献[3]に習った とのこと. 𝒑(𝝎|𝑫)を𝒒 𝜽(𝝎)で近似するときの目的関数 mini-batchで学習する場合の目的関数 [3] Gal, Y. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016.
  • 8. 提案手法:BNによる学習 Wakasugi, Panasonic Corp. 8 通常のBNにおける目的関数を導出  一般的な目的関数の表式.  変分近似の場合と同様に,mini-batch(size M)の場合の目的関数に変形  ネットワークパラメータを𝜃, 𝜔に分割. 前者はバイアス,重みなど,後者はBNの平均分散を表す. (𝜏は先行文献に習って使われているが,本論分では特に言及はされない) 目的関数(損失項+正則項) mini-batchで学習する場合の目的関数 ※notationの変更
  • 9. 変分近似とBNの等価性 Wakasugi, Panasonic Corp. 9 第2項の微分が一致すれば,同様の学習をしているとみなせる  順序が逆転しているが変分近似の目的関数においても,𝜔 はBNの平均分散を指す.  Ωとして、weight decayを考える.  各unitが無相関などの簡単な制約を課すと, 𝑝 𝜔 がガウス分布になることが示される. →一般的なネットワークにおいて両者が等価  𝑞 𝜃(𝜔)はmini-batch毎に計算される平均分散に相当し, それ自身が同分布からのサンプリングとみなせる. 変分近似の目的関数 BNの目的関数 論理の流れの補足: 変分近似において,𝑝 𝜔 に適当な制約を置く(無相関,ガウス分布など) →l2正則付きの,一般的なBNの目的関数と一致 →BNの最適化=変分近似の最適化 →最適化した𝑞 𝜃(𝜔)で下記式の𝑝 (𝜔|𝑫)を置き換えて計算 →
  • 10. 予測の不確実性の計算 Wakasugi, Panasonic Corp. 10 BNの学習によって,𝑞 𝜃(𝜔)を求め,予測の分散を算出  左記ベイズ推定の式に相当する計算を実施可能  具体的には,下記のようにして,𝑞 𝜃(𝜔)のサンプリ ング(相当?)を実施. 学習データからmini-batchを作成 →BNの平均分散を算出 →𝑞 𝜃(𝜔)の代わりとする →yの期待値,共分散を算出 ベイズ推定 BNによる期待値と共分散の計算
  • 11. 性能評価指標 Wakasugi, Panasonic Corp. 11 Predictive Log Likelihood(PLL)とContinuous Ranked Probability Score(CRPS)により評価  これそのままでは,評価指標には出来ないため, Constant Uncertaintyを使った場合のスコアを0 Optimal Uncertaintyを使った場合のスコアを100 に規格化.  Constant Uncertaintyは共通のUncertaintyでPLLま たはCRPSを最適化した値.  Optimal Uncertaintyはデータ毎にUncertaintyをPLL またはCRPSに対し最適化した値. Predictive Log Likelihood Continuous Ranked Probability Score ※𝐹(𝑦)は累積密度分布
  • 12. 比較結果 Wakasugi, Panasonic Corp. 12 UCIデータセットを用いて,2指標について性能を比較 MCBN(Monte Calro Batch Normalization,提案手法) MCDO(Monte Calro Dropout) MNF(Multiplicative Normalizing Flows)  最大100と考えると,かなり性能が悪いが,そもそもLower Boundといっても最適化した値なので難しい  Lower Bound(Constant Uncertainty)を優位に超えているものを*で表記 • 既存手法を上回ったという主張だが,解釈が難しい.
  • 13. Uncertaintyの解析と可視化 Wakasugi, Panasonic Corp. 13 Uncertainty-errorプロットとセグメンテーション時の可視化で,有効性を確認  左2列は,灰色線(予測誤差の移動平均)と shaded領域(推定結果)に相関が見られると良い  右2列は異なるデータセットに対し提案手法で Uncertaintyを可視化した  理論上batch-sizeが大きいほうが良く, メモリの関係で最右列のほうが良い推定になっ ているらしい
  • 14. 推論時のサンプリング回数の影響 Wakasugi, Panasonic Corp. 14 mini-batchのサンプリング回数を変えたときのPLLを検証  ResNet32,Cifar10,batch size32で検証  サンプリング回数を増やすと,PLLが向上(かつ収束) mini-batchのサンプル回数毎のPLL
  • 15. まとめ Wakasugi, Panasonic Corp. 15  BNに基づくUncertaintyの推定方法を提案し,従来法を上回る性能を実現  提案手法の理論検証および実験検証を行い,有効性を示した.  BNを使っていれば適用可能で,アーキテクチャの修正や,再学習が不要. 計算コストも小さい.
  • 16. 雑感 Wakasugi, Panasonic Corp. 16 • Uncertaintyは重要ではあるが,その定量評価は難しい. • ベイズ最適化や強化学習の枠組みであれば比較しやすいが,それはしていなかった. 先行文献では強化学習を使った検証もしている. • 全体としては,決定論的なNNにおいて,ランダム性を含む処理を考えて, そこを変分ベイズとして扱って,予測分布を計算可能にしている,というところか.