SlideShare a Scribd company logo

ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning

S
S

須山敦志著 MLPシリーズベイズ深層学習の説明資料です。

ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning

1 of 50
Download to read offline
ニューラルネットワークのベイズ推論
ベイズ深層学習輪読会
Dec. 8 2019
@_oshiritantei
目次
Part1 ニューラルネットワークのベイズ推論
Part2 ニューラルネットワークのベイズ推論の効率化
Part3 ニューラルネットワークの確率的正則化
1. 同時分布のモデリング
2. 事後分布の推論
 ハミルトニアンモンテカルロ法による事後分布からのサンプリング
 ラプラス近似を用いた近似事後分布の導出
3. 予測分布の計算
1. 確率的勾配ランジュバン動力学法(サンプリングによる推論の効率化)
2. 確率的変分推論法(変分推論の効率化)
 スコア関数推定
 再パラメータ化勾配
3. 期待値伝搬法によるニューラルネットワークの学習(山場)
1. ドロップアウトのベイズ的解釈
2. バッチ正規化のベイズ的解釈
Part1
ニューラルネットワークのベイズ推論 基本編
ベイズニューラルネットワークモデル
 ニューラルネットワークのベイズ推論とは
 この章でひたすら学ぶこと
ニューラルネットワークモデルの重みパラメータの事後分布の計算方法
ネットワークの挙動を支配するパラメータに事前分布を設定することで
確率的な学習や予測を行うこと
…
…
…
タスクに合わせて設計
ベイズ学習によるモデルの構築と推論
1. モデルの構築
観測データDとモデル内の未知のパラメータZに対して同時分布
を構築する
2. 推論の導出(学習)
事後分布 を解析的または近似的に求める
3. 予測分布の導出
学習されたパラメータを用いて未観測データx*に対する予測分布
を導出する
上記3つのステップはニューラルネットワークのベイズ推論でも同じ
同時分布のモデリング
 ベイズニューラルネットワークモデルの問題設定(回帰問題)
 回帰モデル
ただし
 同時分布を構成する2つの分布
NNモデル
Ad

Recommended

Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 

More Related Content

What's hot

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )Kenji Urai
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデルKei Nakagawa
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
Stochastic Variational Inference
Stochastic Variational InferenceStochastic Variational Inference
Stochastic Variational InferenceKaede Hayashi
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...Deep Learning JP
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 

What's hot (20)

Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Stochastic Variational Inference
Stochastic Variational InferenceStochastic Variational Inference
Stochastic Variational Inference
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 

ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning

Editor's Notes

  1. 気持ち・全体ロジックの流れが大切
  2. Yが直接出てくるわけではなく、出てくるのはyの平均値
  3. ここまででモデリング終了。次にやるのは事後分布の導出
  4. Cはもう書いてないけどリープフロッグの微分のところで消えるから問題ない
  5. パラメータ数のところ要確認 事前分布から生成されるwからスタートして、誤差逆伝搬で新しいwを計算してそれが受容されたらそのwを更新する。つまり、受容=学習。Lステップたどるのが一回の学習に相当して、Lステップ後のwの値が事後分布からサンプルされたwとなる。Pは各ステップで正規分布からサンプリングする。Pのサンプリングがランダムだから最終的なwの値もランダム。
  6. さっきも見たけど、この勾配は誤差逆伝搬で計算する
  7. 第一項は、2階微分の非対角成分の微分はすべて0。第二項はそのままヘッセ行列の定義になる 最後の式の微分はWmapを求めるために更新していった時の最後の値を使う? これで事後分布は求まった。じゃあ最後のステップで求めた事後分布を使って予測分布を計算する
  8. Wは重みを縦に並べたベクトル HM法でこの予測分布を計算する場合は、q(W)からサンプルして、積分をモンテカルロ近似してやればよい
  9. Alpha_tプライムはsigma_yを含んでいることに注意。 最初の1/2って自然な形で出てくるの?
  10. 受容率1だと勾配の不偏推定量がえられるのはなんで?
  11. 周辺尤度はy|xになっていることに注意。Yじゃない
  12. KLダイバージェンスの方は二つの分布がガウス分布なら解析的に計算できてあとはそれを微分してやるだけ モンテカルロ近似をしてやるので、サンプリングするわけだが、サンプリングで求めた値(標本空間からのサンプリングで求めた値)がもとの値の不偏推定量(母集団のその値)となる方法でしか近似したらダメ。それを確認する必要がある。もちろんここで紹介する方法はそうなっている
  13. Https://qiita.com/Kosuke_Matsui/items/5d90af26b14a51accece Lnqが微分できる必要がある。実際にはIの分散がとても大きくなってしまうらしく、制御変量法などのテクニックが必要
  14. この方法をqがガウス分布だったときの例で実際に試してみると、
  15. 次の例はいよいよニューラルネットワーク
  16. 真面目に変数変換をすると、dε/dwの行列式。各重みは無相関なので、対角行列になって、 独立じゃないと行列式の計算が大変
  17. 独立なガウス分布をK個かけたらK次元の無相関のガウス分布で、εはこの分布からサンプリングすればよいことがわかる Εが確定したら、変換gで重みが決まって、ネットワークが決まる。変分パラメータで微分するということは重みで微分しているのと同じなので、誤差逆伝搬で計算できる
  18. [60]の論文。一つのデータに対して、L個のノイズを使って尤度の微分値を計算してその平均を微分値として使うがM>100とかならノイズのサンプル1つでいい
  19. 4章では変分推論の次に、さらに期待値伝搬法をやった。それを使ってNNを学習しましょう。つまり事後分布の近似分布を求めましょうということをやっていく。 モデリングは同時分布からスタート。ハイパラも推論します。 P(Y)はw gammay gammawに無関係
  20. これでモデリングは完了。次は事後分布の推論。
  21. 近似分布がガンマ分布なら周辺尤度Zが計算できれば、そのパラメータを更新できるし、近似分布がガンマ分布なら。周辺尤度は、尤度×事前分布のパラメータを積分消去したもの。 今回は分布がガンマ分布とガウス分布の積になっているけどそのまま適用できるかという疑問があった。4.2.4の計算を見ると、そのパラメータで微分・積分しているので、片方のパラメータを生成する分布は結局定数になる。 結論から言うと、
  22. 本が誤植だらけなので気を付けてください。
  23. Fは非線形変換なのでqハットと同じ分布に従うかどうかはわからない。よくわからんのでガウス分布で丸ごと置き換えてしまう
  24. mzLは結局ネットワークの出力なので、対数とって微分ってできない。しかもmzLの値自体も順伝搬計算をしないと計算できない Wが確率変数なので、入力層から確率が伝搬していく ユニットの個数で平均と分散が変わらないように、ユニットの個数で割る
  25. 活性化関数はユニットごとに作用されるので、ここからは一つのユニットだけの話を見ていく この導出は、
  26. ReLUだと直感的にそうかなと思うのですが、ほかの関数系だったらどうやって混合比求めるの?
  27. Mかvが変わったらwが変わって、その変化に対する出力の変化を見るので、誤差逆伝搬の枠組みを少し改造すれば計算できる
  28. Q(W, W)はDoを適用したNNのWmの近似事後分布。DOを適用したNNは重みがWm(確率変数)に見える。これをWからの変換だと解釈すれば、Wがxiに対応するので、KLダイバージェンスの中身もそれで書き換えてやると、(gの中身もちゃんと対応してる) 損失関数をWの関数にして、それをWで微分して勾配を求めることは変分推論法の勾配計算と同じことをしていることになる
  29. ドロップアウトを適用して、誤差逆伝搬で重みWを更新していくことは、 マスク変数を分布からサンプリングし、変数変換を行って再パラメータ化勾配で変分パラメータWに対する勾配近似を行い、その勾配を用いて近似分布中のWを更新していくことに対応している 学習済みの近似分布qを用いて、予測分布は次のように記述できる