# ベイズ深層学習5章　ニューラルネットワークのベイズ推論　Bayesian deep learning

1 of 50

## Recommended

Bayesian Neural Networks : Survey
Bayesian Neural Networks : Surveytmtm otm

PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm

PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka

[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP

## What's hot

Active Learning 入門
Active Learning 入門Shuyo Nakatani

ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )Kenji Urai

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP

PRML輪読#2
PRML輪読#2matsuolab

ベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui

グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP

Stochastic Variational Inference
Stochastic Variational InferenceKaede Hayashi

[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi

[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...Deep Learning JP

[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP

PRMLの線形回帰モデル（線形基底関数モデル）
PRMLの線形回帰モデル（線形基底関数モデル）Yasunori Ozaki

### What's hot(20)

Active Learning 入門
Active Learning 入門

ELBO型VAEのダメなところ
ELBO型VAEのダメなところ

ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )
ガウス過程回帰の導出 ( GPR : Gaussian Process Regression )

[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models

PRML輪読#2
PRML輪読#2

ベータ分布の謎に迫る
ベータ分布の謎に迫る

グラフィカルモデル入門
グラフィカルモデル入門

[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...

[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

Stochastic Variational Inference
Stochastic Variational Inference

[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions

【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?

[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...

[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報

PRMLの線形回帰モデル（線形基底関数モデル）
PRMLの線形回帰モデル（線形基底関数モデル）

### Editor's Notes

1. 気持ち・全体ロジックの流れが大切
2. Yが直接出てくるわけではなく、出てくるのはyの平均値
3. ここまででモデリング終了。次にやるのは事後分布の導出
4. Cはもう書いてないけどリープフロッグの微分のところで消えるから問題ない
5. パラメータ数のところ要確認 事前分布から生成されるwからスタートして、誤差逆伝搬で新しいwを計算してそれが受容されたらそのwを更新する。つまり、受容＝学習。Lステップたどるのが一回の学習に相当して、Lステップ後のwの値が事後分布からサンプルされたwとなる。Pは各ステップで正規分布からサンプリングする。Pのサンプリングがランダムだから最終的なwの値もランダム。
6. さっきも見たけど、この勾配は誤差逆伝搬で計算する
7. 第一項は、2階微分の非対角成分の微分はすべて０。第二項はそのままヘッセ行列の定義になる 最後の式の微分はWmapを求めるために更新していった時の最後の値を使う？ これで事後分布は求まった。じゃあ最後のステップで求めた事後分布を使って予測分布を計算する
8. Wは重みを縦に並べたベクトル HM法でこの予測分布を計算する場合は、q(W)からサンプルして、積分をモンテカルロ近似してやればよい
9. Alpha_tプライムはsigma_yを含んでいることに注意。 最初の1/2って自然な形で出てくるの？
10. 受容率1だと勾配の不偏推定量がえられるのはなんで？
11. 周辺尤度はy|xになっていることに注意。Yじゃない
12. KLダイバージェンスの方は二つの分布がガウス分布なら解析的に計算できてあとはそれを微分してやるだけ モンテカルロ近似をしてやるので、サンプリングするわけだが、サンプリングで求めた値（標本空間からのサンプリングで求めた値）がもとの値の不偏推定量（母集団のその値）となる方法でしか近似したらダメ。それを確認する必要がある。もちろんここで紹介する方法はそうなっている
13. Https://qiita.com/Kosuke_Matsui/items/5d90af26b14a51accece Lnqが微分できる必要がある。実際にはIの分散がとても大きくなってしまうらしく、制御変量法などのテクニックが必要
14. この方法をqがガウス分布だったときの例で実際に試してみると、
15. 次の例はいよいよニューラルネットワーク
16. 真面目に変数変換をすると、dε/dwの行列式。各重みは無相関なので、対角行列になって、 独立じゃないと行列式の計算が大変
17. 独立なガウス分布をK個かけたらK次元の無相関のガウス分布で、εはこの分布からサンプリングすればよいことがわかる Εが確定したら、変換ｇで重みが決まって、ネットワークが決まる。変分パラメータで微分するということは重みで微分しているのと同じなので、誤差逆伝搬で計算できる
18. [60]の論文。一つのデータに対して、L個のノイズを使って尤度の微分値を計算してその平均を微分値として使うがM>100とかならノイズのサンプル１つでいい
19. 4章では変分推論の次に、さらに期待値伝搬法をやった。それを使ってNNを学習しましょう。つまり事後分布の近似分布を求めましょうということをやっていく。 モデリングは同時分布からスタート。ハイパラも推論します。 P(Y)はw gammay gammawに無関係
20. これでモデリングは完了。次は事後分布の推論。
21. 近似分布がガンマ分布なら周辺尤度Zが計算できれば、そのパラメータを更新できるし、近似分布がガンマ分布なら。周辺尤度は、尤度×事前分布のパラメータを積分消去したもの。 今回は分布がガンマ分布とガウス分布の積になっているけどそのまま適用できるかという疑問があった。4.2.4の計算を見ると、そのパラメータで微分・積分しているので、片方のパラメータを生成する分布は結局定数になる。 結論から言うと、
22. 本が誤植だらけなので気を付けてください。
23. Fは非線形変換なのでqハットと同じ分布に従うかどうかはわからない。よくわからんのでガウス分布で丸ごと置き換えてしまう
24. mzLは結局ネットワークの出力なので、対数とって微分ってできない。しかもmzLの値自体も順伝搬計算をしないと計算できない Ｗが確率変数なので、入力層から確率が伝搬していく ユニットの個数で平均と分散が変わらないように、ユニットの個数で割る
25. 活性化関数はユニットごとに作用されるので、ここからは一つのユニットだけの話を見ていく この導出は、
26. ReLUだと直感的にそうかなと思うのですが、ほかの関数系だったらどうやって混合比求めるの？
27. Mかvが変わったらwが変わって、その変化に対する出力の変化を見るので、誤差逆伝搬の枠組みを少し改造すれば計算できる
28. Q(W, W)はDoを適用したNNのWmの近似事後分布。DOを適用したNNは重みがWm(確率変数)に見える。これをWからの変換だと解釈すれば、Wがxiに対応するので、KLダイバージェンスの中身もそれで書き換えてやると、（gの中身もちゃんと対応してる） 損失関数をWの関数にして、それをWで微分して勾配を求めることは変分推論法の勾配計算と同じことをしていることになる
29. ドロップアウトを適用して、誤差逆伝搬で重みWを更新していくことは、 マスク変数を分布からサンプリングし、変数変換を行って再パラメータ化勾配で変分パラメータWに対する勾配近似を行い、その勾配を用いて近似分布中のWを更新していくことに対応している 学習済みの近似分布qを用いて、予測分布は次のように記述できる
Current LanguageEnglish
Español
Portugues
Français
Deutsche
© 2024 SlideShare from Scribd