SlideShare a Scribd company logo
1 of 50
ニューラルネットワークのベイズ推論
ベイズ深層学習輪読会
Dec. 8 2019
@_oshiritantei
目次
Part1 ニューラルネットワークのベイズ推論
Part2 ニューラルネットワークのベイズ推論の効率化
Part3 ニューラルネットワークの確率的正則化
1. 同時分布のモデリング
2. 事後分布の推論
 ハミルトニアンモンテカルロ法による事後分布からのサンプリング
 ラプラス近似を用いた近似事後分布の導出
3. 予測分布の計算
1. 確率的勾配ランジュバン動力学法(サンプリングによる推論の効率化)
2. 確率的変分推論法(変分推論の効率化)
 スコア関数推定
 再パラメータ化勾配
3. 期待値伝搬法によるニューラルネットワークの学習(山場)
1. ドロップアウトのベイズ的解釈
2. バッチ正規化のベイズ的解釈
Part1
ニューラルネットワークのベイズ推論 基本編
ベイズニューラルネットワークモデル
 ニューラルネットワークのベイズ推論とは
 この章でひたすら学ぶこと
ニューラルネットワークモデルの重みパラメータの事後分布の計算方法
ネットワークの挙動を支配するパラメータに事前分布を設定することで
確率的な学習や予測を行うこと
…
…
…
タスクに合わせて設計
ベイズ学習によるモデルの構築と推論
1. モデルの構築
観測データDとモデル内の未知のパラメータZに対して同時分布
を構築する
2. 推論の導出(学習)
事後分布 を解析的または近似的に求める
3. 予測分布の導出
学習されたパラメータを用いて未観測データx*に対する予測分布
を導出する
上記3つのステップはニューラルネットワークのベイズ推論でも同じ
同時分布のモデリング
 ベイズニューラルネットワークモデルの問題設定(回帰問題)
 回帰モデル
ただし
 同時分布を構成する2つの分布
NNモデル
事後分布の推論-HM法によるサンプリング-
 パラメータの事後分布
 事後分布をポテンシャルエネルギーと見なす( )
(2.57)式
事後分布の推論-HM法によるサンプリング-
 リープフロッグ法(第 層のユニット から第 層のユニット への重み)
なので誤差逆伝搬法で計算可能
Wを更新して誤差逆伝搬法で計算
HM法では、2×ステップ数の順/逆伝搬計算で1サンプリングできる
事後分布の推論-ラプラス近似による近似分布の導出-
 ラプラス近似の方針
Step 1: 事後分布が最大となる を求める
Step 2: 事後分布を を用いてガウス分布で近似する
 Step1 : MAP推定により を求める
対数事後分布の勾配を用いて最大化
誤差逆伝搬法で計算可能
事後分布の推論-ラプラス近似による近似分布の導出-
 Step 2 : 事後分布をガウス分布で近似する
ただし、
1. 誤差逆伝搬法と同じように計算する
2. 最終層の出力の変化量の和で近似
近似分布を用いた予測分布の計算
 予測分布の導出
同時分布は
予測分布は
近似分布を用いた予測分布の計算
 予測分布の計算
近似分布(ガウス分布)
このNNモデルのおかげで依然として積分計算が実行できない
の周りで展開して線形近似しよう
*積分計算*
exp[]の中身をまとめる→Z=W-WMAPで置換→2次形式の平方完成→多次元ガウス積分→exp[]の
中身をシャーマン・モリソンの公式を使って整える→「正方行列の行列式の積は積の行列式」により
正規化定数をまとめる
この近似により予測分布の積分計算が実行できて、
目次
Part1 ニューラルネットワークのベイズ推論
Part2 ニューラルネットワークのベイズ推論の効率化
Part3 ニューラルネットワークの確率的正則化
1. 同時分布のモデリング
2. 事後分布の推論
 ハミルトニアンモンテカルロ法による事後分布からのサンプリング
 ラプラス近似を用いた近似事後分布の導出
3. 予測分布の計算
1. 確率的勾配ランジュバン動力学法(サンプリングによる推論の効率化)
2. 確率的変分推論法(変分推論の効率化)
 スコア関数推定
 再パラメータ化勾配
3. 期待値伝搬法によるニューラルネットワークの学習(山場)
1. ドロップアウトのベイズ的解釈
2. バッチ正規化のベイズ的解釈
Part2
ニューラルネットワークのベイズ推論 発展編
-近似ベイズ推論の効率化-
確率的勾配ランジュバン動力学法
 確率的勾配ランジュバン動力学法とは
大規模なデータセットに対する計算効率を高めるため、ランジュバン動力学法
をミニバッチ学習可能な形に拡張する(確率的勾配降下法)
 確率的勾配降下法の更新式
 ランジュバン動力学法の更新式
比較
確率的勾配ランジュバン動力学法
 確率的勾配ランジュバン動力学法における重み更新式
以下のように置き換えればバッチ学習に拡張できる
重み更新式は、 として
学習率のスケジューリングによって
学習初期は探索、終盤は最小化
学習率のスケジューリングによって
需要率が1に漸近するため
勾配の不偏推定量が得られる
確率的変分推論法
 確率的変分推論法とは
大規模なデータセットに対する計算効率を高めるため、変分推論法をミニバッ
チ学習可能な形に拡張する(確率的勾配降下法)
 変分推論法
1. 近似分布qと事後分布間のKL Divを最小化(素直な方法)
2. ELBO最大化(周辺尤度の対数がELBOとKL Divの和で書けることと、上
の方法からこの方法でも変分推論可能だとわかる)
変分パラメータ(近似分布のパラメータ)
近似分布は
周辺尤度は
確率的変分推論法
 ELBOの定式化
ミニバッチでの計算に置き換える
このサンプリングによる学習における の期待値は、
上記のような書き換えで全データで計算されるELBOの不偏推定量が得られる
確率的変分推論法
 勾配法によるELBOの最大化
先の式の積分計算が実行できないのでこの勾配が計算できない
→この勾配計算をモンテカルロ法で近似計算する
 勾配のモンテカルロ近似
勾配計算を実行するためにWに対する積分をモンテカルロ法によって近似する
2つの具体的な方法をみていく
1. スコア関数推定
2. 再パラメータ化勾配
この計算をwの分布からのサンプリングによって推定したい
 スコア関数推定
下記の関係式をうまく使って勾配計算のサンプリングを行う
求めたい勾配は、
以上より、下記のようにqからwをサンプリングしてから微分を評価することで勾
配の不偏推定量が得られる
確率的変分推論法
確率的変分推論法
 再パラメータ化勾配
変分パラメータのない分布からサンプリングした値をwへと変換することでwの
サンプルを得る
求めたい勾配をwからεへと を用いて変数変換すると、
以上より、εをサンプリングして逆変換することで勾配の不偏推定量が得られる
 ガウス分布での再パラメータ化勾配の例
確率的変分推論法
変分パラメータを としたガウス分布
変数変換を施すと、
求めたい勾配は、 この分布からサンプ
リングすればよいこ
ともわかる
確率的変分推論法のアルゴリズム
 再パラメータ化勾配によるベイズNNのELBO最大化
ただし、全てのwは独立にガウス分布から生成されるとする
各wが独立であることに注意してwからεへの変数変換を施すと、
近似したい積分は、
確率的変分推論法のアルゴリズム
 再パラメータ化勾配によるベイズNNのELBO最大化(つづき)
上の分布からの1つのサンプル値 で積分を近似して、
上の式で計算されるELBOは不偏推定量となる
ELBOの勾配も不偏推定量となり、
2乗誤差なので誤差逆伝搬法で計算可能
 再パラメータ化勾配によるベイズNNのELBO最大化アルゴリズム
確率的変分推論法のアルゴリズム
Step1 データセットからM個のデータをランダム抽出しミニバッチを作成
Step2 M個のεをサンプリング
(M>100程度なら各データに対して1つのノイズでよい)
Step3 変分パラメータの勾配を計算する
Step4 変分パラメータを更新
Step1
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.1 まずはモデルの準備
事後分布は、
事後分布の近似分布を期待値伝搬法(逐次学習)によって求める
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.1 各確率変数が生成される分布
…
…
…
ReLU
(すべてのwは独立)
(i.i.d)
 5.2.5.2 近似分布の設定
5.2.5 期待値伝搬法による学習(この章のクライマックス)
計算効率化のために事前分布と同じ分布を用いて、
 近似分布の無情報化
学習の妨げとなるようなバイアスが入らないように学習に先立って分布を無情報
化する(各分布が一定になるようにパラメータを設定する)
近似分布qに情報を追加していく準備ができた
今から何をやるのか(計算タフすぎなので目的を肝に銘じる)
 逐次学習で近似事後分布qを更新
 パラメータの更新式
順伝搬で周辺尤度Zの計算を行い、逆伝搬で対数周辺尤度の勾配を計算し、
近似事後分布のパラメータを更新していく。周辺尤度の計算式と対数周辺尤
度の勾配の計算式を導きたい
仮定密度フィルタリングの枠組みで近似分布に追加していく情報は
4.2.4で確認した一般的な結果は
1. 事前分布因子(事前分布の持つ情報/belief)
を更新するための情報
2. 尤度因子(観測データの持つ情報/belief)
を更新するための情報
1. 周辺尤度Zが計算できればガンマ分布のパラメータを更新できる
2. 対数周辺尤度lnZの勾配が計算できればガウス分布のパラメータを更新できる
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.3 事前分布因子の導入
事前ガンマ分布のパラメータは一度で更新できるので逐次的な導入は要らず、
事前ガウス分布のパラメータは1つずつ逐次的に導入する
4.2.4の結果を利用すると、
を更新するためには の微分値が必要
を更新するためには の値が必要
上記の積分をなんとかして計算する必要がある
 5.2.5.3 事前分布因子の導入(つづき)
5.2.5 期待値伝搬法による学習(この章のクライマックス)
この分布の対数はそのままmとvで微分できる
←積分計算がガンマ関
数になるように置換
←t分布の2次モーメントをガウス分布の分散とした。
αとβが切り離されていないので定義式から変数変換に
よってベータ関数に帰着させて計算する
←ガウス積分
ガウス分布のパラメータの更新式は
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.3 事前分布因子の導入(つづき)
ガンマ分布のパラメータの更新式は
先の近似を行えば、最終結果のαをα+1とα+2にするだけで、Z1とZ2の積分
を近似していることになる。
Z1とZ2は
なので、
更新のイタレーションは
 5.2.5.4 尤度因子の導入
5.2.5 期待値伝搬法による学習(この章のクライマックス)
なので、
f()は複雑な非線形変換でどんな風に分布が変換されるかわからないので、
も何かしらの分布に従うはずで、
計算しやすいガウス分布 で丸ごと置き換えた
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.4 尤度因子の導入
次の目標は を求めること
重みwが確率変数なので入力層から確率が伝搬してゆき、順に計算していけば最
終層の出力の平均と分散がわかる
…
…
の平均と分散は
計算合わない・・・
各変数が生成される分布は
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.4 尤度因子の導入…
… ReLU
ReLU
ReLU
*中心極限定理*
l-1層のユニット数が十分に大きいとき、
活性の分布は正規分布に従う。
先ほど計算した平均と分散を用いて、
活性化関数はReLUなので0以下の定義域では出力が0になり0以上の領域は
恒等出力、これを二つの分布の混合分布と見なして平均と分散を計算する
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.4 尤度因子の導入
ReLUの活性領域は恒等変換でそれ以外の部分は0なので混合係数は
切断ガウス分布の平均と分散は
次のセルに入力される値の平均と分散が計算できた
5.2.5 期待値伝搬法による学習(この章のクライマックス)
その他のセルも同様の方法で計算でき、これを入力層から順伝搬ですべての
セルに適用することで出力層の平均と分散が計算できる
…
…
順伝搬で を更新
 5.2.5.4 尤度因子の導入
5.2.5 期待値伝搬法による学習(この章のクライマックス)
 5.2.5.4 尤度因子の導入
観測値と出力の平均の2乗誤差の微分
これは誤差逆伝搬法で計算できる
重みの平均と分散の更新式は、
微分の項に注目すると、
事前分布因子を追加した状態から、順伝搬計算と逆伝搬計算を繰り返し実行する
ことによって近似分布のパラメータを更新することができる
目次
Part1 ニューラルネットワークのベイズ推論
Part2 ニューラルネットワークのベイズ推論の効率化
Part3 ニューラルネットワークの確率的正則化
1. 同時分布のモデリング
2. 事後分布の推論
 ハミルトニアンモンテカルロ法による事後分布からのサンプリング
 ラプラス近似を用いた近似事後分布の導出
3. 予測分布の計算
1. 確率的勾配ランジュバン動力学法(サンプリングによる推論の効率化)
2. 確率的変分推論法(変分推論の効率化)
 スコア関数推定
 再パラメータ化勾配
3. 期待値伝搬法によるニューラルネットワークの学習(山場)
1. ドロップアウトのベイズ的解釈
2. バッチ正規化のベイズ的解釈
Part3
ニューラルネットワークのベイズ推論 発展編
-確率的正則化-
ベイズ推論と確率的正則化
1. モンテカルロドロップアウト
ドロップアウトを適用したミニバッチ損失関数の勾配が変分推論法にお
けるELBOの勾配と一致することを確認し、重みの近似事後分布からの
サンプリングによって予測値の平均と分散を計算する
2. バッチ正規化
バッチ正規化を適用したミニバッチ損失関数の勾配が変分推論法におけ
るELBOの勾配と一致することを確認し、あとはドロップアウトと同じ
3. 確率的勾配降下法とベイズ推論
NNの確率的正則化手法として使用されるドロップアウトとバッチ正規化を
ベイズ推論の枠組みで再解釈する
5.3.1 モンテカルロドロップアウト
 ドロップアウトを適用したNN
各セルのマスク
入力層
中間層
出力層
全体
←重みにマスクをかける形
5.3.1 モンテカルロドロップアウト
 重みの変数変換
 ドロップアウトを適用したNNの損失関数
N/Mでないのはなんで?
2乗誤差は対数尤度に由来するので対数尤度を用いて書きなおすと
0になってしまう
5.3.1 モンテカルロドロップアウト
 損失関数のWによる勾配
 再パラメータ化勾配による変分推論法の勾配
2つの勾配が同じになるときは
上式はうまく近似事後分布と事前分布を選べば成立させることができる
(KL Condition[26])
5.3.1 モンテカルロドロップアウト
KL Condition下では変分エネルギーの最小化と等価
 ドロップアウトを適用した学習のベイズ的解釈
再パラメータ化勾配による変分推論とのアナロジー(p128)
1. M個のデータをデータセットからサンプル
2. マスク変数をベルヌーイ分布からM点サンプリング(各データに
対して1点サンプリング)
3. 変数変換によりWmを計算し対数尤度の微分値とKL
Divergenceの微分値を計算
4. 得られた勾配で変分パラメータWを更新し近似事後分布を学習
学習済み事後分布で予測分布を計算することで予測の不確実性が求まる
 5.3.1.2 ドロップアウトを使った予測分布の近似
予測分布
5.3.1 モンテカルロドロップアウト
5.3.2 バッチ正規化
 バッチ正規化を適用したNNの損失関数
2乗誤差は対数尤度に由来するので対数尤度を用いて書きなおすと
の中で、
は、ミニバッチ毎にランダムに値がかわるので確率変数とみなすと、その値に
よって が変わりネットワークの挙動が変わるので次の変換を考えると、
Appendix
不確実性の伝搬における分散の計算
 一個のセルだけがつながっているとした場合で考える
 全微分から誤差・不確実性の伝搬を導く
 誤差の期待値から分散を計算する
不確実性の伝搬における分散の計算
 素直に期待値を計算していく
各項の期待値は次のようになる
それぞれ代入してまとめると
4になってしまう。論文は1

More Related Content

What's hot

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 

What's hot (20)

[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 

ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning

Editor's Notes

  1. 気持ち・全体ロジックの流れが大切
  2. Yが直接出てくるわけではなく、出てくるのはyの平均値
  3. ここまででモデリング終了。次にやるのは事後分布の導出
  4. Cはもう書いてないけどリープフロッグの微分のところで消えるから問題ない
  5. パラメータ数のところ要確認 事前分布から生成されるwからスタートして、誤差逆伝搬で新しいwを計算してそれが受容されたらそのwを更新する。つまり、受容=学習。Lステップたどるのが一回の学習に相当して、Lステップ後のwの値が事後分布からサンプルされたwとなる。Pは各ステップで正規分布からサンプリングする。Pのサンプリングがランダムだから最終的なwの値もランダム。
  6. さっきも見たけど、この勾配は誤差逆伝搬で計算する
  7. 第一項は、2階微分の非対角成分の微分はすべて0。第二項はそのままヘッセ行列の定義になる 最後の式の微分はWmapを求めるために更新していった時の最後の値を使う? これで事後分布は求まった。じゃあ最後のステップで求めた事後分布を使って予測分布を計算する
  8. Wは重みを縦に並べたベクトル HM法でこの予測分布を計算する場合は、q(W)からサンプルして、積分をモンテカルロ近似してやればよい
  9. Alpha_tプライムはsigma_yを含んでいることに注意。 最初の1/2って自然な形で出てくるの?
  10. 受容率1だと勾配の不偏推定量がえられるのはなんで?
  11. 周辺尤度はy|xになっていることに注意。Yじゃない
  12. KLダイバージェンスの方は二つの分布がガウス分布なら解析的に計算できてあとはそれを微分してやるだけ モンテカルロ近似をしてやるので、サンプリングするわけだが、サンプリングで求めた値(標本空間からのサンプリングで求めた値)がもとの値の不偏推定量(母集団のその値)となる方法でしか近似したらダメ。それを確認する必要がある。もちろんここで紹介する方法はそうなっている
  13. Https://qiita.com/Kosuke_Matsui/items/5d90af26b14a51accece Lnqが微分できる必要がある。実際にはIの分散がとても大きくなってしまうらしく、制御変量法などのテクニックが必要
  14. この方法をqがガウス分布だったときの例で実際に試してみると、
  15. 次の例はいよいよニューラルネットワーク
  16. 真面目に変数変換をすると、dε/dwの行列式。各重みは無相関なので、対角行列になって、 独立じゃないと行列式の計算が大変
  17. 独立なガウス分布をK個かけたらK次元の無相関のガウス分布で、εはこの分布からサンプリングすればよいことがわかる Εが確定したら、変換gで重みが決まって、ネットワークが決まる。変分パラメータで微分するということは重みで微分しているのと同じなので、誤差逆伝搬で計算できる
  18. [60]の論文。一つのデータに対して、L個のノイズを使って尤度の微分値を計算してその平均を微分値として使うがM>100とかならノイズのサンプル1つでいい
  19. 4章では変分推論の次に、さらに期待値伝搬法をやった。それを使ってNNを学習しましょう。つまり事後分布の近似分布を求めましょうということをやっていく。 モデリングは同時分布からスタート。ハイパラも推論します。 P(Y)はw gammay gammawに無関係
  20. これでモデリングは完了。次は事後分布の推論。
  21. 近似分布がガンマ分布なら周辺尤度Zが計算できれば、そのパラメータを更新できるし、近似分布がガンマ分布なら。周辺尤度は、尤度×事前分布のパラメータを積分消去したもの。 今回は分布がガンマ分布とガウス分布の積になっているけどそのまま適用できるかという疑問があった。4.2.4の計算を見ると、そのパラメータで微分・積分しているので、片方のパラメータを生成する分布は結局定数になる。 結論から言うと、
  22. 本が誤植だらけなので気を付けてください。
  23. Fは非線形変換なのでqハットと同じ分布に従うかどうかはわからない。よくわからんのでガウス分布で丸ごと置き換えてしまう
  24. mzLは結局ネットワークの出力なので、対数とって微分ってできない。しかもmzLの値自体も順伝搬計算をしないと計算できない Wが確率変数なので、入力層から確率が伝搬していく ユニットの個数で平均と分散が変わらないように、ユニットの個数で割る
  25. 活性化関数はユニットごとに作用されるので、ここからは一つのユニットだけの話を見ていく この導出は、
  26. ReLUだと直感的にそうかなと思うのですが、ほかの関数系だったらどうやって混合比求めるの?
  27. Mかvが変わったらwが変わって、その変化に対する出力の変化を見るので、誤差逆伝搬の枠組みを少し改造すれば計算できる
  28. Q(W, W)はDoを適用したNNのWmの近似事後分布。DOを適用したNNは重みがWm(確率変数)に見える。これをWからの変換だと解釈すれば、Wがxiに対応するので、KLダイバージェンスの中身もそれで書き換えてやると、(gの中身もちゃんと対応してる) 損失関数をWの関数にして、それをWで微分して勾配を求めることは変分推論法の勾配計算と同じことをしていることになる
  29. ドロップアウトを適用して、誤差逆伝搬で重みWを更新していくことは、 マスク変数を分布からサンプリングし、変数変換を行って再パラメータ化勾配で変分パラメータWに対する勾配近似を行い、その勾配を用いて近似分布中のWを更新していくことに対応している 学習済みの近似分布qを用いて、予測分布は次のように記述できる