ベイズ深層学習5章　ニューラルネットワークのベイズ推論　Bayesian deep learning

ニューラルネットワークのベイズ推論
ベイズ深層学習輪読会
Dec. 8 2019
@_oshiritantei

目次
Part1 ニューラルネットワークのベイズ推論
Part2 ニューラルネットワークのベイズ推論の効率化
Part3 ニューラルネットワークの確率的正則化
1. 同時分布のモデリング
2. 事後分布の推論
 ハミルトニアンモンテカルロ法による事後分布からのサンプリング
 ラプラス近似を用いた近似事後分布の導出
3. 予測分布の計算
1. 確率的勾配ランジュバン動力学法（サンプリングによる推論の効率化）
2. 確率的変分推論法（変分推論の効率化）
 スコア関数推定
 再パラメータ化勾配
3. 期待値伝搬法によるニューラルネットワークの学習（山場）
1. ドロップアウトのベイズ的解釈
2. バッチ正規化のベイズ的解釈

Part1
ニューラルネットワークのベイズ推論基本編

ベイズニューラルネットワークモデル
 ニューラルネットワークのベイズ推論とは
 この章でひたすら学ぶこと
ニューラルネットワークモデルの重みパラメータの事後分布の計算方法
ネットワークの挙動を支配するパラメータに事前分布を設定することで
確率的な学習や予測を行うこと
…
…
…
タスクに合わせて設計

ベイズ学習によるモデルの構築と推論
1. モデルの構築
観測データDとモデル内の未知のパラメータZに対して同時分布
を構築する
2. 推論の導出（学習）
事後分布を解析的または近似的に求める
3. 予測分布の導出
学習されたパラメータを用いて未観測データx*に対する予測分布
を導出する
上記３つのステップはニューラルネットワークのベイズ推論でも同じ

同時分布のモデリング
 ベイズニューラルネットワークモデルの問題設定（回帰問題）
 回帰モデル
ただし
 同時分布を構成する２つの分布
NNモデル

事後分布の推論-HM法によるサンプリング-
 パラメータの事後分布
 事後分布をポテンシャルエネルギーと見なす（）
(2.57)式

事後分布の推論-HM法によるサンプリング-
 リープフロッグ法（第層のユニットから第層のユニットへの重み）
なので誤差逆伝搬法で計算可能
Wを更新して誤差逆伝搬法で計算
HM法では、2×ステップ数の順/逆伝搬計算で1サンプリングできる

事後分布の推論-ラプラス近似による近似分布の導出-
 ラプラス近似の方針
Step 1: 事後分布が最大となるを求める
Step 2: 事後分布をを用いてガウス分布で近似する
 Step1 : MAP推定によりを求める
対数事後分布の勾配を用いて最大化
誤差逆伝搬法で計算可能

事後分布の推論-ラプラス近似による近似分布の導出-
 Step 2 : 事後分布をガウス分布で近似する
ただし、
1. 誤差逆伝搬法と同じように計算する
2. 最終層の出力の変化量の和で近似

近似分布を用いた予測分布の計算
 予測分布の導出
同時分布は
予測分布は

近似分布を用いた予測分布の計算
 予測分布の計算
近似分布（ガウス分布）
このNNモデルのおかげで依然として積分計算が実行できない
の周りで展開して線形近似しよう
*積分計算*
exp[]の中身をまとめる→Z=W-WMAPで置換→2次形式の平方完成→多次元ガウス積分→exp[]の
中身をシャーマン・モリソンの公式を使って整える→「正方行列の行列式の積は積の行列式」により
正規化定数をまとめる
この近似により予測分布の積分計算が実行できて、

Part2
ニューラルネットワークのベイズ推論発展編
-近似ベイズ推論の効率化-

確率的勾配ランジュバン動力学法
 確率的勾配ランジュバン動力学法とは
大規模なデータセットに対する計算効率を高めるため、ランジュバン動力学法
をミニバッチ学習可能な形に拡張する（確率的勾配降下法）
 確率的勾配降下法の更新式
 ランジュバン動力学法の更新式
比較

確率的勾配ランジュバン動力学法
 確率的勾配ランジュバン動力学法における重み更新式
以下のように置き換えればバッチ学習に拡張できる
重み更新式は、として
学習率のスケジューリングによって
学習初期は探索、終盤は最小化
学習率のスケジューリングによって
需要率が１に漸近するため
勾配の不偏推定量が得られる

確率的変分推論法
 確率的変分推論法とは
大規模なデータセットに対する計算効率を高めるため、変分推論法をミニバッ
チ学習可能な形に拡張する（確率的勾配降下法）
 変分推論法
1. 近似分布qと事後分布間のKL Divを最小化（素直な方法）
2. ELBO最大化（周辺尤度の対数がELBOとKL Divの和で書けることと、上
の方法からこの方法でも変分推論可能だとわかる）
変分パラメータ（近似分布のパラメータ）
近似分布は
周辺尤度は

 ELBOの定式化
ミニバッチでの計算に置き換える
このサンプリングによる学習におけるの期待値は、
上記のような書き換えで全データで計算されるELBOの不偏推定量が得られる

 勾配法によるELBOの最大化
先の式の積分計算が実行できないのでこの勾配が計算できない
→この勾配計算をモンテカルロ法で近似計算する
 勾配のモンテカルロ近似
勾配計算を実行するためにWに対する積分をモンテカルロ法によって近似する
２つの具体的な方法をみていく
1. スコア関数推定
2. 再パラメータ化勾配
この計算をwの分布からのサンプリングによって推定したい

 スコア関数推定
下記の関係式をうまく使って勾配計算のサンプリングを行う
求めたい勾配は、
以上より、下記のようにqからwをサンプリングしてから微分を評価することで勾
配の不偏推定量が得られる

 再パラメータ化勾配
変分パラメータのない分布からサンプリングした値をwへと変換することでwの
サンプルを得る
求めたい勾配をwからεへとを用いて変数変換すると、
以上より、εをサンプリングして逆変換することで勾配の不偏推定量が得られる

 ガウス分布での再パラメータ化勾配の例
変分パラメータをとしたガウス分布
変数変換を施すと、
求めたい勾配は、この分布からサンプ
リングすればよいこ
ともわかる

確率的変分推論法のアルゴリズム
 再パラメータ化勾配によるベイズNNのELBO最大化
ただし、全てのｗは独立にガウス分布から生成されるとする
各wが独立であることに注意してｗからεへの変数変換を施すと、
近似したい積分は、

 再パラメータ化勾配によるベイズNNのELBO最大化（つづき）
上の分布からの1つのサンプル値で積分を近似して、
上の式で計算されるELBOは不偏推定量となる
ELBOの勾配も不偏推定量となり、
2乗誤差なので誤差逆伝搬法で計算可能

 再パラメータ化勾配によるベイズNNのELBO最大化アルゴリズム
Step1 データセットからM個のデータをランダム抽出しミニバッチを作成
Step2 M個のεをサンプリング
（M>100程度なら各データに対して１つのノイズでよい）
Step3 変分パラメータの勾配を計算する
Step4 変分パラメータを更新
Step1

5.2.5 期待値伝搬法による学習（この章のクライマックス）
 5.2.5.1 まずはモデルの準備
事後分布は、
事後分布の近似分布を期待値伝搬法（逐次学習）によって求める

 5.2.5.1 各確率変数が生成される分布
…
…
…
ReLU
(すべてのwは独立)
(i.i.d)

 5.2.5.2 近似分布の設定
計算効率化のために事前分布と同じ分布を用いて、
 近似分布の無情報化
学習の妨げとなるようなバイアスが入らないように学習に先立って分布を無情報
化する（各分布が一定になるようにパラメータを設定する）
近似分布qに情報を追加していく準備ができた

今から何をやるのか（計算タフすぎなので目的を肝に銘じる）
 逐次学習で近似事後分布qを更新
 パラメータの更新式
順伝搬で周辺尤度Zの計算を行い、逆伝搬で対数周辺尤度の勾配を計算し、
近似事後分布のパラメータを更新していく。周辺尤度の計算式と対数周辺尤
度の勾配の計算式を導きたい
仮定密度フィルタリングの枠組みで近似分布に追加していく情報は
4.2.4で確認した一般的な結果は
1. 事前分布因子（事前分布の持つ情報/belief）
を更新するための情報
2. 尤度因子（観測データの持つ情報/belief）
を更新するための情報
1. 周辺尤度Zが計算できればガンマ分布のパラメータを更新できる
2. 対数周辺尤度lnZの勾配が計算できればガウス分布のパラメータを更新できる

 5.2.5.3 事前分布因子の導入
事前ガンマ分布のパラメータは一度で更新できるので逐次的な導入は要らず、
事前ガウス分布のパラメータは１つずつ逐次的に導入する
4.2.4の結果を利用すると、
を更新するためにはの微分値が必要
を更新するためにはの値が必要
上記の積分をなんとかして計算する必要がある

 5.2.5.3 事前分布因子の導入（つづき）
この分布の対数はそのままmとvで微分できる
←積分計算がガンマ関
数になるように置換
←t分布の2次モーメントをガウス分布の分散とした。
αとβが切り離されていないので定義式から変数変換に
よってベータ関数に帰着させて計算する
←ガウス積分
ガウス分布のパラメータの更新式は

 5.2.5.3 事前分布因子の導入（つづき）
ガンマ分布のパラメータの更新式は
先の近似を行えば、最終結果のαをα+1とα+2にするだけで、Z1とZ2の積分
を近似していることになる。
Z1とZ2は
なので、
更新のイタレーションは

 5.2.5.4 尤度因子の導入
なので、
f()は複雑な非線形変換でどんな風に分布が変換されるかわからないので、
も何かしらの分布に従うはずで、
計算しやすいガウス分布で丸ごと置き換えた

次の目標はを求めること
重みwが確率変数なので入力層から確率が伝搬してゆき、順に計算していけば最
終層の出力の平均と分散がわかる
…
…
の平均と分散は
計算合わない・・・
各変数が生成される分布は

 5.2.5.4 尤度因子の導入…
… ReLU
ReLU
ReLU
*中心極限定理*
l-1層のユニット数が十分に大きいとき、
活性の分布は正規分布に従う。
先ほど計算した平均と分散を用いて、
活性化関数はReLUなので0以下の定義域では出力が０になり0以上の領域は
恒等出力、これを二つの分布の混合分布と見なして平均と分散を計算する

ReLUの活性領域は恒等変換でそれ以外の部分は0なので混合係数は
切断ガウス分布の平均と分散は
次のセルに入力される値の平均と分散が計算できた

その他のセルも同様の方法で計算でき、これを入力層から順伝搬ですべての
セルに適用することで出力層の平均と分散が計算できる
…
…
順伝搬でを更新

観測値と出力の平均の2乗誤差の微分
これは誤差逆伝搬法で計算できる
重みの平均と分散の更新式は、
微分の項に注目すると、
事前分布因子を追加した状態から、順伝搬計算と逆伝搬計算を繰り返し実行する
ことによって近似分布のパラメータを更新することができる

Part3
ニューラルネットワークのベイズ推論発展編
-確率的正則化-

ベイズ推論と確率的正則化
1. モンテカルロドロップアウト
ドロップアウトを適用したミニバッチ損失関数の勾配が変分推論法にお
けるELBOの勾配と一致することを確認し、重みの近似事後分布からの
サンプリングによって予測値の平均と分散を計算する
2. バッチ正規化
バッチ正規化を適用したミニバッチ損失関数の勾配が変分推論法におけ
るELBOの勾配と一致することを確認し、あとはドロップアウトと同じ
3. 確率的勾配降下法とベイズ推論
NNの確率的正則化手法として使用されるドロップアウトとバッチ正規化を
ベイズ推論の枠組みで再解釈する

5.3.1 モンテカルロドロップアウト
 ドロップアウトを適用したNN
各セルのマスク
入力層
中間層
出力層
全体
←重みにマスクをかける形

 重みの変数変換
 ドロップアウトを適用したNNの損失関数
N/Mでないのはなんで？
2乗誤差は対数尤度に由来するので対数尤度を用いて書きなおすと
0になってしまう

 損失関数のWによる勾配
 再パラメータ化勾配による変分推論法の勾配
２つの勾配が同じになるときは
上式はうまく近似事後分布と事前分布を選べば成立させることができる
（KL Condition[26]）

KL Condition下では変分エネルギーの最小化と等価
 ドロップアウトを適用した学習のベイズ的解釈
再パラメータ化勾配による変分推論とのアナロジー（p128）
1. M個のデータをデータセットからサンプル
2. マスク変数をベルヌーイ分布からM点サンプリング（各データに
対して１点サンプリング）
3. 変数変換によりWmを計算し対数尤度の微分値とKL
Divergenceの微分値を計算
4. 得られた勾配で変分パラメータWを更新し近似事後分布を学習
学習済み事後分布で予測分布を計算することで予測の不確実性が求まる

 5.3.1.2 ドロップアウトを使った予測分布の近似
予測分布

5.3.2 バッチ正規化
 バッチ正規化を適用したNNの損失関数
2乗誤差は対数尤度に由来するので対数尤度を用いて書きなおすと
の中で、
は、ミニバッチ毎にランダムに値がかわるので確率変数とみなすと、その値に
よってが変わりネットワークの挙動が変わるので次の変換を考えると、

不確実性の伝搬における分散の計算
 一個のセルだけがつながっているとした場合で考える
 全微分から誤差・不確実性の伝搬を導く
 誤差の期待値から分散を計算する

不確実性の伝搬における分散の計算
 素直に期待値を計算していく
各項の期待値は次のようになる
それぞれ代入してまとめると
４になってしまう。論文は1

ベイズ深層学習5章　ニューラルネットワークのベイズ推論　Bayesian deep learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)