1/33
Variational Inference and Normalizing Flows
新田 晃大
関西学院大学大学院 理工学研究科
http://www.akihironitta.com
2019 年 5 月 22 日
2/33
Agenda
• 変分推論
• 変分推論とは
• 変分推論の課題
• Normalizing flow による変分推論
• 概要
• 確率密度関数
• 分布の近似結果
• Amortized VI との組み合わせ
• Normalizing flow を用いた生成モデル
• 性質
3/33
変分推論
4/33
変分推論とは
真の事後分布に近くなるようにある近似分布のクラスから近似分布を求める
なぜ近似が必要か
あるモデルを作ったとき、多くの場合、
事後分布が解析的に得られない。
5/33
変分推論の課題 1. 分布間の「距離」
Ø alpha-divergence [Li+ NIPS16]
Ø Kullbuck-Leibler divergence (多くの場合)
Ø Chi-divergence [Dieng+ NIPS17]
分布の近さが ”正しく” 測れているのか
6/33
変分推論の課題 2. 近似分布の柔軟性/表現力
Ø Mean Field VI
Ø Amortized VI [Kingma+ ICLR14]
Ø VI with Normalizing Flows [Rezende+ ICML15]
分解仮定
パラメータ共有
真の事後分布を十分に近似できる柔軟性を持つのか
7/33
変分推論の課題 3. 最適化
Ø Coordinate descent
[Bishop 06, Chap. 10]
Ø Stochastic VI [Hoffman+ 13]
Ø 勾配ベースの最適化法
(SGD, Adam, etc.)
(近似分布のクラスの中で)
良い近似が得られるのか
8/33
Normalizing Flow による変分推論
9/33
Normalizing flow の概要
目的: 変分推論の近似分布のクラスを広くすること
アイデア: 単純な分布に従う確率変数を非線形変換を繰り返して、複雑な分布を表現
単純な分布 複雑な分布
[Rezende+ ICML15, Figure 1]
・ ・ ・
10/33
Normalizing flow の概要
目的: 変分推論の近似分布のクラスを広くすること
アイデア: 単純な分布に従う確率変数を非線形変換を繰り返して、複雑な分布を表現
単純な分布 複雑な分布
[Rezende+ ICML15, Figure 1]
・ ・ ・
具体的にどんな分布になるのか =>
ポイント: 変換は可逆
11/33
* 確率変数の変換 1 次元
確率変数
変数変換
確率密度関数の変換公式
12/33
* 確率変数の変換 多次元
確率変数
変数変換
確率密度関数の変換公式
例: 直交座標から極座標への変換 (D=2)
変数変換が可逆であれば、
ヤコビ行列の行列式が計算できるため、変換後の分布を扱える。
13/33
Normalizing flow
確率密度関数 (変換前)
確率密度関数 (変換後)
確率密度関数 (K 回変換後)
…
この確率分布は、K 回の変数変換により、とても複雑
例:
…
単純な分布に従う確率変数を非線形変換を繰り返すことで、複雑な分布を表現する。
14/33
Normalizing flow
確率密度関数 (変換前)
確率密度関数 (変換後)
確率密度関数 (K 回変換後)
…
ヤコビ行列の行列式が計算できれば、何回変数変換しても、確率密度関数は求められる。
例:
…
単純な分布に従う確率変数を非線形変換を繰り返すことで、複雑な分布を表現する。
15/33
具体的な変数変換
変数変換が持つべき性質
> 可逆な変換
> ヤコビ行列行列式の計算コストが低い
具体的な変換例
> planar flow
> radial flow
16/33
特徴
Ø O(D) でヤコビ行列の行列式が計算可
Ø h とパラメータの値によっては非可逆
Planar flow
ヤコビ行列の行列式の計算コストが低い、変数変換を採用したい。
変数変換
学習するパラメータ
ヤコビ行列の行列式
ただし、
ただし、 は非線形関数
詳細は [Rezende+ ICML15, A.1.]
17/33
変分下界の最大化
周辺尤度
周辺尤度の下界
近似分布
ただし
下界を変分パラメータ について最大化すればよい。
サンプルで近似
18/33
* Law of the Unconscious Statistician (LOTUS)
変数変換後の分布を知らなくても、期待値が計算できる という性質、定理
証明は [Rumbos 08]
例
19/33
Normalizing flow による分布近似 1/2
K=2 K=8 K=32真
1
2
3
4
変数変換の回数 (K) が増えると、
近似分布の表現力が上がる。
[Rezende+ ICML15, Figure 3 (a) (b)]
20/33
Normalizing flow による分布近似 2/2
変数変換の回数 (K) が増えると、良い近似が得られている (KL が小さいという意味で)
[Rezende+ ICML15, Figure 3 (d)]
21/33
Normalizing flow と VAE の組み合わせ 1/5
encoder decoder
VAE の構造
(amortized variational inference)
[Rezende+ ICML15, Figure 2] を一部改変
22/33
Normalizing flow と VAE の組み合わせ 2/5
encoder decoder
normalizing flowNF + VAE の構造
[Rezende+ ICML15, Figure 2] を一部改変
23/33
Normalizing flow と VAE の組み合わせ 3/5
VAE の構造
NF + VAE の構造
encoder decoder
encoder decoderNF
24/33
Normalizing flow と VAE の組み合わせ 4/5
VAE の生成モデル
VAE の推論モデル (近似事後分布)
VAE+NF の推論モデル (近似事後分布)
👈 ここまでは VAE と同じ
多峰を表現できない
多峰を表現できる
25/33
Normalizing flow と VAE の組み合わせ 5/5
2. 近似事後分布からサンプリング
1. ミニバッチ用意
3. ELBO 計算 (ELBO をサンプルで近似)
4. 変分/モデルパラメータに関して微分し、更新
“The resulting algorithm is a simple modification of amortized inference algorithm for DLGMs”
[Rezende+ ICML15, Algorithm 1]
26/33
Normalizing Flow を用いた生成モデル
[Ermon+ 18]
27/33
Normalizing flow モデル
Ø NF は新たな変分推論法として提案されたが、生成モデルにも適用可
単純な分布 複雑な分布
・ ・ ・
潜在変数の分布 観測変数の分布
28/33
Normalizing flow モデルの性質
1. 新たなデータ点の生成が容易
・ ・ ・
潜在変数の分布 観測変数の分布
29/33
Normalizing flow モデルの性質
2. 潜在表現が得られる (VAE のように、推論ネットワーク (encoder) を用意しなくてもよい)
・ ・ ・
潜在変数の分布 観測変数の分布
30/33
Normalizing flow モデルの性質
VAE
3. 尤度が厳密に計算可能 (近似不要)
NF モデル
31/33
Normalizing flow モデルの性質
1. サンプリングが容易
3. 尤度が計算可能 (近似不要)
注意: 観測変数と潜在変数が同じ次元でなければならない。
2. 潜在表現が得られる (推論モデルなし/encoder なし)
32/33
参考文献
• [Bishop 06] Bishop, C. M. (2006). Pattern recognition and machine learning. springer.
• [Dieng+ NIPS17] Dieng, A. B., Tran, D., Ranganath, R., Paisley, J., & Blei, D. (2017).
Variational Inference via χ Upper Bound Minimization. In Advances in Neural
Information Processing Systems (pp. 2732-2741).
• [Ermon+ 18] Ermon S. & Grover A. (2018). Normalizing flow models (CS236 course
notes). https://deepgenerativemodels.github.io/notes/flow/.
• [Grover+ AAAI18] Grover, A., Dhar, M., & Ermon, S. (2018, April). Flow-GAN:
Combining maximum likelihood and adversarial learning in generative models. In Thirty-
Second AAAI Conference on Artificial Intelligence.
• [Kingma+ ICLR14] Kingma, D. P., & Welling, M. (2014). Auto-encoding variational
Bayes. arXiv preprint arXiv:1312.6114.
• [Li+ NIPS16] Li, Y., & Turner, R. E. (2016). Rényi divergence variational inference. In
Advances in Neural Information Processing Systems (pp. 1073-1081).
• [Rezende+ ICML15] Rezende, D. J., & Mohamed, S. (2015). Variational inference with
normalizing flows. arXiv preprint arXiv:1505.05770.
• [Rumbos 08] Rumbos A. J. (2008). Probability lecture notes.
https://pages.pomona.edu/~ajr04747/Spring2008/Math151/Math151NotesSpring08.pd
f.
33/33
その他資料
• おすすめ (変分ベイズ/深層生成モデルのチュートリアル)
• Variational Bayes and beyond: Bayesian inference for big data (ICML2018),
http://www.tamarabroderick.com/tutorial_2018_icml.html
• Variational Inference: Foundations and Innovations,
http://www.cs.columbia.edu/~blei/talks/Blei_VI_tutorial.pdf
• Tutorial on Deep Generative Models (IJCAI-ECAI 2018),
https://drive.google.com/file/d/1uwvXkKfrOjYsRKLO7RK4KbvpWmu_YPN_/view?usp=shari
ng
• Tutorial on Deep Generative Models (UAI 2017),
https://www.shakirm.com/slides/DeepGenModelsTutorial.pdf
• その他
• Normalizing Flows Tutorial, Part 1: Distributions and Determinants,
https://blog.evjang.com/2018/01/nf1.html
• Flow-based Deep Generative Models, https://lilianweng.github.io/lil-log/2018/10/13/flow-
based-deep-generative-models.html
• Variational Inference with Normalizing Flowsを読んだのでメモ,
http://peluigi.hatenablog.com/entry/2018/07/12/140528
• Up to GLOW, https://www.slideshare.net/ShunsukeNAKATSUKA1/up-to-glow
• DL輪読会 Flow-based Deep Generative Models,
https://www.slideshare.net/DeepLearningJP2016/dlflowbased-deep-generative-models

変分推論と Normalizing Flow