PRML学習者から入る深層生成モデル入門

DEEP GENERATIVE MODEL
ベイズ手法×深層学習
M1 太田真人
May 15 , 2019
Okadome Lab. K.G.U.
１/73

まえおき
¡ 深層生成モデルをテーマに，最近のベイズとNNの融合の話題を理解する.
¡ 実際の文章生成モデルのような応用モデルは紹介しない.
¡ PRMLを読んだことある人が対象者.
2/73

アジェンダ
n Deep Generative Model
¡ LatentVariable Model
¡ Maximum Likelihood, Likelihood free
¡ VAE (Likelihood based Generative Model)
¡ Amortized VI and KL collapse
¡ Implicit Generative Model
¡ GAN Algorithm
¡ Variational Inference using Implicit Models
3/73

生成モデル：入門
生成モデル：データの生成過程を（仮説を立て）モデル化したもの.
データ生成モデル
パラメータを学習
生成
4/73

生成モデルの利用例
¡ サンプリング
未知のデータを生成できる.
n 密度推定
データを入力すると，密度が得られる.
外れ値検出や異常検知に用いられる. (異常値は密度が小さくなる.)
n 欠損値補完, ノイズ除去
欠損やノイズのある入力を入力すると，真のを推定できる.
n 教師なし学習 (表現学習)
異常値
[Karras 18]
5/73

潜在変数を用いた生成モデル
z
x
θ
+ x がサンプリングしやすい.
+ x の特徴をz が捉えられる.
- 周辺尤度の計算が難しい.
- 一般に，入力に対応する潜在変数を
決める問題は難しい.
N
モデル
対数周辺尤度
観測データ
6/73

深層潜在変数モデル
¡ NNにより，潜在変数を非線形変換し，データの生成をおこなう確率モデル.
利点：生成できるものに幅が増えた.
¡ NNがRNN(LSTM) の場合.
生成：音声, 文章, 音楽
¡ NNがCNNの場合.
生成：画像
¡ NNがGNNの場合.
生成：グラフ
z1 z2 z3 z4
h1 h2 h3
x
p(z)
p(x|z ;θ )
標準ガウス
NN
Ex.) RBM,VAE, GAN
7/73

生成モデルの学習指針
真のデータ分布
生成モデル
分布の距離
目標：真のデータ分布をモデルで近似する.
モデル族
[Grover 18]
8/73

¡ P(x)：混合ガウス分布
¡ q(x)：近似分布（単峰ガウス分布）
KL DIVERGENCE による分布近似
x x
：最尤推定，EP法
：変分推論
p(x)
q(x)
p(x)
q(x)
確率p(x)の高い部分にq(x)の高い確率を割り当てる. 確率p(x)の低い部分にq(x)の低い部分を割り当てる.
9/73

*KL DIVERGENCE (MAXIMUM LIKELIHOOD, EP法の場合)
最小化
固定
¡ 情報量 -log q(x) は確率q(x) が低いほど大きい.
¡ p(x) = 0 の領域はKLの最小化に影響がない.
¡ p(x) の確率が高い領域に, q(x) の低い情報量(高確率)を割り当てる.
p(x)
q(x)
10/73

*KL DIVERGENCE (変分推論の場合)
p(x)情報量：小.
p(x)情報量：大.
q(x):エントロピー最大化
固定
¡ p(x) の確率が極端に低い領域は情報量が大きい, (KLの最小化に影響大.)
¡ p(x) の確率が低い領域に, q(x) の低い確率を割り当てる.
¡ q(x) が尖った分布にならないのはエントロピー最大化の影響.
最小化
11/73

¡ どうやって真の分布をモデルで近似するのか？
¡ 解析的に周辺尤度（モデル）を扱えるのか？
生成モデルの学習 ⑴
解決法1：d = KL divergence
= + const.
尤度最大化
潜在変数モデルでは、ほぼ扱えない.
例：VAE, RBM
等価
潜在変数モデルの場合(周辺尤度最大化)
12/73

モデルが解析的に扱えない場合の学習方法
¡ 尤度(モデル)が解析的に扱えない時の対策方法.
ー周辺尤度(モデル)の近似推論（MCMC, VI）
ー Likelihood-free Inference (ex. 敵対的学習)
z
ELBO
対数尤度 D
1,1,…,10,0,…,0
最終 : 1,0,…,1,0
MCMC 変分推論敵対的学習
13/73
1,0,…,0,1

尤度なしベース LIKELIHOOD FREE
¡ どうやってモデルを近似するのか？
¡ 解決策２：Two sample Test（２標本検定）
¡ ２つの母集団が同質か異質かを調べる.
：識別器.
Likelihood-free!
例）GAN（Generative Adversarial Network）.
14/73

¡ 密度比と密度差に分別される Likelihood-free Inference.
LIKELIHOOD FREE INFERENCE
GAN
MMD
[Mohamed 17]
この話は後半.
15/73

まとめ１
ü 生成モデルは，データの生成過程をモデル化したもの.
ü 生成モデルの学習は，データ分布に近づけること.
¡ 尤度最大化 KL-divergence
¡ Two sample test
ü モデルが明示的に扱えない場合
¡ 尤度ベース近似推論 (VI, MCMC).
¡ 非尤度ベース Likelihood-free推論 (密度比推定, 密度差推定 ex.GAN, MMD)
16/73

アジェンダ
¡ GAN Algorithm
17/73

VAE（ VARIATIONAL AUTO-ENCODERS）
¡ 尤度ベースの深層潜在変数モデル.
学習：変分推論による周辺尤度下界(ELBO)の最大化.
目的：新しい x の生成, 潜在変数空間の可視化.
n 確率モデル
z
x
生成ネットワークz
事前確率
尤度関数グラフィカルモデル
同時確率
[Kingma andWelling 14]
18/73

¡ 周辺尤度の最大化に近似分布を導入する.
MAXIMUM LIKELIHOOD ESTIMATION
ELBO最大化.
ELBO
詳しい式変形は次のスライドを見てください.
(1)
近似分布
19/73

*（1）の式変形
=1積分=1
(1)
20/73

ELBOの最大化
再構成誤差項正規化項
n 近似事後分布は，標準ガウス分布から外れず, データを再構成するように学習される.
あるデータ点についてELBOを書き下す.
21/73

*イェンセンの不等式からELBO導出
凹関数にイェンセンの不等式を用いると,
ただし,
ELBOの最大化
=
=1
論文でよく見る式変形はこちら
イェンセンの不等式はPRML上巻の1.6節.
22/73

近似事後分布
¡ 近似事後分布にはNNを用いた分布を使用.
¡ データ点ごとに平均と分散が異なるガウス分布.
400
784
50
50
変分パラメータを全データで共有（AmortizedVI）.
変分パラメータ
23/73

VAEの全体構造
400
784
50
50
400
784
z
50
z
x
生成ネットワーク
推論ネットワーク
NNのアーキテクチャグラフィカルモデル
生成ネットワーク推論ネットワーク
※ベイズモデルではない. [Kingma 14]
- モデルパラメータに分布を仮定するとなる.
24/73

パラメータの学習
¡ E-step 事後確率の計算
¡ M-step 周辺尤度の最大化
サンプルL回
変分パラメータの更新(近似事後分布の推定)
NNのパラメータ最大化
(reparameterization trick)
等価
25/73

潜在変数空間の意味合いとその研究
¡ 尤度最大化により，目に見えない真のデータ分布にモデルを近づけた.
¡ 同時に，近似事後分布により，データの多様体を潜在変数空間で学習していた.
n これは事前分布p(z) に依存する.
[Kingma 14]
VAEの最適なPrior
※データが多くないと表現できない分布.
最適な事前分布を探す研究が行われている[Tomczak 18].
Aggregated Posterior
26/73

*VAEの最適な事前分布の導出準備
VAEの目的関数
事前分布
簡単にここまでをまとめると，
観測データで近似
27/73

VAEの最適な事前分布の目的関数
ELBO最大化になる事前分布を最適な事前分布という.
経験ベイズ（事前分布のパラメータを学習する話）と似ている.
しかし，今回は分布のパラメータではなく，確率分布そのものをデータから推定する話.
※データが多くないと学習がうまくいかないであろう分布.
気持ちは自分の信念をほぼ捨てて，データから最適な事前分布を見つけてもらう話.
28/73

VAEの最適な事前分布の導出（１）
に関する項を取り出す( . )
(近似事後分布の期待値を積分表現. )
負の交差エントロピーの最大化
[Takahashi 18]
29/73

VAEの最適な事前分布の導出（２）
目的関数が最大になるときは，負の交差エントロピーが０のとき.
, .
¡ 負の交差エントロピーの最大化
したがって，
30/73

最適な事前分布を導入したVAEの目的関数
¡ 目的関数
¡ Optimal Prior の例
ガウス分布の和混合ガウス分布
Pseudo data inputs
Kl項の計算はMonte Carlo 近似.
[Tomczak 18]
31/73

まとめ２
ü VAE は，潜在変数z をサンプリングし，NNの非線形変換によってデータを生成する確率モデル.
ü モデルパラメータの学習は，尤度最大化の近似でELBO最大化を行う.
ü ELBO最大化において，潜在変数の近似事後分布のパラメータに推論ネットワークを用いる.
ü 近似事後分布により, 潜在変数空間にデータを非線形射影した多様体表現が可能.
32/73

アジェンダ
¡ GAN Algorithm
33/73

今までの変分推論
PPCA
ガウス分布 2峰混合ガウス分布
変分パラメータ：データの数に応じて増える. 新しいデータ点に対しては？
データごとに独立.
¡ 解析的に潜在変数の事後分布が求まらない.
¡ 近似事後分布の導入
データ空間
潜在空間
34/73

BLACK BOX INFERENCE
¡ ELBOの最大化
事前分布とモデルパラメータを尤度最大推定.
変分パラメータの推定.
Reparameterization trick を用いる.勾配の計算
各パラメータ更新
[Kingma andWelling 14]
35/73

AMORTIZED VARIATIONAL INFERENCE
¡ Amortized VI
¡ 観測データから近似事後分布のパラメータに写像する関数（NN）を導入する.
¡ 利点：観測データ数に応じて，変分パラメータ数が一定になった.
新しい観測データのとき，NNを通すだけで近似事後分布が作られる.
NNのパラメータ数＜観測データ数＊パラメータ2つ
A fully factorized Gaussian
36/73

AMORTIZATION GAP
¡ AmortizedVIの変分下界が, 最適な変分下界に達しない.
¡ 全隠れ変数に対応するNNを学習するのが問題.
全データで変分パラメータが
共有されるために起きる?
[Cremer 18]
37/73

アジェンダ
¡ GAN Algorithm
38/73

¡ 別名：Posterior Collapse, LatentVariable Collapse
¡ 潜在変数zの事後分布が事前分布と一致し, データの特性を捉えない現象.
KL COLLAPSE
正確な原因は不明
近似分布の学習が再構成誤差を小さくするより先に，KLの最小化が先に行われる.
その結果，近似事後分布は事前分布とのKL divergenceが０になる.
尤度関数のNNの表現力が豊か扱うデータが複雑
= 0 KL collapse
39/73

研究者の仮説と対策（１）
¡ [Bowman 16]
仮説：学習序盤，近似事後分布と事前分布のKLの効果が，再構成誤差を減らすより優先されている.
対策： (KL cost Annealing)
近似事後分布に再構成を優先的に学習してもらい，徐々にKLの項の影響を強める.
KL項の重み（0→1）
KL項の値
後に，複雑なデータだとKL collapseが起きるとわかった.
引用：[Xu 18]
40/73

研究者の仮説と対策（2）
¡ [Xu 18]
仮説：KL項の最小化にNNのパラメータが力を入れている. （先ほどと同様）
対策：近似事後分布が事前分布と一致しないように，KL項の計算にNNの出力を依存させない.
具体的には，z の事前分布をvon Mises-Fisher分布に変更した.
近似事後分布単位円上の一様分布
NNの出力が事前分布のパラメータに一致することをなくした.
41/73

研究者の仮説と対策（3）
仮説：学習の繰り返しステップで，尤度関数の学習の速さに近似分布の学習がついて行けない.
[He 19]
対策：EMアルゴリズムのEstep の学習を，ある基準をもとに反復的に行うことでKL collapseを回避.
KL collapse
しかし，KL collapseが延命されているだけで,
十分に学習するといずれKL collapseになるとか.
42/73
基準：[Hoffman & Johnson 16]が提案した相互情報量.

実際に画像の生成をやってみた
¡ Encoder Decoderの設定
400
z
2
784 784
2
学習データ MNINST 訓練5万, テスト1万 , バッチ256, epoch 50,Adam, 学習率0.003 ,非線形関数 ReLU
[1]
400
43/73

潜在空間の可視化と生成
¡ 256データを射影し，2次元潜在空間 z で可視化.
¡ 画像の生成
0
1
2
3
4 5
6
7
89[0., 0.] [-0.3,-0.3]
[-3,-3]
44/73

なぜ画像がぼやけるのか？
¡ 仮説：学習アルゴリズムが最尤推定(ELBO)だから.
真のデータの確率密度の低い部分にも確率が割り当てられている説.
p(x)
尤度最大 ELBO最大
x
45/73

まとめ３
ü NNを用いた確率モデルの変分推論をAmortized Variational Inferenceという．
ü KL collapseは，近似事後分布が事前分布に一致することをいう.
ü VAEを実装し，潜在変数空間を可視化した.
46/73

アジェンダ
47/73

IMPLICIT GENERATIVE MODELS
[Mohamed 17]
¡ prescribed probabilistic models
観測変数が従う確率分布を明示的に与えるモデル. 基本的にこっちが多い
¡ Implicit probabilistic models
直接データを生成する確率的手続きを定義するモデル.
例）天気や気候，集団遺伝学，生態学，画像
出力に分布を仮定したら, prescribed models になるから両者の意識は不要.
モデルパラメータの学習
× MLE
◎Likelihood-free
48/73

ここからの流れ
¡ 暗黙的な生成モデルの代表例
GAN [Goodfellow 14]
n GANのアルゴリズムは, データを生成するモデルとして利用されてきた.
ここでは，GANのアルゴリズムを復習しつつ，その汎用性を知る.
その例として，GANによる潜在変数の近似事後分布のモデル化を紹介.
49/73

GAN の概要
1,1,…,10,0,…,0
最終 : 1,0,…,1,0
分類
最初:
真のデータにラベル
この確率分布の外形が分からないから近似分布と密度比推定をする.
目標：と同じようなサンプルを生成するを学習すること.
n GAN argorithm
Two sample test の密度比推定の中でも，クラス確率推定の手法.
仮定
を割り当てる．
50/73
1,0,…,0,1
( , 分布が完全に一致 )

¡ 密度比推定
密度推定の式変形
データを半分ずつ用意した場合, 不均衡な場合,
密度推定を分類問題に話をすり替える！
51/73

識別器の損失関数
¡ 識別器は正しく分類を行うようにパラメータを学習.
¡ 交差エントロピーの最小化
NN
52/73

*損失関数の式変形
(1) (2)
(1), (2)より
53/73

式から読み解くGANアルゴリズム
両方のサンプル数が等しいとき，
→ 0.999 → 0.001
→ 0.999
定義域
目的関数
n 交互（D多め）に学習し，損失関数の鞍点を求める.
学習不安定の要因
54/73

識別器の損失関数の意味合い
¡ もし，なら，
¡ GANが正しく学習できていれば，データ分布とモデルをJS divergenceで近似的に最小化したことになる.
つまり同数のデータの識別の場合，確率は1/2
このとき，識別損失関数は,
（損失関数が鞍点に収束した場合）
55/73

*証明（最適な識別確率）
Ratio lossにマイナスをかけるて積分表現に書き換える.
この積分値の最大となるようなσ(T) を求める.
とすると，
微分して極値を計算すると，ベルヌーイの期待値と同じ.
，
56/73

JS DIVERGENCE
¡ [Huszar 15]
KL[P||Q] と KL[Q||P] の中間的な表現を振る舞う.
どちらかというと後者に似ている.
A. 真の確率分布.
B. KL[P||Q] 尤度最大.
C. JSD[P||Q]
D. KL[Q||P]
57/73

VAEとGANの違い
58/73
学習アルゴリズム距離の測り方確率密度関数
VAE ELBO最大化 KL divergence 明示的
GAN 敵対的学習 JS divergence 暗黙的

まとめ４
ü GANのアルゴリズムはimplicit Generative Modelで利用される.
ü 密度比推定を分類問題にすり替えるのがポイント.
ü GANの損失関数は，データ分布とモデルとの距離をJS divergenceで測っていたことになる.
59/73

アジェンダ
60/73

VARIATIONAL INFERENCE USING IMPLICIT MODELS
¡ GANのアルゴリズムを用いた研究は多く行われている.
その中で，変分推論に応用された事例をベイズロジスティック回帰で紹介.
n [Mescheder 17]は,VAEの推論ネットワークを implicit probabilistic model にしたGANとVAEの複合研究.
61/73

ベイズロジスティック回帰
N
分類データ
モデルパラメータ
モデル
事前確率
事後確率どんな分布か解析的にわからない.
グラフィカルモデル
62/73

近似推論
¡ 近似事後分布の推論にGANの枠組みを導入.
¡ 近似事後分布をガウス分布に固定しないimplicit Generative model にする.
=>密度比推定を行う(GAN)
ELBO
パラメータに依存しない
f
z w
63/73

近似事後確率の推定
→0.999 →0.001
再構成誤差項
負の交差エントロピー最大化
→0.001
→0.001
n 近似事後分布がimplicit な分布で表現できる.
繰
り
返
し
64/73

推定結果
G , D のNN：３層MLP (10-20) ReLU関数
訓練データ：３点（正例２, 負例１）
n =20000,
カーネル密度推定
65/73

まとめ５
ü ベイズ推論にも利用され，分布を仮定せず，暗黙的に近似分布の推論が行える.
66/73

全体のまとめ
¡ 深層生成モデルの柱となるVAEとGANを説明した.
¡ これらの理解は2014年以降の研究論文を読む上で土台になることが多い.
¡ 話せなかったこと.
近似推論の計算方法, 自己回帰モデル, Flow-based model, GANの問題点, MMD.
67/73

参考にした資料
深層生成モデル
https://danilorezende.com/slides/
https://www.shakirm.com/slides/DeepGenModelsTutorial.pdf
他の最新資料
URL: goo.gl/H1prjP
68/73

¡ Deep| Bayes
SUMMER SCHOOL ON DEEP LEARNING AND BAYESIAN METHODS
資料がダウンロードできて内容が濃い. 最近の話題も豊富！！
URL: https://deepbayes.ru/
DEEP | BAYES
69/73

DL輪講会
NN界隈の論文まとめや紹介がよくアップされて勉強になる.
技術の根幹を見抜いて、アイディアを見るだけでも面白い.
https://www.slideshare.net/DeepLearningJP2016?utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview
70/73

参考文献
¡ Cremer, C., Li, X., & Duvenaud, D. (2018). “Inference suboptimality in variational autoencoders.” arXiv preprint
arXiv:1801.03558.
¡ Davidson,T. R., Falorsi, L., De Cao, N., Kipf,T., & Tomczak, J. M. (2018). “Hyperspherical variational auto-encoders. ” arXiv
preprint arXiv:1804.00891.
¡ Goodfellow, Ian, et al. (2014). "Generative adversarial nets. “Advances in neural information processing systems.
¡ He, J., Spokoyny, D., Neubig, G., & Berg-Kirkpatrick,T. (2019).“Lagging inference networks and posterior collapse in
variational autoencoders.” arXiv preprint arXiv:1901.05534.
¡ Huszár, F. (2015).“ How (not) to train your generative model: Scheduled sampling, likelihood, adversary?. ” arXiv preprint
arXiv:1511.05101.
¡ Hoffman, M. D., & Johnson, M. J. (2016).“ELBO surgery: yet another way to carve up the variational evidence lower
bound.” In Proceedings of NIPSWorkshop in Advances in Approximate Bayesian Inference.
¡ Karras,T., et al. (2017)."Progressive growing of gans for improved quality, stability, and variation." arXiv preprint
arXiv:1710.10196
71/73

参考文献
¡ Kingma, D. P., & Welling, M. (2013).“ Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114.
¡ Mescheder, L., Nowozin, S., & Geiger,A. (2017,August).“ Adversarial variational bayes: Unifying variational
autoencoders and generative adversarial networks.” In Proceedings of the 34th International Conference on Machine
Learning-Volume 70 (pp. 2391-2400). JMLR. org.
¡ Mohamed, S., & Lakshminarayanan, B. (2017).“Learning in implicit generative models.” arXiv preprint
arXiv:1610.03483.
¡ Severson, K., Ghosh, S., & Ng, K. (2018).“ Unsupervised learning with contrastive latent variable models.” arXiv
preprint arXiv:1811.06094.
¡ Takahashi, H., Iwata,T.,Yamanaka,Y.,Yamada, M., &Yagi, S. (2018).“Variational Autoencoder with Implicit Optimal
Priors. ” arXiv preprint arXiv:1809.05284.
¡ Tomczak, J. M., & Welling, M. (2017).“VAE with aVampPrior.” arXiv preprint arXiv:1705.07120.
¡ Xu, J., & Durrett, G. (2018).“ Spherical latent spaces for stable variational autoencoders. ”arXiv preprint
arXiv:1808.10805.
72/73

資料作成参考サイト
¡ Ferenc Huszar (Variational Inference using Implicit Models, Part I: Bayesian Logistic Regression)
https://www.inference.vc/variational-inference-with-implicit-probabilistic-models-part-1-2/
¡ 鈴木雅大（と強化学習との関係）(2017). https://www.slideshare.net/masa_s/gan-83975514
¡ 須山敦志 (作って遊ぶ機械学習。) (2018) http://machine-learning.hatenablog.com/entry/2018/03/25/010430
73/73

PRML学習者から入る深層生成モデル入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML学習者から入る深層生成モデル入門

Similar to PRML学習者から入る深層生成モデル入門 (18)

More from tmtm otm

More from tmtm otm (15)

Recently uploaded

Recently uploaded (16)

PRML学習者から入る深層生成モデル入門