ベイズと深層学習について11. Gaussian Mixture Model (GMM)
2020/9/23
11Data Science Cafe 第3回
複数個のガウス分布からデータが生成されていると考える手法
1個のガウス分布から生成? 複数のガウス分布から生成?
point
データにあった生成過程を考えることが大切
また,データに適した生成過程を考えるとモデルの尤度も高くなる
12. Gaussian Mixture Model (GMM)
2020/9/23
12Data Science Cafe 第3回
𝛼𝜋𝑧 𝑑
𝑥 𝑑
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝐷
𝑁
複数個のガウス分布からデータが生成されていると考える手法
𝑧 𝑑によって,どのガウス分布
からデータが生成されている
かを考える
どのカテゴリであるかを決め
る分布
13. Latent Dirichlet Allocation (LDA)
2020/9/23
13Data Science Cafe 第3回
𝛼 𝛽𝜙 𝑘𝑥𝑖𝜃 𝑧𝑖
◼ トピックモデル
➢ 文章などのデータに対してトピックを抽出するために用いる手法
➢ 同じ様な話題には同じ様な単語が出現しやすいはずであるという仮定
➢ 𝑥𝑖文章データをBag-of-Wordsしたものなど
どの出現確率から
生成されているか
𝑥𝑖
point
GMMではどのガウス分布から生成されているか?LDAではどの単語発生確率
からデータが生成されているかを考えているだけでほとんど同じである
16. Dirichlet process
2020/9/23
16Data Science Cafe 第3回
GMMやLDAといった手法はあらかじめガウス分布の混合数やトピックの数を与え
る必要がある.これを解決するために無限個の混合数があることを考える.
これらを実装するにあたって有名なものにChinese restaurant processとStick-breaking
processがある.
𝛼𝜋𝑧 𝑑
𝑥 𝑑
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝐷
𝑁
この分布が無限次元になる
と良い
17. Dirichlet process
2020/9/23
17Data Science Cafe 第3回
Chinese restaurant process Stick-breaking process
GMMやLDAといった手法はあらかじめガウス分布の混合数やトピックの数を与え
る必要がある.これを解決するために無限個の混合数があることを考える.
これらを実装するにあたって有名なものにChinese restaurant processとStick-breaking
processがある.
無限次元の離散分布を構成せず変
数を積分消去することで計算
無限次元の離散分布を構成する+
計算方法で工夫する
18. Dirichlet process
2020/9/23
18Data Science Cafe 第3回
Stick-breaking process
GMMやLDAといった手法はあらかじめガウス分布の混合数やトピックの数を与え
る必要がある.これを解決するために無限個の混合数があることを考える.
これらを実装するにあたって有名なものにChinese restaurant processとStick-breaking
processがある.
無限次元の離散分布を構成する+
計算方法で工夫する
GMMで言えばデータの個数以上のク
ラスはあり得ない.つまり十分大きな
値で計算を打ち切っても近似できる
→ weak limit approximation
22. Gaussian Mixture Model (GMM)
2020/9/23
22Data Science Cafe 第3回
◼GMM深層学習と組み合わせた手法は様々な手法がある.
これらの手法はGMMの欠点であるガウス分布の楕円形の
クラスしか生成できない問題を解決することができる.
➢Structured Variational Autoencoder(SVAE)
➢Variational Deep Embedding(VaDE)
➢Gaussian Mixture Variational Autoencoder
ここを混合ガウス分布にする
23. Gaussian Mixture Model (GMM)
2020/9/23
23Data Science Cafe 第3回
◼GMM深層学習と組み合わせた手法は様々な手法がある.
これらの手法はGMMの欠点であるガウス分布の楕円形の
クラスしか生成できない問題を解決することができる.
➢Structured Variational Autoencoder(SVAE)
➢Variational Deep Embedding(VaDE)
➢Gaussian Mixture Variational Autoencoder
𝑧 𝑥 𝑦NN
24. Latent Dirichlet Allocation (LDA)
2020/9/23
24Data Science Cafe 第3回
𝜇 𝑘 = log 𝛼 𝑘 −
1
𝐾
𝑖=𝑖
𝐾
log(𝛼𝑖)
Σ 𝑘,𝑘 =
1
𝛼 𝑘
1 −
2
𝐾
+
1
𝐾2
𝑖=1
𝐾
1
𝛼 𝑘
𝛼 𝛽𝜙 𝑘𝑥𝑖𝜃 𝑧𝑖
LDAの𝜃: Dirichlet 分布がLocation-scale family でないためReparameterizationが困難
→Laplace approximationを利用する
正規分布からのサンプリングにSoftmax関数を適用して近似する
事前分布のパラメータは下記のとおりである
◼ ニューラルトピックモデル
➢ 深層生成モデルの一つであるVariational AutoEncoders (VAE) を用いてトピックモデル
を推論
25. Latent Dirichlet Allocation (LDA)
2020/9/23
25Data Science Cafe 第3回
𝛼 𝛽𝜙 𝑘𝑥𝑖𝜃 𝑧𝑖
◼ ニューラルトピックモデル
➢ 深層生成モデルの一つであるVariational AutoEncoders (VAE) を用いてトピックモデル
を推論
https://aws.amazon.com/jp/blogs/machine-learning/introduction-to-the-amazon-sagemaker-neural-topic-model/
26. Hidden Markov Models(HMM)
2020/9/23
26Data Science Cafe 第3回
◼Deep Markov Model
➢Structured Inference Networks for Nonlinear State Space Models
➢https://pyro.ai/examples/dmm.html
◼Deep Kalman Filters
➢Deep Kalman Filters
29. Dirichlet process
2020/9/23
29Data Science Cafe 第3回
◼The Recurrent Stick Breaking Construction
➢Discovering Discrete Latent Topics with Neural Variational Inferenceにて
提案された手法
➢Here we consider the stick breaking construction as a sequential draw from
an RNN, thus capturing an unbounded number of breaks with a finite
number of parameters
31. まとめ
ベイズ生成モデル 深層生成モデル
GMM
Structured Variational Autoencoder(SVAE)[1]
Variational Deep Embedding(VaDE)[2]
Gaussian Mixture Variational Autoencoder[3]
LDA Neural Topic model[4,5]
HMM
Deep Markov Model[6,7]
Deep Kalman Filters[8]
Dirichlet process Recurrent Stick Breaking Construction[9]
Gaussian Process
Conditional Neural Process[10]
Neural Process[11]
Attentive Neural Process[12]
Convolutional Conditional Neural Process[13]
2020/9/23
31Data Science Cafe 第3回
◼ ベイズモデルはとても使える
◼ ベイズ生成モデルには状況に応じて様々な手法がある
◼ 深層生成モデルを用いることでベイズ生成モデルの良さと深層学習の
良さを掛け合わせた解析をすることができる様になる
32. 参考文献
◼ [1] Johnson, Matthew J., et al. "Structured VAEs: Composing probabilistic graphical models and
variational autoencoders." arXiv preprint arXiv:1603.06277 2 (2016): 2016.
◼ [2] Jiang, Zhuxi, et al. "Variational deep embedding: An unsupervised and generative approach to
clustering." arXiv preprint arXiv:1611.05148 (2016).
◼ [3] Dilokthanakul, Nat, et al. "Deep unsupervised clustering with gaussian mixture variational
autoencoders." arXiv preprint arXiv:1611.02648 (2016).
◼ [4] Cao, Ziqiang, et al. "A novel neural topic model and its supervised extension." Twenty-Ninth AAAI
Conference on Artificial Intelligence. 2015.
◼ [5] https://aws.amazon.com/jp/blogs/news/introduction-to-the-amazon-sagemaker-neural-topic-model/
◼ [6] Krishnan, Rahul G., Uri Shalit, and David Sontag. "Structured inference networks for nonlinear state
space models." arXiv preprint arXiv:1609.09869 (2016).
◼ [7] https://pyro.ai/examples/dmm.html
◼ [8] Krishnan, Rahul G., Uri Shalit, and David Sontag. "Deep kalman filters." arXiv preprint
arXiv:1511.05121 (2015).
◼ [9] Miao, Yishu, Edward Grefenstette, and Phil Blunsom. "Discovering discrete latent topics with neural
variational inference." arXiv preprint arXiv:1706.00359 (2017).
◼ [10] Garnelo, Marta, et al. "Conditional neural processes." arXiv preprint arXiv:1807.01613 (2018).
◼ [11] Garnelo, Marta, et al. "Neural processes." arXiv preprint arXiv:1807.01622 (2018).
◼ [12] Kim, Hyunjik, et al. "Attentive neural processes." arXiv preprint arXiv:1901.05761 (2019).
◼ [13] Gordon, Jonathan, et al. "Convolutional conditional neural processes." arXiv preprint
arXiv:1910.13556 (2019).
2020/9/23
32Data Science Cafe 第3回