ベイズと深層学習について

Data Science Cafe 第３回
ベイズ生成モデルと深層生成モデルについて

今日のTopic
2020/9/23
2Data Science Cafe 第３回
ベイズモデリングについて
様々なベイズ生成モデル
について
深層生成モデル
便利な道具である雰囲気をつかむ
ベイズというと怖い人が出てくるので怖い
どんなことができるのか？
どの様に推論の手法について
ベイズ生成モデルを深層学習化していく
メリットについて

ベイズ生成モデルについて

ベイズの定理
ベイズモデリングとは？
◼ データ解析手法の一つ
◼ データに対して確率モデルを立てることでデータから何
らかしらの情報を引き出す。
◼ 有名な右の写真はトーマス・ベイズとは別人の可能性が
あるらしい
2020/9/23
事前分布事後分布尤度
事前分布と尤度が分かっている時，事後分布が計算できることも重要

今後必要な知識
2020/9/23
周辺化
条件付確率
◼ とはいえあまり今日はベイズの定理は関係なく下のことさえ知ってい
ればOK

ベイズモデリングの良いところ
2020/9/23
◼不確実性を伴った予測
◼課題に合わせた柔軟な解析
◼オーバーフィットの回避
➢誤差を最小化する様に学習する訳では無いので起こりにくい

識別モデルと生成モデル
◼生成モデルとは？
➢観測データを生成する確率分布を想定し、観測データからその確率
分布を推定する方法
2020/9/23
クラス分類問題
生成モデル（広義）
生成モデル（狭義）
識別モデル
同時分布
条件付き分布
識別関数: 𝑦を𝐶に写像する関数
データパラメータ説明変数
データクラス
学習
学習

グラフィカルモデル
◼確率変数間の依存関係を示した概念図
2020/9/23
𝜃
𝑥 𝑛
𝑁
ノード：
確率変数を表現
観測データは色がつ
いていることが多い
エッジ：
確率変数間の関係
プレート：
省略するために使用
For 𝑖 = 1,2,3 ⋯ , 𝑛
𝜃
𝑥𝑖𝑧𝑖
𝜂

ベイス生成モデルについて

様々なモデルと推論手法たち
◼GMM
◼LDA
◼HMM
◼Gaussian Process
◼Dirichlet process
etc.
2020/9/23
◼ MCMC
◼ EMアルゴリズム
◼ 最尤推定
◼ 変分推論
◼ 深層学習(後で説明)
etc.
モデル推論手法
目的に合わせて様々なモデルを使い分けたり，組み合わせることで様々な問題を
教師なしに解くことが可能になる．また推論手法を使い分けることで，高速にパ
ラメータを推論したり複雑なモデルも推論することが可能になる．

Gaussian Mixture Model (GMM)
2020/9/23
複数個のガウス分布からデータが生成されていると考える手法
1個のガウス分布から生成？複数のガウス分布から生成？
point
データにあった生成過程を考えることが大切
また，データに適した生成過程を考えるとモデルの尤度も高くなる

2020/9/23
𝛼𝜋𝑧 𝑑
𝑥 𝑑
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝐷
𝑁
複数個のガウス分布からデータが生成されていると考える手法
𝑧 𝑑によって，どのガウス分布
からデータが生成されている
かを考える
どのカテゴリであるかを決め
る分布

Latent Dirichlet Allocation (LDA)
2020/9/23
𝛼 𝛽𝜙 𝑘𝑥𝑖𝜃 𝑧𝑖
◼ トピックモデル
➢ 文章などのデータに対してトピックを抽出するために用いる手法
➢ 同じ様な話題には同じ様な単語が出現しやすいはずであるという仮定
➢ 𝑥𝑖文章データをBag-of-Wordsしたものなど
どの出現確率から
生成されているか
𝑥𝑖
point
GMMではどのガウス分布から生成されているか？LDAではどの単語発生確率
からデータが生成されているかを考えているだけでほとんど同じである

Hidden Markov Models(HMM)
◼時系列データに対して用いる手法
➢GMMなどに遷移確率がついたもの
2020/9/23
𝛼𝜋
𝑧1
𝑥1
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝑁
𝑧2
𝑥2
𝑧3
𝑥3
𝑧 𝑛
𝑥 𝑛
⋯
𝛾𝛽
𝛼𝜋𝑧 𝑑
𝑥 𝑑
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝐷
𝑁
point
LDAなどを様々なモデルを簡単に時系列データに適応できる. 𝜋がプレートに
乗っている理由はそれぞれのクラスからの遷移確率があるため

Gaussian Process
◼回帰分析を行う機械学習手法の1つであり予測信頼性を評価
することが可能
➢自由度の高いモデルであり，Black-Box Optimizationなど
で用いることができる．
➢無限次元のガウス分布と捉えることができる．
2020/9/23
K K∗
K∗
T K∗∗
𝑥
𝑥
𝑥∗
𝑥∗
学習データ
新しく得られたデータ 𝑥∗
カーネル関数を
使って右を計算

Dirichlet process
2020/9/23
GMMやLDAといった手法はあらかじめガウス分布の混合数やトピックの数を与え
る必要がある．これを解決するために無限個の混合数があることを考える．
これらを実装するにあたって有名なものにChinese restaurant processとStick-breaking
processがある．
𝛼𝜋𝑧 𝑑
𝑥 𝑑
𝜇 𝑘 Σ 𝑘
𝑚0, 𝐾0 𝑉0, 𝜈0
𝐷
𝑁
この分布が無限次元になる
と良い

Dirichlet process
2020/9/23
Chinese restaurant process Stick-breaking process
processがある．
無限次元の離散分布を構成せず変
数を積分消去することで計算
無限次元の離散分布を構成する＋
計算方法で工夫する

Dirichlet process
2020/9/23
Stick-breaking process
processがある．
無限次元の離散分布を構成する＋
計算方法で工夫する
GMMで言えばデータの個数以上のク
ラスはあり得ない．つまり十分大きな
値で計算を打ち切っても近似できる
→ weak limit approximation

深層生成モデルについて

Variational Autoencoders (VAE)
◼VAE
➢下記の様なグラフィカルモデルを深層学習を用いて推論する手法
➢深層学習の圧倒的な表現力を用いたモデルを構築することができる
2020/9/23
𝑧𝑡
𝑥𝑡 𝜃
𝜙
point
生成モデルを深層学習を用いて推論することができる．
ELBOの最大化

◼VAE
➢深層学習の圧倒的な表現力を用いたモデルを構築することができる
Variational Autoencoders (VAE)
2020/9/23
モンテカルロ近似
バックプロパーゲーション
できない
Reparameterization Trick 標準化
平均が0，分散が1になるようにデータ
を加工する処理

2020/9/23
◼GMM深層学習と組み合わせた手法は様々な手法がある．
これらの手法はGMMの欠点であるガウス分布の楕円形の
クラスしか生成できない問題を解決することができる．
➢Structured Variational Autoencoder(SVAE)
➢Variational Deep Embedding(VaDE)
➢Gaussian Mixture Variational Autoencoder
ここを混合ガウス分布にする

2020/9/23
◼GMM深層学習と組み合わせた手法は様々な手法がある．
これらの手法はGMMの欠点であるガウス分布の楕円形の
クラスしか生成できない問題を解決することができる．
➢Structured Variational Autoencoder(SVAE)
➢Variational Deep Embedding(VaDE)
➢Gaussian Mixture Variational Autoencoder
𝑧 𝑥 𝑦NN

2020/9/23
𝜇 𝑘 = log 𝛼 𝑘 −
1
𝐾
෍
𝑖=𝑖
𝐾
log(𝛼𝑖)
Σ 𝑘,𝑘 =
1
𝛼 𝑘
1 −
2
𝐾
+
1
𝐾2
෍
𝑖=1
𝐾
1
𝛼 𝑘
LDAの𝜃: Dirichlet 分布がLocation-scale family でないためReparameterizationが困難
→Laplace approximationを利用する
正規分布からのサンプリングにSoftmax関数を適用して近似する
事前分布のパラメータは下記のとおりである
◼ ニューラルトピックモデル
➢ 深層生成モデルの一つであるVariational AutoEncoders (VAE) を用いてトピックモデル
を推論

2020/9/23
◼ ニューラルトピックモデル
➢ 深層生成モデルの一つであるVariational AutoEncoders (VAE) を用いてトピックモデル
を推論
https://aws.amazon.com/jp/blogs/machine-learning/introduction-to-the-amazon-sagemaker-neural-topic-model/

Hidden Markov Models(HMM)
2020/9/23
◼Deep Markov Model
➢Structured Inference Networks for Nonlinear State Space Models
➢https://pyro.ai/examples/dmm.html
◼Deep Kalman Filters
➢Deep Kalman Filters

Gaussian Process
◼深層学習を用いてGaussian Processを近似する下記の様な手
法が存在する
➢Conditional Neural Process
➢Neural Process
➢Attentive Neural Process
➢Convolutional Conditional Neural Process
etc.
2020/9/23

Gaussian Process
◼深層学習を用いてGaussian Processを近似する下記の様な手
法が存在する
2020/9/23
point
ANP NP CNP
GPに比べると外挿に弱く，滑らかなデータを予測することが苦手なことが知ら
れている．

Dirichlet process
2020/9/23
◼The Recurrent Stick Breaking Construction
➢Discovering Discrete Latent Topics with Neural Variational Inferenceにて
提案された手法
➢Here we consider the stick breaking construction as a sequential draw from
an RNN, thus capturing an unbounded number of breaks with a finite
number of parameters

深層学習で推論することで嬉しいこと
◼共役事前分布を考慮しなくても変分推論を用いることができる
➢ Student-t分布などは指数分布族で無いので変分推論するのが大変
2020/9/23
𝑧
𝜇(𝑧)
𝜎2
(𝑧)
𝑥 𝑧 𝑥
𝜇(𝑧)
𝜈(𝑧)
𝜆(𝑧)
デコーダがガウス分布デコーダがStudent-t分布

まとめ
ベイズ生成モデル深層生成モデル
GMM
Structured Variational Autoencoder(SVAE)[1]
Variational Deep Embedding(VaDE)[2]
Gaussian Mixture Variational Autoencoder[3]
LDA Neural Topic model[4,5]
HMM
Deep Markov Model[6,7]
Deep Kalman Filters[8]
Dirichlet process Recurrent Stick Breaking Construction[9]
Gaussian Process
Conditional Neural Process[10]
Neural Process[11]
Attentive Neural Process[12]
Convolutional Conditional Neural Process[13]
2020/9/23
◼ ベイズモデルはとても使える
◼ ベイズ生成モデルには状況に応じて様々な手法がある
◼ 深層生成モデルを用いることでベイズ生成モデルの良さと深層学習の
良さを掛け合わせた解析をすることができる様になる

参考文献
◼ [1] Johnson, Matthew J., et al. "Structured VAEs: Composing probabilistic graphical models and
variational autoencoders." arXiv preprint arXiv:1603.06277 2 (2016): 2016.
◼ [2] Jiang, Zhuxi, et al. "Variational deep embedding: An unsupervised and generative approach to
clustering." arXiv preprint arXiv:1611.05148 (2016).
◼ [3] Dilokthanakul, Nat, et al. "Deep unsupervised clustering with gaussian mixture variational
autoencoders." arXiv preprint arXiv:1611.02648 (2016).
◼ [4] Cao, Ziqiang, et al. "A novel neural topic model and its supervised extension." Twenty-Ninth AAAI
Conference on Artificial Intelligence. 2015.
◼ [5] https://aws.amazon.com/jp/blogs/news/introduction-to-the-amazon-sagemaker-neural-topic-model/
◼ [6] Krishnan, Rahul G., Uri Shalit, and David Sontag. "Structured inference networks for nonlinear state
space models." arXiv preprint arXiv:1609.09869 (2016).
◼ [7] https://pyro.ai/examples/dmm.html
◼ [8] Krishnan, Rahul G., Uri Shalit, and David Sontag. "Deep kalman filters." arXiv preprint
arXiv:1511.05121 (2015).
◼ [9] Miao, Yishu, Edward Grefenstette, and Phil Blunsom. "Discovering discrete latent topics with neural
variational inference." arXiv preprint arXiv:1706.00359 (2017).
◼ [10] Garnelo, Marta, et al. "Conditional neural processes." arXiv preprint arXiv:1807.01613 (2018).
◼ [11] Garnelo, Marta, et al. "Neural processes." arXiv preprint arXiv:1807.01622 (2018).
◼ [12] Kim, Hyunjik, et al. "Attentive neural processes." arXiv preprint arXiv:1901.05761 (2019).
◼ [13] Gordon, Jonathan, et al. "Convolutional conditional neural processes." arXiv preprint
arXiv:1910.13556 (2019).
2020/9/23

ベイズと深層学習について

Recommended

Recommended

More Related Content

Featured

Featured (20)

ベイズと深層学習について