「ベイズ深層学習」
輪読会 #1
2019/10/06
@yoichi_t
• 時⽥ 陽⼀(@yoichi_t)
• 所属:株式会社Glia Computing
(https://www.glia-computing.com/)
• 2018年8⽉に設⽴(Co-Founder)
• 機械学習/データ分析のPoC、導⼊⽀援、コンサル
• 過去所属
• AI系ベンチャーにて、機械学習/データ分析のPoCなどを担当
• Web系広告会社にて、広告配信の最適化、ユーザ分析などを担当
• ⼤⼿警備会社研究所にて、⼈物⾏動の研究
⾃⼰紹介
2
• 時⽥ 陽⼀(@yoichi_t)
• チョコボールの秘密を解明するために、⽇々データを収集&解析
⾃⼰紹介
チョコボール 統計
3
本書の構成
4
基礎
本題
発展
• 第1章 はじめに
• 深層学習とベイズ統計の概要とそれぞれの歴史
• 第2章 ニューラルネットワークの基礎
• 基本的なニューラルネットワークの学習⽅法の概説
• 第3章 ベイズ推論の基礎
• 基本的なベイズ推論の概説
• 第4章 近似ベイズ推論
• ベイズ推論の近似計算(MCMC、変分推論)
• 第5章 ニューラルネットワークのベイズ推論
• 近似ベイズ推論をベイズニューラルネットへ適⽤
• NNで使われるテクニックのベイズ的解釈
• 第6章 深層⽣成モデル
• 深層⽣成モデルのベイズ的な取り扱い
• 第7章 深層学習とガウス過程
• ガウス過程と深層学習の繋がりを解説
• 第1章 はじめに
• 1.1 ベイズ統計とニューラルネットワークの変遷
• 1.2 ベイズ深層学習
• 第2章 ニューラルネットワークの基礎
• 2.1 線形回帰モデル
• 2.2 ニューラルネットワーク
• 2.3 効率的な学習法
• 2.4 ニューラルネットワークの拡張モデル
• 第3章 ベイズ推論の基礎 ←厚めに
• 3.1 確率推論
• 3.2 指数型分布族
• 3.3 ベイズ線形回帰
• 3.4 最尤推定、MAP推定との関係
今⽇の範囲
5
• 1.1ベイズ統計とニューラルネットワークの変遷
• 両者の歴史的な経緯
• ベイズの定理はラプラスが独⽴に発⾒し、定式化した
• 1.2 ベイズ深層学習
• 深層学習の課題点を列挙
• ベイズ統計と融合することでそれらの問題点にアプローチできる
• ややこしい⽤語の整理
第1章 はじめに
6
• 深層学習
• 勾配消失問題などの課題により学習が困難だった多層のネットワークを効
率的に学習できることが⽰された(深層信念ネットワーク)
• 効率的に学習するためのテクニック
• ドロップアウト:過剰適合の抑⽌
• 確率的勾配降下法:⼤規模データの効率的な学習
• GPGPU:⾼速な畳み込み演算
• 様々なタスクで従来⼿法を⼤きく上回る
1.2 ベイズ深層学習
7
• 深層学習の課題
① データが少なく曖昧だったとし
ても何らかの出⼒を返す
• 不確実性を扱えない(わかってない
ことがわからない)
② 解釈性に乏しい
• 過剰適合なのか本質的な特徴を抽出
できているのかはわからない
③ ⼿動で調整するハイパーパラ
メータの数が膨⼤
• 性能の改善には試⾏錯誤が必要
• 闇雲な調整は必ず過剰適合に向かう
1.2 ベイズ深層学習
8
• ベイズ統計との融合
• 確率モデルとして定式化
確率的な推論計算
• 不明なデータに対しては⾃信がない
という情報も出⼒(⾃信を出⼒)
• 過剰適合を⾃然に抑制
確率モデルとして解釈
周辺尤度を評価してハイパーパラメー
タを定量的に評価
• 他の確率モデルとの組み合わせ、⽋損値の補間など
も⾃然に取り込める
• ドロップアウトなどのテクニックを理論的に解釈が
できる
• 推論
• ハイパーパラメータ
• 深層学習→ ⼿動で調整するすべてのパラメータ
(モデル構造、学習係数、etc.)
• ベイズ統計→ パラメータのためのパラメータ
(事前分布のパラメータなど)
1.2 ベイズ深層学習
9
ベイズ統計での推論
→ パラメータの学習も未知デー
タの予測も推論
→ 事後分布を推論するという意
味でどちらも⼀緒
• 2.1 線形回帰モデル
• 2.2 ニューラルネットワーク
• 2.3 効率的な学習
• 2.4 ニューラルネットワークの拡張モデル
• 線形回帰とニューラルネットワークの繋がり
• ニューラルネットワーク(含む⼀般化線形モデル)の学習⽅法の簡
単な解説
2章 ニューラルネットワークの基礎
10
• 線形回帰モデル
2.1 線形回帰モデル
11
特徴量関数(基底関数)
重み w ∈ 𝑅$
←これを学習(推論)する(最尤法)
誤差 𝜖
図2.1(p.17)
重みwの学習:最⼩⼆乗法など
多次元の出⼒:重みを⾏列にする
(2.1)
• 関数の次数はいくつにしたら良いか?
• データ数が少ないのに⾼次の関数にフィッティングさせると過剰適合する
• → 正則化(重みwの取りうる値に制限をかける)
• リッジ回帰(L2正則化)
• 課題
• 基底関数(特徴量関数)は有限の数で予め固定される
2.1.3 過剰適合と正則化
12
正則化項
パラメータwで最⼩化→J(w)の勾配を求めて0となる値(最⼩⼆乗法)→式(2.15)
(2.12)
(2.11)
• 線形回帰モデル
2.1 線形回帰モデル
13
特徴量関数(基底関数)
重み w ∈ 𝑅$
←これを学習(推論)する(最尤法)
誤差 𝜖
基底関数をどうやって決める?
基底関数の内部にパラメータを
導⼊して、基底関数⾃体を学習
(基底関数の数は固定)
→ニューラルネットワーク
基底関数を無限に⽤意
→ガウス過程(7章)、カーネル法
(2.1)
• 線形回帰モデル
• ニューラルネットワーク
2.2 ニューラルネットワーク
14
特徴量関数(基底関数)
重み w ∈ 𝑅$
←これを学習(推論)する(最尤法)
誤差 𝜖
活性化関数(2.2.1.2参照)
さらに基底関数を設定することも可能
→ 多層ニューラルネット(深層学習)
(2.17)
• ⾮線形な活性化関数が⼊り込むため解析解を計算できない
• → 勾配降下法、ニュートン・ラフソン法
• 勾配降下法
• 誤差関数E(w)のパラメータw(M次元)についての勾配を求める
• 勾配の逆向きにパラメータを少し動かす
• 繰り返す
ニューラルネットワークの学習
15
(2.39)
• 誤差逆伝播法(error back propagation method)
• ニューラルネットワークで勾配を計算したい。多層になってると計算が⼤
変。→ 誤差逆伝播法
• 分類問題も同様(出⼒にシグモイド関数やソフトマックス関数を利⽤)
• 誤差関数として交差エントロピー(式2.60, 式2.62)を利⽤して誤差逆伝播法を適⽤
ニューラルネットワークの学習
16
「誤差逆伝搬法(バックプロパゲーション)とは」,
HELLO CYBERNETICS, 2017/02/23
出⼒層で容易に計算できる誤差を上位層に
伝播していくことで、勾配を計算
(p.33, アルゴリズム2.1参照)
• 確率的勾配降下法(SGD; stochastic gradient descent method)
• データをランダムに⼩分けして利⽤(ミニバッチ学習)
• 誤差関数
• ドロップアウト(dropout)
• 確率的正則化(stochastic regularization)の⼀つ
• ミニバッチ毎にユニット毎の勾配計算をある⼀定の確率で無効にする
• 部分グラフに分割されるイメージ
• アンサンブル効果により過剰適合が抑制されると解釈できる
• パラメータの事後分布を近似推論する変分推論法の⼀種としてもみなせる
(らしい→5章)
• バッチ正則化(batch normalization)
• ミニバッチ毎に隠れユニットの値を平均0,分散1に正規化
• 学習時の最適化の効率と正則化の効果を実現する
• 変分推論を暗黙的に実⾏しているとみなせる(らしい→5章)
2.3 効率的な学習法
17
• 畳み込みニューラルネットワーク(CNN)
• 再帰的ニューラルネットワーク(RNN)
• ⾃⼰符号化器(AE)
2.4 ニューラルネットワークの拡張モデル
18
• CNNは画像としての特徴を抽出するために設計されたモデル(図2.8)
• 近傍のピクセルだけに注⽬する(パラメータ数の削減)
• 共通のフィルター(対象物の移動に対して普遍な特徴抽出)
• 通常の⾏列積として書き直すこともできる(普通はしない)
• 重み⾏列に制約があるが、通常の回帰式(y=Wx)と同じ
CNNの⾏列表現
19
重み⾏列W
⼊⼒x
• 3.1 確率推論
• 3.2 指数型分布族
• 3.3 ベイズ線形回帰
• 3.4 最尤推定、MAP推定との関係
第3章 ベイズ推論の基礎
20
3.1 確率推論
21
• 確率推論のための基本的な確率の性質、確率計算の基礎を解説
• 確率密度関数 : 0以上で総和が1.0
• 同時分布:⼆つの変数x, yの確率分布 𝑝(𝑥, 𝑦)
• 周辺化(周辺分布):
同時分布の⼀つ以上の変数を積分消去
• 条件付き分布:同時分布において、
ある変数の特定の値が決められた分布
• 独⽴:同時分布において互いに影響を及ぼさない
3.1 確率推論
22
e.g. ⼆変数ガウス分布𝑝(𝑥0, 𝑥1)
周辺分布𝑝(𝑥1)
条件付き分布
𝑝(𝑥1|𝑥0)𝑥0
𝑥1
𝑥0
𝑥1
⼆変数が独⽴な場合
p(x):確率分布, 確率モデル
• ベイズ推論(確率推論)
• モデル構築:同時分布を構築すること
• 推論:条件付き分布や周辺分布を算出する
• 例:あるパラメータθに依存してデータX(= {𝑥0, 𝑥1, ⋯ , 𝑥5})が発⽣する
• グラフィカルモデル:DAG(⾮循環有向グラフ)
• 確率変数間の依存関係や独⽴性、条件付き独⽴性の有無を可視化
3.1 確率推論
23
同時分布
p.56, 図3.2
条件付き分布(事後分布)
グラフィカルモデル
線形回帰のグラフィカルモデル
(p.67, 図3.3)
余談:周辺化、条件付き分布とベイズの定理
(ベイズ推論による機械学習⼊⾨より)
• 同時分布(joint distribution) 𝑝(𝑥, 𝑦)
• 周辺化(marginalization)、周辺分布(marginal distribution)
• 条件付き分布(conditional distribution)
• ベイズの定理
24
原因xから結果yが得られる確率から、
結果yが得られた時の原因xを逆算す
る⼿続き
これらから⾃然に導かれる
事後分布
事前分布尤度
モデルエビデンス
• 期待値:分布の特徴を定量的に表す
• KLダイバージェンス(Kullback-Leibler divergence)
• ⼆つの確率分布の類似度(距離のようなもの)を表す期待値
• KLダイバージェンスを基準とした近似解法がよく使われる
3.1 確率推論
25
• よく使われる確率分布の例(これらは全て指数型分布族)
• ガウス分布
• ベルヌーイ分布
• コイン投げのように2値の分布
• カテゴリ分布
• ベルヌーイ分布を多値に拡張
• ガンマ分布
• 正の実数を⽣成する確率分布
• 他の例:
https://github.com/tok41/TechBookBayesianChocoball/blob/master/basic_distribution.ipynb
3.2 指数型分布族
26
84 2. PROBABILITY DISTRIBUTIONS
Figure 2.8 Contours of constant
probability density for a Gaussian
distribution in two dimensions in
which the covariance matrix is (a) of
general form, (b) diagonal, in which
the elliptical contours are aligned
with the coordinate axes, and (c)
proportional to the identity matrix, in
which the contours are concentric
circles.
x1
x2
(a)
x1
x2
(b)
x1
x2
(c)
therefore grows quadratically with D, and the computational task of manipulating
and inverting large matrices can become prohibitive. One way to address this prob-
lem is to use restricted forms of the covariance matrix. If we consider covariance
matrices that are diagonal, so that Σ = diag(σ2
i ), we then have a total of 2D inde-
pendent parameters in the density model. The corresponding contours of constant
density are given by axis-aligned ellipsoids. We could further restrict the covariance
matrix to be proportional to the identity matrix, Σ = σ2
I, known as an isotropic co-
variance, giving D + 1 independent parameters in the model and spherical surfaces
of constant density. The three possibilities of general, diagonal, and isotropic covari-
ance matrices are illustrated in Figure 2.8. Unfortunately, whereas such approaches
limit the number of degrees of freedom in the distribution and make inversion of the
covariance matrix a much faster operation, they also greatly restrict the form of the
probability density and limit its ability to capture interesting correlations in the data.
A further limitation of the Gaussian distribution is that it is intrinsically uni-
modal (i.e., has a single maximum) and so is unable to provide a good approximation
to multimodal distributions. Thus the Gaussian distribution can be both too flexible,
in the sense of having too many parameters, while also being too limited in the range
of distributions that it can adequately represent. We will see later that the introduc-
tion of latent variables, also called hidden variables or unobserved variables, allows
(PRML(上), p.82より)
共分散⾏列が対⾓
共分散⾏列が単
位⾏列に⽐例
• 指数型分布族
• 共通の形。共通の性質を持つ(共役事前分布)。
• 共役事前分布
• 指数型分布族の尤度関数に対して、事後分布が事前分布と同じ形式の事前
分布
• 事後分布
3.2 指数型分布族
27
事前分布 尤度
⼀般には解析解が求められない
• 予測分布
• パラメータを積分消去する
3.2 指数型分布族
28
どうやってこれが出てくる
のかは追えなかった
解析解が得られるってことが重要
• ベルヌーイ分布の事後分布
3.2 指数型分布族(を使わずに解析解を算出)
29
ベルヌーイ分布
ベータ分布
𝐵𝑒𝑡𝑎 𝜇 𝛼, 𝛽 =
Γ 𝛼 + 𝛽
Γ 𝛼 Γ 𝛽
𝜇@A0
1 − 𝜇 DA0
ベータ分布の対数の形
p.63, 式(3.52)
(ベイズ推論による機械学習⼊⾨より)
• ベルヌーイ分布の予測分布
3.2 指数型分布族(を使わずに解析解を算出)
30
(ベイズ推論による機械学習⼊⾨より)
ベルヌーイ分布 ベータ分布
積分の中⾝がベータ分布の形であり、
正規化項を利⽤して書き直す
xは⼆値なので、それぞれのパターンを計算
データDを観測した後(事後分布のパラメータを利⽤)
• ニューラルネットに⾏く前に、NNの基礎となる線形回帰から
• モデル
3.3 ベイズ線形回帰
31
yが従うと仮定する分布
wが従うと仮定する分布(事前分布) 特徴関数
ノイズを正規分布と仮定し
た線形回帰((2.1)式)と同じ
p.67, 図3.4
事前分布からのサンプル(3次の特徴関数)
• パラメータwの学習(事後分布の算出)
3.3 ベイズ線形回帰
32
事後分布
対数をとってwについて整理
⼆次形式の平⽅完成を頑張る
(3.70)
• パラメータwの学習(事後分布の算出, 続き)
3.3 ベイズ線形回帰
33
⼆次形式の平⽅完成を頑張る
(3.70)
正規分布だね
ということで、
パラメータwの事後分布は正規分布となった
(3.71)
(3.72)
(3.73)
• 未知のデータx∗に対する予測分布
3.3 ベイズ線形回帰
34
予測分布を確率の基本性質に従って変換
対数をとる
yが⼊ってこないので定数として省略
尤度関数(3.67)
事後分布(3.70)
(3.74)
(ここから計算追えてないです)
• 未知のデータx∗に対する予測分布
3.3 ベイズ線形回帰
35
(3.74)
ガウス分布になる
(3.75)
(3.76)
(3.77)
• 未知のデータx∗に対する予測分布
3.3 ベイズ線形回帰
36
(3.75)
(3.76)
(3.77)
p.70, 図3.6, 予測分布
• 予測の範囲がわかる
• データが多いと予測の不確実性が減少
することがわかる
• データが無い部分は予測が曖昧である
ことがわかる
• データ量の違いで差がほとんどない
• 予測の不確実性が表現できない
• 複雑なモデルでの過適合の恐れがある
• 最尤推定と最⼩⼆乗法はこの場合等価
最尤推定 ベイズ線形回帰
• ベイズ推論により予測の不確実性がわかる
• 予測が不確実な箇所のデータを収集することで効率的に学習を進められる
• ベイズ最適化(Bayesian optimization)
3.3.5 能動学習への応⽤
37
• 最尤推定:対数尤度を最⼤化するパラメータを算出
• 誤差の分布がガウス分布の場合
3.4 最尤推定, MAP推定との関係
38
尤度関数
対数尤度関数
誤差の分布にガウス分布を仮定すると最⼩⼆乗法
((2.4)式)と⼀緒になる
• MAP推定:事後確率が最⼤となる点を推定値とする
3.4 最尤推定, MAP推定との関係
39
事後確率(wの事前分布をガウス分布とする場合)
最⼤化を考えるために対数事後確率
パラメータの事前分布にガウス分布を仮定すると、(2.11)式の
L2正則化を導⼊したコスト関数と同じ
→ 確率推論は⾃然に正則化を⾏なっていると解釈できる
• パターン認識と機械学習(上卷だけでも)
• 第3章は主にPRMLの1〜3章の内容
• ベイズ推論による機械学習⼊⾨(機械学習スタートアップシリーズ)
• ベイズ推論(第3章)についてはこちらの内容を使って補⾜
• 第4章の近似ベイズ推論の内容についても記載されている(⼀部)
• ガウス過程と機械学習(機械学習プロフェッショナルシリーズ)
• 式変形が細かく記載されている
• ガウス過程について所々出てくるので、こちらが参考になると思う
参考⽂献
40

20191006 bayesian dl_1_pub