PATTERN RECOGNITION
AND MACHINE LEARNING
section 1.2.4 ~ 1.2.6
2018/12/02
1
目次
section 1.2.4
ガウス分布
section 1.2.5
曲線フィッティング再訪
section 1.2.6
ベイズ曲線フィッティング
2
ガウス分布
別名:Normal distribution (正規分布)
表記に 𝒩() とするため,以降では,正規分布と表記
正規分布を利用した手法は数多く存在
mean (平均) を 𝜇, variance (分散) を 𝜎2 とした時
3
𝒩 𝑥 𝜇, 𝜎2
=
1
(2𝜋𝜎2)
1
2
𝑒
−
(𝑥−𝜇)2
2𝜎2
平均と分散
分散 𝜎2
の平方根 𝜎 : 標準偏差 standard deviation
平均 𝜇, 分散 𝜎2 : 正規分布のパラメータ
分布の最大値 : 最頻値 mode
分散の逆数 Τ1 𝜎2: 精度パラメータ 𝛽
4
平均0, 分散1のものを
標準正規分布
2𝜎
確率密度の規格
1. 変数が平方なため,全ての値が正
2. 総面積が1
5
𝒩 𝑥 𝜇, 𝜎2 =
1
(2𝜋𝜎2)
1
2
𝑒
−
(𝑥−𝜇)2
2𝜎2
න
−∞
∞
𝒩 𝑥 𝜇, 𝜎2 𝑑𝑥 =
1
(2𝜋𝜎2)
1
2
න
−∞
∞
𝑒
−
(𝑥−𝜇)2
2𝜎2
𝑑𝑥 = 1
𝒩 𝑥 𝜇, 𝜎2
> 0
正規分布の式
期待値と平均
正規分布の期待値=平均
式で考察(𝑝𝑖は𝑥𝑖の確率,𝑁𝑖は𝑥𝑖の個数)
図で考察
平均で線対称
6
𝐸 𝑥 = න
−∞
∞
𝒩 𝑥 𝜇, 𝜎2
𝑥𝑑𝑥 = 𝜇
𝐸 𝑥 = ෍
𝑖
𝑥𝑖 𝑝𝑖 = ෍
𝑖
𝑥𝑖
𝑁𝑖
𝑁
= 𝜇
多変量正規分布
𝐷 次元ベクトルの連続変数 𝒙 に対する正規分布
7
𝒩 𝒙 𝝁, 𝜮 =
1
(2𝜋)
D
2
1
|𝜮|
1
2
𝑒−
(𝒙−𝝁) 𝑇 𝜮−1(𝒙−𝝁)
2
𝜮: 𝐷 × 𝐷 の共分散 (covariance)
|𝜮|: 𝜮の行列式(determinant) det(𝜮)
参考(1次元): 𝒩 𝑥 𝜇, 𝜎2 =
1
(2𝜋𝜎2)
1
2
𝑒
−
(𝑥−𝜇)2
2𝜎2
上から見た2次元正規分布
2次元ベクトルの連続変数 𝒙 に対する正規分布
𝝁 = 𝟎 𝟎 , 𝜮 =
𝟏 𝟎
𝟎 𝟏
𝝁 = 𝟎 𝟎 , 𝜮 =
𝟏 𝟎. 𝟓
𝟎. 𝟓 𝟏
8
正の相関が確認可能互いに独立.独立同分布
independent identically distributed ※同一のデータ集合からでなく,別々に生成した変数
曲線フィッティングおよび
最尤推定の目標
しかし,目標変数は不確実(横軸: 𝑥 ,縦軸: 𝑡 𝑜𝑟 𝑦)
9
訓練データの集合 𝒙 = {𝑥1, ⋯ , 𝑥 𝑛}と対応する目標値 𝒕 = {𝑡1, ⋯ , 𝑡 𝑛}
に基づき,与えられた入力値𝑥に対する目標変数𝑡の予測
正規分布に従っていると仮定
最尤推定(1)
データ集合 𝒙 が独立同分布(i.i.d)で 𝜇 と 𝜎2
が与えられた時
データ集合の確率,すなわち正規分布の尤度関数は
𝑝 𝒙 𝜇, 𝜎2) = ς 𝑛=1
𝑁
𝒩 𝑥 𝑛 𝜇, 𝜎2
単調増加関数である対数を用いて,対数尤度関数は
ln 𝑝 𝒙 𝜇, 𝜎2) = −
1
2𝜎2
σ 𝑛=1
𝑁
𝑥 𝑛 − 𝜇 2 −
𝑁
2
ln 𝜎2 −
𝑁
2
ln(2𝜋)
10
対数によって,アンダーフローを回避
最尤推定(2)
𝜇 と 𝜎2
のそれぞれについて対数尤度関数を最大化すると
最尤推定の解が得られ
平均の解は標本平均 (sample mean) = 観測値{𝑥 𝑛}の平均
𝜇 𝑀𝐿 =
1
𝑁
෍
𝑛=1
𝑁
𝑥 𝑛
分散の解は標本分散 (sample variance)
𝜎 𝑀𝐿
2
=
1
𝑁
෍
𝑛=1
𝑁
(𝑥 𝑛 − 𝜇 𝑀𝐿)2
11
最尤推定の問題(1)
偏り,すなわちバイアス (bias) が未考慮なため
𝐸 𝜇 𝑀𝐿 = 𝜇
𝐸 𝜎 𝑀𝐿
2
=
𝑁 −1
𝑁
𝜎2
偏りをなくすため,不偏分散を定義し補正
෤𝜎2 =
𝑁
𝑁 − 1
𝜎 𝑀𝐿
2
=
𝟏
𝑵 −𝟏
σ 𝑛=1
𝑁
(𝑥 𝑛 − 𝜇 𝑀𝐿)2
12
真の分散は
𝑁 −1
𝑁
倍過小評価
最尤推定の問題(2)
数学的な問題としては,解の自由度が減少
図でわかる問題としては
3つの分布から得られる混合分布を考えると,
赤:平均[−1,0,1],標準偏差 1
青:平均 0,標準偏差 1.3 ሶ3
13
サンプル数が十分な時
青(理想)の分布に
⇒ では,少ない時は?
最尤推定の問題(3)
サンプル数が少ない時は,推定結果に大きな誤差
14
サンプル数: 33
青:平均 0,標準偏差 1.3 ሶ3
緑:平均 −0.87,標準偏差 1.59
サンプル数: 33333
青:平均 0,標準偏差 1.3 ሶ3
緑:平均 −0.03,標準偏差 1.31
最尤推定の問題の解決
平均が正しくとも標準偏差に誤差が発生すると判明
サンプル数が少ないほど,分散の推定にずれが発生
サンプル数が多ければ,問題は解決
多くのパラメータを持つモデルでは,小さなずれであっても
重複し大きなずれを生む可能性
変数が多いモデル(例:多項式曲線フィッティング)の
過学習を防ぐのは困難
15
ベイズ推定にあたって
ベイズ主義
データに対するパラメータの確率 𝑝 𝒘 𝐷) を最大化
頻度主義(section 1.2.4)
パラメータに対するデータの確率 𝑝 𝐷 𝒘) を最大化
しかし,与えられたデータ集合にバイアスが存在したら?
得られるのは未知のデータに適応しない間違った推定結果
16
バイアスがある場合,元の分布を予測してバイアスを除去
データに最適化するのが目的なら頻度主義で良さそう
本来の分布を予測する利点
じゃんけんを3回したところ,3回とも青君が勝利
次に青君が勝つ確率を予測すると,最尤推定では100%!!
原因:本来の分布では存在する緑君の勝利が0回
17
本来の勝率である50%を表現できる分布が必要
曲線フィッティングと尤度関数
先ほどの図の定式化
1. 平均𝜇 = 𝑦(𝑥, 𝒘)である正規分布に従うとすると,𝑡の確率は
𝑝 𝑡 𝑥, 𝒘, 𝛽) = 𝑁 𝑡 𝑦 𝑥, 𝒘 , 𝛽−1)
𝛽−1: 𝜎2,精度パラメータの逆数
2. データが分布から独立に得られるとすると
尤度関数は
対数尤度関数は
18
𝑝 𝒕 𝒙, 𝒘, 𝛽) = ෑ
1
𝑁
𝒩 𝑡 𝑛 𝑦 𝑥 𝑛, 𝒘 , 𝛽−1)
ln 𝑝 𝒕 𝒙, 𝒘, 𝛽) = −
𝛽
2
෍
𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 − 𝑡 𝑛
2
+
𝑁
2
ln 𝛽 −
𝑁
2
ln(2𝜋)
曲線フィッティングと最尤推定
対数尤度関数の最尤推定
3. 青文字部分を考慮し,𝒘について最大化し,𝒘 𝑀𝐿を獲得
4. 対数尤度関数を𝛽について最大化し,𝛽 𝑀𝐿を獲得
1
𝛽 𝑀𝐿
=
1
𝑁
෍
𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 𝑀𝐿 − 𝑡 𝑛
2
5. 得られた𝒘 𝑀𝐿, 𝛽 𝑀𝐿を用いて,𝑡 の予測分布を獲得
19
ln 𝑝 𝒕 𝒙, 𝒘, 𝛽) = −
𝛽
2
෍
𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 − 𝑡 𝑛
2 +
𝑁
2
ln 𝛽 −
𝑁
2
ln(2𝜋)
𝑝 𝑡 𝑥, 𝒘 𝑀𝐿, 𝛽 𝑀𝐿) = 𝒩 𝑡 𝑦 𝑥, 𝒘 𝑀𝐿 , 𝛽ML)
MAP推定
maximum posterior (最大事後確率推定) とも
1. 平均𝜇 = 𝑦(𝑥, 𝒘)の係数𝒘に対しても, 𝒘の事前分布を考慮
2. 精度パラメータ𝛼を用いて事前分布𝑝(𝒘|𝛼)を決定
3. ベイズの定理より 𝑝 𝒘 𝐷) ∝ 𝑝 𝐷 𝒘)𝑝(𝒘) ÷ 𝑝(𝐷)
4. 𝒘の事後分布を最大化する𝒘を決定
20
hyperparameter (超パラメータ)とも
𝑝 𝒘 𝒙, 𝒕, 𝛼, 𝛽) ∝ 𝑝 𝒕 𝒙, 𝒘, 𝛽) 𝑝(𝒘 | 𝛼)
𝑝 𝒘 𝛼 = 𝑁 𝒘 𝟎, 𝛼−1 𝐈) =
𝛼
2𝜋
ൗ(𝑀+1)
2
𝑒−
𝛼
2 𝒘 𝑇 𝒘
2乗和誤差との類似性
𝑝 𝒘 𝒙, 𝒕, 𝛼, 𝛽) ∝ 𝑝 𝒕 𝒙, 𝒘, 𝛽) 𝑝(𝒘 | 𝛼)
𝑝 𝒘 𝛼 =
𝛼
2𝜋
ൗ(𝑀+1)
2
𝑒−
𝛼
2
𝒘 𝑇 𝒘
≈ ln 𝑝 𝒘 𝛼 = −
𝛼
2
𝒘 𝑇 𝒘
ln 𝑝 𝒕 𝒙, 𝒘, 𝛽) = −
𝛽
2
σ 𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 − 𝑡 𝑛
2 +
𝑁
2
ln 𝛽 −
𝑁
2
ln(2𝜋)
の3式を用い,また正負を反転すると,事後確率の最大化は
21
𝛽
2
෍
𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 − 𝑡 𝑛
2 +
𝛼
2
𝒘 𝑇 𝒘
λ =
𝛼
𝛽
で,2乗和誤差(
1
2
σ 𝑛=1
𝑁
𝑦 𝑥 𝑛, 𝒘 − 𝑡 𝑛
2
+
λ
2
|𝒘|2
)の最小化と等価
ベイズ曲線フィッティング
簡単のため,𝛼, 𝛽は既に判明しているとし,省力すると
𝑝 𝑡 𝑥, 𝒙, 𝒕 = ‫׬‬ 𝑝(𝑡|𝑥, 𝒘)𝑝(𝒘|𝒙, 𝒕) 𝑑𝒘
𝑝(𝑤|𝑥, 𝑡):パラメータの事後分布
曲線フィッティングでは,事後分布は正規分布となり
解析的に解け,予測分布は
𝑝 𝑡 𝑥, 𝒙, 𝒕 = 𝒩 𝑡 𝑚 𝑥 , 𝑠2(𝑥))
22
MAP推定とベイズ推定
簡単のため,𝛼, 𝛽は既に判明しているとし,省略すると
MAP推定
𝑎𝑟𝑔𝑚𝑎𝑥(𝑝(𝑡|𝑥, 𝒘)𝑝(𝒘|𝒙, 𝒕)) 𝒘 による𝒘の点推定
ベイズ推定
‫׬‬ 𝑝(𝑡|𝑥, 𝒘)𝑝(𝒘|𝒙, 𝒕) 𝑑𝒘による
すべての𝒘の考慮
23
一点ではなく
すべての点を考慮𝒘 𝑀𝐿は不使用
ベイズ曲線フィッティングの
平均と分散
平均,分散は𝑥に依存
平均: 𝑚 𝑥 = 𝛽𝜑(𝑥) 𝑇 𝑺 σ 𝑛=1
𝑁
𝜑(𝑥 𝑛)𝑡 𝑛
分散: 𝑠2 𝑥 = 𝛽−1 + 𝜑 𝑥 𝑇 𝑺𝜑 𝑥
※𝑺−1 = 𝛼𝐈 + 𝛽 σ 𝑛=1
𝑁
𝜑(𝑥 𝑛)𝜑(𝑥 𝑛) 𝑇
※ 𝐈:単位行列(unit matrix),𝜑𝑖 𝑥 :𝑥 𝑖(𝑖 = 0, ⋯ , 𝑀)
24
𝒘についての積分
ベイズ曲線フィッティングの例
9次多項式を用いた𝑡の予測分布(𝛼 = 0.005, 𝛽 = 11.1)
緑:元の曲線
赤:予測分布の平均
赤(点線):分散±1
青:分散0.04の
正規分布を加えたデータ
25
標準偏差内に元の曲線が存在
まとめ
正規分布
平均と分散をパラメータにもつ線対称な確率分布
推定
➢最尤推定
与えられたデータからデータの分布を予測
➢MAP推定
事前分布を考慮し,1点についてデータの分布を予測
➢ベイズ推定
事前分布を考慮し,すべての点についてデータの分布を予測
26
よりベイズ的なアプローチ
精度パラメータ𝛼を用いた正規分布を用いて事前分布𝑝(𝒘|𝛼)は
事前分布と尤度関数との積に比例するため𝒘の事後分布は
この式によって,事後分布を最大化する𝒘を決定
27
𝑝 𝒘 𝛼 = 𝒩 𝒘 𝟎, 𝛼−1
𝐈) =
𝛼
2𝜋
ൗ(𝑀+1)
2
𝑒−
𝛼
2 𝒘 𝑇 𝒘
hyperparameter (超パラメータ)とも
𝑝 𝒘 𝒙, 𝒕, 𝛼, 𝛽) ∝ 𝑝 𝒕 𝒙, 𝒘, 𝛽) 𝑝(𝒘 | 𝛼)
maximum posterior (最大事後確率推定) あるいはMAP推定
日本語訳について注意
日本語訳が気になるが,日本語版で採用されてるものを
本スライドでは使用
Curve fitting (曲線(カーブ)フィッティング)
曲線よりカーブの方が多くの論文で採用
Bayesian curve fitting (ベイズ曲線フィッティング)
google research で 0件
※図はpythonで生成
https://github.com/jackee777/some_codes/tree/master/sta
tistics
28

PRML 上 1.2.4 ~ 1.2.6