Pattern Recognition and Machine Learning
3.3.3 – 3.4
新田 晃大 / 関西学院大学 理工学部 / http://www.akihironitta.com / 2017 年 11 月 15 日
1
2/23
本日の内容
- 3.3.3 等価カーネル [pp.156-159]
- 3.4 ベイズモデル比較 [pp.160-164]
3.3.3 等価カーネル
pp. 156-159
3
4/23
予測平均
T
1
0
( , ) ( ) ( )
M
j
j jy w f f
-
=
= =å x ww xx (3.3)
回帰関数
T
N Nb= S Φm t
パラメータの事後分布の平均
(3.53)
予測平均
T
1
T T T
( ) ( )( , )) ( )(N N N N n n
N
n
y tf bf bf f
=
= == åx x Φ xSxx m m S t (3.60)
5/23
等価カーネル
予測平均
T
1
T T T
( ) ( )( , )) ( )(N N N N n n
N
n
y tf bf bf f
=
= == åx x Φ xSxx m m S t (3.60)
等価カーネル,平滑化行列
T
(( , ) ) ( )Nk bf f ¢=¢ x S xx x
データ集合の入力値に依存
目標変数の線形結合
6/23
等価カーネル(ガウス基底関数)
2
2
( )
( ) exp
2
j
j
x
x
s
µ
f
ì ü-ï ï
= -í ý
ï ïî þ
ガウス関数 等価カーネル T
1 1
T
( ) ( )
( , )
(
( ) ( )
) ( )
N N
M M
x x
k x x
x
x
x
x
f f
bf f
f f
¢æ ö æ ö
ç ÷ ç ÷
¢ ¢ = ç ÷ ç ÷
ç ÷ ç ÷¢è è
=
ø ø
SS ! !
( , )k a x¢
( , )k b x¢
( , )k c x¢
x a=
x c=
x b=
等価カーネルは x’に関して局所的
7/23
基底関数と等価カーネル
多項式基底関数
シグモイド関数
1
( )
1 exp
j
j
j
x
x
xs
s
µ
f s
µ
æ ö
=
-
= ç ÷
æ öè ø
ç ÷
è
+
ø
-
( ) j
j x xf =
基底関数は局所的でない
等価カーネルは x’に関して局所的
8/23
注意:ガウス基底関数とガウスカーネル
2
2
( )
( ) exp
2
j
j
x
x
s
µ
f
ì ü-ï ï
= -í ý
ï ïî þ
ガウス基底関数
2
2
) ex( p,
2
k
s
æ ö- ¢
ç ÷¢ = -
ç ÷
è ø
x x
x x
ガウスカーネル
9/23
異なる 𝒙の値における予測値同士の共分散
[ ] T T
T 1
( ), ( ) ( ) , ( )
( ) (
cov c v
),)
o
(N k
y y f f
f f b -
é¢ ¢
=
ù= ë
= ¢ ¢
ûw w
S x
x x
x x x
x x
(3.63)
等価カーネルノイズの仮定
近傍点での予測平均は強い相関
離れた点での予測平均の相関は小さい
10/23
等価カーネル
予測器の点xごとの不確かさが異なる
図3.8
予測分布の分散
2 T1 1 1
(( ( , )) ( ) )N N k
b
f
b b
s f += + =S x xx xx
データ点周りは不確かさ小さい
予測分布平均
データの生成元関数
予測平均
1
( , )( , )N n n
N
n
y tk
=
= å x xx m
11/23
線形回帰問題の定式化(ガウス過程へ)
基底関数の集合,訓練集合から等価カーネルが決まる
=> 新たな入力に対する予測
カーネルを直接定義する
=> 新たな入力に対する予測
6.4節 ガウス過程(Gaussian process)
12/23
等価カーネル
等価カーネルは重みを定める役割
重み付きのデータ集合の目標値の和 = 予測値
ある仮定の下ですべての x の値に対して1になる
1
( 1, )
N
n
n
k
=
=å x x
凸結合:和が1となるような非負係数を持つ点の線形結合 [Wikipedia]
1
( , )( , )N n
N
n
n
y tk
=
= å x xx m
目標変数の凸結合になるとは限らない
パラメータ事前分布の分散無限
基底関数は線形独立
13/23
カーネル関数
等価カーネルはカーネル関数が満たすべき性質を満たしている
T
) (( ( ), )k = ψ x ψx zz
1 1
2 2
( ) ( )Nb f= Sψ x xただし,
非線形関数のベクトルの内積
3.4 ベイズモデル比較
pp. 160-164
14
15/23
ベイズモデル比較
これまでのモデル選択法:交差確認
訓練データだけでモデル比較可能
超パラメータを複数導入可能 => RVM7章
16/23
モデル比較
L個のモデルを比較
{ }( 1, ),i i L= …M
モデルはD上の確率分布
( | ) ( ) ( | )i i ip p pµD DM M M
モデルエビデンス / 周辺尤度モデルの事前分布
モデルの事後分布
データ集合 はどれかから生成された
どのモデルからかはわからない
D
17/23
モデルエビデンスの近似
( | , )d 1ip w w =ò D M
MAP posterior( , )| 1ip w wDD M !
MAP MAP
posterior
( | , ) ( | )
1
( | )
i i
i
p pw w
w
p
D
D
D
!
M M
M
posteriorMAP
prior
( | , )
1
( | )
i
i
p ww
p w
D
D
D
D
!
M
M
posterior
MAP
prior
( | ) ( | , )i i
w
w
p wp
D
D
D D!M Mモデルエビデンスの近似
( | , )ip w D M
prior
1
( )p w
w
=
D事前分布
事後分布
パラメータが1つのモデルの場合
事前分布:平坦
事後分布:モードの近傍で鋭く尖る.
18/23
モデルエビデンスの解釈
posterior
pri
M
or
AP nln ( | ) ln l( | , )ii p
w
w
wp
æ öD
ç ÷ç ÷D
+
è ø
D D! MM
第1項
Ø データへのフィッティング度
Ø データDが生成される確率(尤度)
第2項
Ø モデルの複雑さへのペナルティ
Ø 負 posterior priorw wD<D
モデルがデータに強くフィット
ペナルティ大
パラメータが1つのモデルの場合
19/23
モデルエビデンスの解釈
posterior
pri
A
or
M P lnln ( | ) ln ( | , )iip
w
M
w
p
æ öD
ç ÷ç ÷D ø
+
è
wD D!M M
パラメータがM個のモデルの場合
エビデンス最大にするモデルは,
相反する項をバランスよく小さくする.
パラメータ数Mが多い
Ø フィッティング度 +大
Ø ペナルティ -大
パラメータ数Mが少ない
Ø フィッティング度 +小
Ø ペナルティ -小
今回のモデルエビデンスの近似は大雑把 => 4.4.1節 ガウス近似法
20/23
データをサンプリング
3つのモデルからデータ集合生成
Ø 事前分布に従いパラメータの値を選択
Ø そのパラメータ値に対し,データをp(D|w)からサンプリング
1 2 3, ,M M M
モデルはD上の確率分布
単純なモデル:データ集合は多様性に乏しい = 狭い範囲に分布
複雑なモデル:データ集合は多様性に富む = 広い範囲に分布
21/23
モデル比較
0D観測データ集合
1 2 3, ,M M M
22/23
期待ベイズ因子
1
1
2
( | )
( | )l
|
dn
( )
p
p
pò
D
DD
D
M
M
M
2つのモデルの比較
1M真のモデル
1 2,M M
有限のデータ集合では,正しくないモデルが選ばれる可能性 => 期待値
( | )
( | )
i
j
p
p
D
D
M
M
ベイズ因子
1 2
2 1
( | ) ( | )
( | ) ( | )
p p
p p
>
D D
D D
M M
M M
ベイズ因子が大きいほうが真のモデル
データ集合 D
カルバック-ライブラーダイバージェンス
( )
( || ) ( )l dn
( )
q
KL p q p
p
= -ò
x
x
x
x
23/23
まとめ
全体の予測分布を個々のモデルの予測分布をモデルの事後確率で重み付き平均
モデルエビデンス最大化で近似
Ø 過学習の問題を回避(フィッティング度とモデル複雑さをバランス良く)
Ø 訓練データだけでモデル比較
問題点
Ø 正しくない仮定を置くと,誤った結果になる
Ø 変則事前分布に対し,エビデンスを定義できない
Ø 変則でない事前分布ならOK

PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)