異異常検知と変化検知	
  
第8章  ガウス過程回帰による異異常検知
@progranate
本章で扱う異異常検知問題
•  ⼊入⼒力力  x,	
  出⼒力力yの対データDに対する異異常検知	
  
•  D={(x(1), y(1)), …, (x(n), y(n))}
*	
  本章ではxはM次元、yはスカラーとしている	
  
	
  
•  例例)	
  
•  電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
2	
  
⼊入出⼒力力がある場合の異異常検知と回帰問題
•  例例)電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
電圧  x
電流流  y
0.7	
  v
3	
  
⼊入出⼒力力がある場合の異異常検知と回帰問題
•  例例)電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
電圧  x
電流流  y
0.7	
  v
応答曲⾯面  f(x):	
  正常時に期待される出⼒力力	
  
出⼒力力値yの分散
⼊入⼒力力に対する出⼒力力を与える応答曲⾯面f及び、	
  
観測ノイズについての確率率率分布を求めることを回帰問題	
  
4	
  
ガウス過程回帰とは
5	
  
ガウス過程回帰
•  特徴	
  
•  汎⽤用性の⾼高い⾮非線形回帰⼿手法	
  
•  応答曲⾯面f(x)を確率率率モデルp(f(x)|D)の形で構築	
  
•  ガウス過程回帰のモデルが持つ2つの要素	
  
1.  観測時のノイズを表す確率率率モデル  p(y|x,σ2)
2.  応答曲⾯面f(x)の滑滑らかさを表現する事前分布  p(fN)
6	
  
第1要素:	
  
観測時のノイズを表す確率率率モデル  p(y | x,σ2)
•  出⼒力力yのノイズを表すモデル:	
  正規分布	
  
出⼒力力yは応答曲⾯面  f(x) 周りに分散σ2で分布	
  
p(y x,σ 2
) = N y f (x),σ 2
( ) 式(8.1)
7	
  
第2要素:	
  
応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN)	
  (1/2)
•  ⼊入⼒力力がx, x’の2つの場合	
  
•  任意の⼊入⼒力力x, x’における応答曲⾯面の値をf(x), f(x’)とする時、
f(x)とf(x’)は次のような確率率率分布に従う
p
f (x)
f (x')
!
"
#
#
$
%
&
&
= N 0,
K(x, x) K(x, x')
K(x', x) K(x', x')
'
(
)
)
*
+
,
,
!
"
#
#
$
%
&
&
K(x, x’):	
  カーネル関数	
  
xとx’が近い値のとき⼩小さい値を取る	
  
→⼊入⼒力力値が近いと出⼒力力値も近いよねという制約	
  
式(8.3)
8	
  
第2要素:	
  
応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN) (2/2)
•  ⼊入⼒力力がx(1), …, x(N)のN個の場合	
  
•  任意の⼊入⼒力力x(1), …, x(N)における応答曲⾯面の値をf(x(1)), …,
f(x(N))とする時、fNは次のような確率率率分布に従う
p( fN ) = N( fN | 0,K) fN = ( f (x(1)
),…, f (x(N )
))T
K:	
  (i, j)成分がK(x(i), x(j))で与えられる⾏行行列列
*	
  無限個の⼊入⼒力力点を考えると無限次元の正規分布となる
式(8.5) 式(8.4)
9	
  
事前分布N(fN | 0,K)から抽出したf(x)の様⼦子
•  図8.2	
  
•  xは⼀一次元、N=50で[-5, 5]の範囲を区分してf(x)を抽出	
  
fNは離離散値であるが、
事前分布により連続の関数値のように⾒見見える
10	
  
ガウス過程の問題設定と式の導出
11	
  
ガウス過程回帰の問題設定と求め⽅方
•  問題設定	
  
•  観測値の分散σ2とデータDが与えられたときに	
  
出⼒力力値の予測分布p(y | x, D, σ2)を求める	
  
•  予測分布  p(y | x, D, σ2)
p(y | x, D,σ 2
) = dfN(y | f (x),σ 2
)
−∞
∞
∫ p( f (x)| D)
応答曲⾯面f(x)周りに	
  
分散σ2で分布
ステップ1:	
  データDを元にfNの分布p(fN | D)を求める	
  
ステップ2:	
  p(fN | D)と応答曲⾯面の滑滑らかさよりp(f(x) | D)を求める
式(8.2)
12	
  
ステップ1:	
  p(fN | D)の計算	
  (1/4)
•  ベイズの定理理を適⽤用	
  
•  p(D|fN,σ2)について	
  
•  観測量量{y(1), …y(N)}の同時分布	
  
パラメータfNに対する尤度度とも解釈できる	
  
•  各観測を独⽴立立に⾏行行ったとすると	
  
•  p(fN)について	
  
•  正規分布
p( fN D) =
p(D fN,σ 2
)p( fN )
d f 'N p(D fN,σ 2
)p( fN ')∫
p(D fN,σ 2
) = N(y(n)
f (n)
,σ 2
) = N(yN fN,σ 2
IN )
n=1
N
∏
p( fN ) = N( fN 0,K)
yN ≡ y(1)
,…, y(n)
{ }
式(8.6)
式(8.7)
式(8.5)
13	
  
ステップ1:	
  p(fN | D)の計算	
  (2/4)
•  ここで、p(fN | D)を計算するための式を導⼊入	
  
•  次の2つの正規分布が与えられている時、	
  
	
  	
  ベイズの定理理に基づいて、p(x|y)およびp(y)を求めると	
  
p(y | x) = N(y | Ax + b, D)
p(x) = N(x | µ,Σ)
p(x | y) = N(x | M AT
D−1
(y − b)+ Σ−1
µ{ },M)
p(y) = N(y | Aµ +b, D + AΣAT
)
M ≡ AT
D−1
A+ Σ−1
( )
−1
ここで
式(8.8)
式(8.9)
式(8.10)
式(8.11)
式(8.12)
14	
  
ステップ1:	
  p(fN | D)の計算	
  (3/4)
p(y | x) = N(y | Ax + b, D)
p(x) = N(x | µ,Σ)
p(x | y)
= N(x | M AT
D−1
(y − b)+ Σ−1
µ{ },M)
M ≡ AT
D−1
A+ Σ−1
( )
−1
p(D | fN,σ 2
) = N(yN | fN,σ 2
IN )
p( fN ) = N( fN | 0,K)
p( fN | D,σ 2
)
= N fN MIN σ 2
IN( )
−1
yN( ),M( )
= N fN
1
σ 2
MyN,M
"
#
$
%
&
'
M ≡
1
σ 2
IN + K−1#
$
%
&
'
(
−1
変形式 計算したい式
y ← yN, A ← IN,b ← 0,
D ←σ 2
IN,µ ← 0, Σ ← K
p( fN D) = p(D fN,σ 2
)p( fN )
…	
  式(8.13)
15	
  
ステップ1:	
  p(fN | D)の計算	
  (4/4)
•  Mの変形
M ≡
1
σ 2
IN + K−1#
$
%
&
'
(
−1
ウッドベリー⾏行行列列恒等式
A+ BDC[ ]
−1
= A−1
− A−1
B D−1
+CA−1
B!" #$
−1
CA−1
式(8.14)
M ≡
1
σ 2
IN
!
"
#
$
%
&
−1
−
1
σ 2
IN
!
"
#
$
%
&
−1
IN K + IN
1
σ 2
IN
!
"
#
$
%
&
−1
IN
!
"
##
$
%
&&IN
1
σ 2
IN
!
"
#
$
%
&
−1
=σ 2
IN −σ 2
K +σ 2
IN( )
−1
( ) 式(8.16)
式(8.17)M ≡σ 2
K K +σ 2
IN( )
−1
両辺に(K+σ2IN)をかける
16	
  
ステップ1で求めたfNの事後分布p(fN | D)
•  σ2が⼩小さければfNはyNに張り付く	
  
•  事前分布p(fN)のみでは、様々な関数をとることができたが、	
  
データD=(yN)により、関数に制限をかける
p( fN | D,σ 2
) = N fN
1
σ 2
MyN,M
!
"
#
$
%
&
M ≡σ 2
K K +σ 2
IN( )
−1
ただし
	
  式(8.13)
式(8.17)
17	
  
ステップ2:	
  p(f(x) | D)の計算	
  (1/5)
•  p(fN | D)とp(f(x) | D)の違い	
  
•  p(fN | D):	
  N個のデータが与えられたときの出⼒力力値の事後分布	
  
•  p(f(x) | D):  任意のxに対する応答曲⾯面f(x)の確率率率分布	
  
•  p(f(x) | D)の計算
p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫
fNが与えられた	
  
ときのf(x)
ステップ1で求めた
事後分布
式(8.18)
条件付き分布p(f(x) | fN)を同時分布p(f(x), fN)から求める
18	
  
ステップ2:	
  p(f(x) | D)の計算	
  (2/5)
•  f(x)とfNの同時分布	
  
•  式(8.5)より	
  
p
f (x)
fN
!
"
#
#
$
%
&
&
= N 0,
Ko kT
k K
'
(
)
)
*
+
,
,
!
"
#
#
$
%
&
& 式(8.19)
ここで k = K x, x(1)
( ),…,K x, x(N )
( )( )
T
Ko = K x, x( )
19	
  
ステップ2:	
  p(f(x) | D)の計算	
  (3/5)
•  正規分布の分割公式	
  
•  確率率率変数xを	
  
	
  
•  合わせて平均µ,共分散⾏行行列列∑を以下のように分割	
  
•  ここでxが正規分布N(x| µ, ∑)に従うとき、
xbを与えた時のxaの条件付き分布N(xa|µa|b, ∑a|b)の平均、分散は
x =
xa
xb
!
"
#
#
$
%
&
&
µ =
µa
µb
!
"
#
#
$
%
&
& Σ =
Σaa Σab
Σba Σbb
"
#
$
$
%
&
'
'
µa|b = µa + ΣabΣbb
−1
xb − µb( )
式(8.20)
Σa|b = Σaa − ΣabΣbb
−1
Σba
式(8.21)
式(8.23)
20	
  
ステップ2:	
  p(f(x) | D)の計算	
  (4/5)
•  分割公式にfNとf(x)の同時分布を当てはめ	
  
•  式(8.21)と(8.23)より	
  
•  よって
x =
xa
xb
!
"
#
#
$
%
&
&
µ =
µa
µb
!
"
#
#
$
%
&
&
Σ =
Σaa Σab
Σba Σbb
"
#
$
$
%
&
'
'
f =
f (x)
fN
!
"
#
#
$
%
&
&
µ =
0
0
!
"
#
$
%
& Σ =
Ko kT
k K
"
#
$
$
%
&
'
'
µa|b = kT
K−1
( fN − 0) = kT
K−1
fN
Σa|b = Ko − kT
K−1
k
p f (x) fN( )= N f (x) kT
K−1
fN,Ko − kT
K−1
k( ) 式(8.27)
21	
  
ステップ2:	
  p(f(x) | D)の計算	
  (5/5)
•  式(8.18)へ計算値を代⼊入
p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ 式(8.18)
N f (x) kT
K−1
fN,Ko − kT
K−1
k( ) N fN
1
σ 2
MyN,M
!
"
#
$
%
&
p f (x) D( )= N f (x) µf (x),σ 2
f (x)( )
µf (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) = Ko − kT
K +σ 2
IN( )
−1
k
式(8.28)
式(8.29)
p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ)
p(y) = N(y | Aµ +b, D + AΣAT
)
正規分布の変形式
の時
より
22	
  
p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ, Σ)
p(y) = N(y | Aµ +b, D + AΣAT
)
正規分布の変形式
の時
より
予測分布p(y | x, D, σ2)の計算
p(y | x, D,σ 2
) = dfN(y | f (x),σ 2
)
−∞
∞
∫ p( f (x)| D)
N f (x) µf (x),σ 2
f (x)( )
µf (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) = Ko − kT
K +σ 2
IN( )
−1
k
p y x, D,σ 2
( )= N y µy (x),σ 2
y (x)( )
µy (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) =σ 2
+ Ko − kT
K +σ 2
IN( )
−1
k
式(8.31)
式(8.32)
式(8.30)
平均μy(x)がxに依存しているため、⾮非線形回帰が可能
23	
  
異異常度度の定義
24	
  
異異常度度の定義とホテリングのT2法との⽐比較
•  ガウス過程での異異常度度	
  
•  ホテリングのT2法での異異常度度  =	
  マハラノビス距離離
a(x') = (x'− ˆµ)T ˆΣ−1
(x'− ˆµ)
ˆµ =
1
N
x(n)
n=1
N
∑
式(2.9)
ˆΣ =
1
N
(x(n)
− ˆµ)(x(n)
− ˆµ)T
n=1
N
∑
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
式(8.33)
マハラノビス距離離
25	
  
異異常度度の定義とホテリングのT2法との⽐比較
•  ガウス過程での異異常度度	
  
•  ホテリングのT2法での異異常度度  =	
  マハラノビス距離離
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
a(x') = (x'− ˆµ)T ˆΣ−1
(x'− ˆµ)
ˆµ =
1
N
x(n)
n=1
N
∑
式(8.33)
式(2.9)
ˆΣ =
1
N
(x(n)
− ˆµ)(x(n)
− ˆµ)T
n=1
N
∑
期待値と分散が⼊入⼒力力x’に依存
期待値と分散は学習データに依存
マハラノビス距離離
26	
  
予測平均と予測分散の計算例例
•  図8.3	
  
•  図8.2の事前分布に対しデータを与え、横軸50点からなる応答曲線
を50本標本抽出	
  
•  与えたデータ: (x, y)={(-4, -2), (-2.8, 0), (-1, 1), (0, 2), (2.2, -1)}
データが存在するところでは分散が⼩小	
  
データが疎な部分では分散は⼤大
27	
  
パラメータの決定⼿手法
28	
  
分散σ2や他パラメータの決定
•  ここまで分散σ2は既知としてきたが、	
  
実際は⼊入⼒力力データから推定する必要がある	
  
•  周辺尤度度最⼤大化により、σ2を選択	
  
•  E(σ2|D)をしばしば(σ2に関する)エビデンスと呼ぶ	
  
E(σ 2
D) ≡ d fN p D fN,σ 2
( )p( fN )∫ →    最⼤大化
式(8.11)を適⽤用
E(σ 2
D) ≡ N yN 0,σ 2
IN + K( )
式(8.36)
式(8.37)
29	
  
分散σ2や他パラメータの決定
•  カーネル⾏行行列列からσ2の抜き出し
•  対数エビデンス
•  σ-2で微分し、整理理すると
K =σ 2 !K
logE(σ 2
D) ≡ −
N
2
log(2πσ 2
)−
1
2
log IN + !K −
σ −2
2
yN
T
IN + !K( )
−1
yN
ˆσ 2
≡
1
N
yN
T
IN + !K( )
−1
yN
Kのカーネルのパラメータも同様に	
  
周辺尤度度最⼤大化で求める(詳細はp103にて)
式(8.38)
式(8.39)
30	
  
実験計画法への応⽤用
31	
  
実験計画法への応⽤用
•  実験計画法	
  
•  効率率率良良い実験⽅方法を設計し、結果を適切切に解析する(wikipediaより)	
  
•  例例)	
  
•  ⾃自動⾞車車の衝突シミュレーション	
  
  設計パラメータ:x、  評価値:	
  y
  過去N回のシミュレーション結果	
  
	
  
	
  
  を活⽤用して、	
  
  次にシミュレーションするべき最適なxは何か?を決定	
  
D = (x(1)
, y(1)
),…,(x(N )
, y(N )
){ }
32	
  
最適性の定義:  期待改善量量
•  評価値yは⼩小さければ⼩小さいほど良良いという仮定	
  
•  ymin:	
  Dに含まれるN個の評価値の中での最⼩小値(最善値)	
  
•  []+は正なら何もせず、負なら0に置き換え
J(x) = dyp(y | x, D,σ 2
)
−∞
∞
∫ ymin − y[ ]+
式(8.42)
33	
  
期待改善量量の計算
J(x) = dyN(y | µy (x),σy
2
(x))
−∞
ymin
∫ (ymin − y)
= duN(u | 0,1)(ymin −uσy (x)−µy (x))
−∞
ymin−µy
σy
∫
=σy (x) zΦ(z)+ N(z | 0,1)[ ]
z =
ymin −µy (x)
σy (x)
Φ(v) = du
−∞
u
∫ N(u | 0,1)
−
d
du
N(u | 0,1) = uN(u | 0,1)
J(x) = dyp(y | x, D,σ 2
)
−∞
∞
∫ ymin − y[ ]+
式(8.43)
式(8.44)
予測分布の式と より
34	
  
期待改善量量の解釈
•  ここでzがある程度度⼤大きいとき[]内はzに⽐比例例	
  
	
  
•  σyはDにおける疎な領領域で⼤大きくなる(図8.3より)ため	
  
期待改善量量を最⼤大にするxは、	
  
「これまであまり試していない領領域でzが⼤大きくなる値」	
  
J(x) =σy (x) zΦ(z)+ N(z | 0,1)[ ]
J(x) ≈ σy (x)× z(x)[ ]+
式(8.43)
式(8.45)
35	
  
リッジ回帰との関係
36	
  
リッジ回帰との関係	
  (1/2)
•  リッジ回帰とは	
  
•  線形モデルの最⼩小2乗法で推定するパラメータに正規化項を加えた回帰
y = xT
ˆα ˆα = XXT
+σ −2
IM( )XyN
X ≡ x(1)
,…, x(N )"# $%
yN − Xα( )
T
yN − Xα( )+σ −2
αT
α最⼩小化する式:
2乗誤差 正規化項
推定値:
ただし
式(8.46)
37	
  
リッジ回帰との関係	
  (2/2)
•    の式にウッドベリー⾏行行列列恒等式(8.14)を適⽤用	
  
	
  
•  ここで、        ,          	
  	
  	
  とおいてyを計算すると	
  
	
  
標本のベクトルの内積をカーネル関数で置き換えて得られた  	
  
→	
  リッジ回帰にカーネルトリックを適⽤用したものがガウス過程回帰
ˆα = σ 2
IN −σ 4
X IN +σ 2
XT
X( )
−1
XT
{ }XyN
ˆα
k = XT
x K = XT
X
y =σ 2
kT
IN −σ 2
σ 2
K + IN( )
−1
K{ }yN
=σ 2
kT
σ 2
K +IN( )
−1
σ 2
K +IN( )−σ 22
K{ }yN
= kT
K +σ 2
IN( )
−1
yN …	
  ガウス過程における予測平均σy(x)と⼀一致
38	
  
8章のまとめ
39	
  
まとめ
•  ガウス過程回帰	
  
•  予測分布	
  
•  N個の⼊入⼒力力データに対し出⼒力力値を⽣生成する確率率率モデル	
  
	
  
•  異異常度度	
  
p y x, D,σ 2
( )= N y µy (x),σ 2
y (x)( )
µy (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) =σ 2
+ Ko − kT
K +σ 2
IN( )
−1
k
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
40	
  

第8章 ガウス過程回帰による異常検知

  • 1.
  • 2.
    本章で扱う異異常検知問題 •  ⼊入⼒力力  x,  出⼒力力yの対データDに対する異異常検知   •  D={(x(1), y(1)), …, (x(n), y(n))} *  本章ではxはM次元、yはスカラーとしている     •  例例)   •  電⼦子部品(ダイオード)の異異常検知   •  ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   2  
  • 3.
    ⼊入出⼒力力がある場合の異異常検知と回帰問題 •  例例)電⼦子部品(ダイオード)の異異常検知   • ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   電圧  x 電流流  y 0.7  v 3  
  • 4.
    ⼊入出⼒力力がある場合の異異常検知と回帰問題 •  例例)電⼦子部品(ダイオード)の異異常検知   • ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   電圧  x 電流流  y 0.7  v 応答曲⾯面  f(x):  正常時に期待される出⼒力力   出⼒力力値yの分散 ⼊入⼒力力に対する出⼒力力を与える応答曲⾯面f及び、   観測ノイズについての確率率率分布を求めることを回帰問題   4  
  • 5.
  • 6.
    ガウス過程回帰 •  特徴   • 汎⽤用性の⾼高い⾮非線形回帰⼿手法   •  応答曲⾯面f(x)を確率率率モデルp(f(x)|D)の形で構築   •  ガウス過程回帰のモデルが持つ2つの要素   1.  観測時のノイズを表す確率率率モデル  p(y|x,σ2) 2.  応答曲⾯面f(x)の滑滑らかさを表現する事前分布  p(fN) 6  
  • 7.
    第1要素:   観測時のノイズを表す確率率率モデル  p(y| x,σ2) •  出⼒力力yのノイズを表すモデル:  正規分布   出⼒力力yは応答曲⾯面  f(x) 周りに分散σ2で分布   p(y x,σ 2 ) = N y f (x),σ 2 ( ) 式(8.1) 7  
  • 8.
    第2要素:   応答曲⾯面  f(x)の滑滑らかさを表現する事前分布  p(fN)  (1/2) •  ⼊入⼒力力がx, x’の2つの場合   •  任意の⼊入⼒力力x, x’における応答曲⾯面の値をf(x), f(x’)とする時、 f(x)とf(x’)は次のような確率率率分布に従う p f (x) f (x') ! " # # $ % & & = N 0, K(x, x) K(x, x') K(x', x) K(x', x') ' ( ) ) * + , , ! " # # $ % & & K(x, x’):  カーネル関数   xとx’が近い値のとき⼩小さい値を取る   →⼊入⼒力力値が近いと出⼒力力値も近いよねという制約   式(8.3) 8  
  • 9.
    第2要素:   応答曲⾯面  f(x)の滑滑らかさを表現する事前分布  p(fN) (2/2) •  ⼊入⼒力力がx(1), …, x(N)のN個の場合   •  任意の⼊入⼒力力x(1), …, x(N)における応答曲⾯面の値をf(x(1)), …, f(x(N))とする時、fNは次のような確率率率分布に従う p( fN ) = N( fN | 0,K) fN = ( f (x(1) ),…, f (x(N ) ))T K:  (i, j)成分がK(x(i), x(j))で与えられる⾏行行列列 *  無限個の⼊入⼒力力点を考えると無限次元の正規分布となる 式(8.5) 式(8.4) 9  
  • 10.
    事前分布N(fN | 0,K)から抽出したf(x)の様⼦子 • 図8.2   •  xは⼀一次元、N=50で[-5, 5]の範囲を区分してf(x)を抽出   fNは離離散値であるが、 事前分布により連続の関数値のように⾒見見える 10  
  • 11.
  • 12.
    ガウス過程回帰の問題設定と求め⽅方 •  問題設定   • 観測値の分散σ2とデータDが与えられたときに   出⼒力力値の予測分布p(y | x, D, σ2)を求める   •  予測分布  p(y | x, D, σ2) p(y | x, D,σ 2 ) = dfN(y | f (x),σ 2 ) −∞ ∞ ∫ p( f (x)| D) 応答曲⾯面f(x)周りに   分散σ2で分布 ステップ1:  データDを元にfNの分布p(fN | D)を求める   ステップ2:  p(fN | D)と応答曲⾯面の滑滑らかさよりp(f(x) | D)を求める 式(8.2) 12  
  • 13.
    ステップ1:  p(fN |D)の計算  (1/4) •  ベイズの定理理を適⽤用   •  p(D|fN,σ2)について   •  観測量量{y(1), …y(N)}の同時分布   パラメータfNに対する尤度度とも解釈できる   •  各観測を独⽴立立に⾏行行ったとすると   •  p(fN)について   •  正規分布 p( fN D) = p(D fN,σ 2 )p( fN ) d f 'N p(D fN,σ 2 )p( fN ')∫ p(D fN,σ 2 ) = N(y(n) f (n) ,σ 2 ) = N(yN fN,σ 2 IN ) n=1 N ∏ p( fN ) = N( fN 0,K) yN ≡ y(1) ,…, y(n) { } 式(8.6) 式(8.7) 式(8.5) 13  
  • 14.
    ステップ1:  p(fN |D)の計算  (2/4) •  ここで、p(fN | D)を計算するための式を導⼊入   •  次の2つの正規分布が与えられている時、      ベイズの定理理に基づいて、p(x|y)およびp(y)を求めると   p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(x | y) = N(x | M AT D−1 (y − b)+ Σ−1 µ{ },M) p(y) = N(y | Aµ +b, D + AΣAT ) M ≡ AT D−1 A+ Σ−1 ( ) −1 ここで 式(8.8) 式(8.9) 式(8.10) 式(8.11) 式(8.12) 14  
  • 15.
    ステップ1:  p(fN |D)の計算  (3/4) p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(x | y) = N(x | M AT D−1 (y − b)+ Σ−1 µ{ },M) M ≡ AT D−1 A+ Σ−1 ( ) −1 p(D | fN,σ 2 ) = N(yN | fN,σ 2 IN ) p( fN ) = N( fN | 0,K) p( fN | D,σ 2 ) = N fN MIN σ 2 IN( ) −1 yN( ),M( ) = N fN 1 σ 2 MyN,M " # $ % & ' M ≡ 1 σ 2 IN + K−1# $ % & ' ( −1 変形式 計算したい式 y ← yN, A ← IN,b ← 0, D ←σ 2 IN,µ ← 0, Σ ← K p( fN D) = p(D fN,σ 2 )p( fN ) …  式(8.13) 15  
  • 16.
    ステップ1:  p(fN |D)の計算  (4/4) •  Mの変形 M ≡ 1 σ 2 IN + K−1# $ % & ' ( −1 ウッドベリー⾏行行列列恒等式 A+ BDC[ ] −1 = A−1 − A−1 B D−1 +CA−1 B!" #$ −1 CA−1 式(8.14) M ≡ 1 σ 2 IN ! " # $ % & −1 − 1 σ 2 IN ! " # $ % & −1 IN K + IN 1 σ 2 IN ! " # $ % & −1 IN ! " ## $ % &&IN 1 σ 2 IN ! " # $ % & −1 =σ 2 IN −σ 2 K +σ 2 IN( ) −1 ( ) 式(8.16) 式(8.17)M ≡σ 2 K K +σ 2 IN( ) −1 両辺に(K+σ2IN)をかける 16  
  • 17.
    ステップ1で求めたfNの事後分布p(fN | D) • σ2が⼩小さければfNはyNに張り付く   •  事前分布p(fN)のみでは、様々な関数をとることができたが、   データD=(yN)により、関数に制限をかける p( fN | D,σ 2 ) = N fN 1 σ 2 MyN,M ! " # $ % & M ≡σ 2 K K +σ 2 IN( ) −1 ただし  式(8.13) 式(8.17) 17  
  • 18.
    ステップ2:  p(f(x) |D)の計算  (1/5) •  p(fN | D)とp(f(x) | D)の違い   •  p(fN | D):  N個のデータが与えられたときの出⼒力力値の事後分布   •  p(f(x) | D):  任意のxに対する応答曲⾯面f(x)の確率率率分布   •  p(f(x) | D)の計算 p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ fNが与えられた   ときのf(x) ステップ1で求めた 事後分布 式(8.18) 条件付き分布p(f(x) | fN)を同時分布p(f(x), fN)から求める 18  
  • 19.
    ステップ2:  p(f(x) |D)の計算  (2/5) •  f(x)とfNの同時分布   •  式(8.5)より   p f (x) fN ! " # # $ % & & = N 0, Ko kT k K ' ( ) ) * + , , ! " # # $ % & & 式(8.19) ここで k = K x, x(1) ( ),…,K x, x(N ) ( )( ) T Ko = K x, x( ) 19  
  • 20.
    ステップ2:  p(f(x) |D)の計算  (3/5) •  正規分布の分割公式   •  確率率率変数xを     •  合わせて平均µ,共分散⾏行行列列∑を以下のように分割   •  ここでxが正規分布N(x| µ, ∑)に従うとき、 xbを与えた時のxaの条件付き分布N(xa|µa|b, ∑a|b)の平均、分散は x = xa xb ! " # # $ % & & µ = µa µb ! " # # $ % & & Σ = Σaa Σab Σba Σbb " # $ $ % & ' ' µa|b = µa + ΣabΣbb −1 xb − µb( ) 式(8.20) Σa|b = Σaa − ΣabΣbb −1 Σba 式(8.21) 式(8.23) 20  
  • 21.
    ステップ2:  p(f(x) |D)の計算  (4/5) •  分割公式にfNとf(x)の同時分布を当てはめ   •  式(8.21)と(8.23)より   •  よって x = xa xb ! " # # $ % & & µ = µa µb ! " # # $ % & & Σ = Σaa Σab Σba Σbb " # $ $ % & ' ' f = f (x) fN ! " # # $ % & & µ = 0 0 ! " # $ % & Σ = Ko kT k K " # $ $ % & ' ' µa|b = kT K−1 ( fN − 0) = kT K−1 fN Σa|b = Ko − kT K−1 k p f (x) fN( )= N f (x) kT K−1 fN,Ko − kT K−1 k( ) 式(8.27) 21  
  • 22.
    ステップ2:  p(f(x) |D)の計算  (5/5) •  式(8.18)へ計算値を代⼊入 p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ 式(8.18) N f (x) kT K−1 fN,Ko − kT K−1 k( ) N fN 1 σ 2 MyN,M ! " # $ % & p f (x) D( )= N f (x) µf (x),σ 2 f (x)( ) µf (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) = Ko − kT K +σ 2 IN( ) −1 k 式(8.28) 式(8.29) p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(y) = N(y | Aµ +b, D + AΣAT ) 正規分布の変形式 の時 より 22  
  • 23.
    p(y | x)= N(y | Ax + b, D) p(x) = N(x | µ, Σ) p(y) = N(y | Aµ +b, D + AΣAT ) 正規分布の変形式 の時 より 予測分布p(y | x, D, σ2)の計算 p(y | x, D,σ 2 ) = dfN(y | f (x),σ 2 ) −∞ ∞ ∫ p( f (x)| D) N f (x) µf (x),σ 2 f (x)( ) µf (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) = Ko − kT K +σ 2 IN( ) −1 k p y x, D,σ 2 ( )= N y µy (x),σ 2 y (x)( ) µy (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) =σ 2 + Ko − kT K +σ 2 IN( ) −1 k 式(8.31) 式(8.32) 式(8.30) 平均μy(x)がxに依存しているため、⾮非線形回帰が可能 23  
  • 24.
  • 25.
    異異常度度の定義とホテリングのT2法との⽐比較 •  ガウス過程での異異常度度   • ホテリングのT2法での異異常度度  =  マハラノビス距離離 a(x') = (x'− ˆµ)T ˆΣ−1 (x'− ˆµ) ˆµ = 1 N x(n) n=1 N ∑ 式(2.9) ˆΣ = 1 N (x(n) − ˆµ)(x(n) − ˆµ)T n=1 N ∑ a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 式(8.33) マハラノビス距離離 25  
  • 26.
    異異常度度の定義とホテリングのT2法との⽐比較 •  ガウス過程での異異常度度   • ホテリングのT2法での異異常度度  =  マハラノビス距離離 a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 a(x') = (x'− ˆµ)T ˆΣ−1 (x'− ˆµ) ˆµ = 1 N x(n) n=1 N ∑ 式(8.33) 式(2.9) ˆΣ = 1 N (x(n) − ˆµ)(x(n) − ˆµ)T n=1 N ∑ 期待値と分散が⼊入⼒力力x’に依存 期待値と分散は学習データに依存 マハラノビス距離離 26  
  • 27.
    予測平均と予測分散の計算例例 •  図8.3   • 図8.2の事前分布に対しデータを与え、横軸50点からなる応答曲線 を50本標本抽出   •  与えたデータ: (x, y)={(-4, -2), (-2.8, 0), (-1, 1), (0, 2), (2.2, -1)} データが存在するところでは分散が⼩小   データが疎な部分では分散は⼤大 27  
  • 28.
  • 29.
    分散σ2や他パラメータの決定 •  ここまで分散σ2は既知としてきたが、   実際は⼊入⼒力力データから推定する必要がある   •  周辺尤度度最⼤大化により、σ2を選択   •  E(σ2|D)をしばしば(σ2に関する)エビデンスと呼ぶ   E(σ 2 D) ≡ d fN p D fN,σ 2 ( )p( fN )∫ →    最⼤大化 式(8.11)を適⽤用 E(σ 2 D) ≡ N yN 0,σ 2 IN + K( ) 式(8.36) 式(8.37) 29  
  • 30.
    分散σ2や他パラメータの決定 •  カーネル⾏行行列列からσ2の抜き出し •  対数エビデンス • σ-2で微分し、整理理すると K =σ 2 !K logE(σ 2 D) ≡ − N 2 log(2πσ 2 )− 1 2 log IN + !K − σ −2 2 yN T IN + !K( ) −1 yN ˆσ 2 ≡ 1 N yN T IN + !K( ) −1 yN Kのカーネルのパラメータも同様に   周辺尤度度最⼤大化で求める(詳細はp103にて) 式(8.38) 式(8.39) 30  
  • 31.
  • 32.
    実験計画法への応⽤用 •  実験計画法   • 効率率率良良い実験⽅方法を設計し、結果を適切切に解析する(wikipediaより)   •  例例)   •  ⾃自動⾞車車の衝突シミュレーション     設計パラメータ:x、  評価値:  y   過去N回のシミュレーション結果         を活⽤用して、     次にシミュレーションするべき最適なxは何か?を決定   D = (x(1) , y(1) ),…,(x(N ) , y(N ) ){ } 32  
  • 33.
    最適性の定義:  期待改善量量 •  評価値yは⼩小さければ⼩小さいほど良良いという仮定   •  ymin:  Dに含まれるN個の評価値の中での最⼩小値(最善値)   •  []+は正なら何もせず、負なら0に置き換え J(x) = dyp(y | x, D,σ 2 ) −∞ ∞ ∫ ymin − y[ ]+ 式(8.42) 33  
  • 34.
    期待改善量量の計算 J(x) = dyN(y| µy (x),σy 2 (x)) −∞ ymin ∫ (ymin − y) = duN(u | 0,1)(ymin −uσy (x)−µy (x)) −∞ ymin−µy σy ∫ =σy (x) zΦ(z)+ N(z | 0,1)[ ] z = ymin −µy (x) σy (x) Φ(v) = du −∞ u ∫ N(u | 0,1) − d du N(u | 0,1) = uN(u | 0,1) J(x) = dyp(y | x, D,σ 2 ) −∞ ∞ ∫ ymin − y[ ]+ 式(8.43) 式(8.44) 予測分布の式と より 34  
  • 35.
    期待改善量量の解釈 •  ここでzがある程度度⼤大きいとき[]内はzに⽐比例例     •  σyはDにおける疎な領領域で⼤大きくなる(図8.3より)ため   期待改善量量を最⼤大にするxは、   「これまであまり試していない領領域でzが⼤大きくなる値」   J(x) =σy (x) zΦ(z)+ N(z | 0,1)[ ] J(x) ≈ σy (x)× z(x)[ ]+ 式(8.43) 式(8.45) 35  
  • 36.
  • 37.
    リッジ回帰との関係  (1/2) •  リッジ回帰とは   •  線形モデルの最⼩小2乗法で推定するパラメータに正規化項を加えた回帰 y = xT ˆα ˆα = XXT +σ −2 IM( )XyN X ≡ x(1) ,…, x(N )"# $% yN − Xα( ) T yN − Xα( )+σ −2 αT α最⼩小化する式: 2乗誤差 正規化項 推定値: ただし 式(8.46) 37  
  • 38.
    リッジ回帰との関係  (2/2) •    の式にウッドベリー⾏行行列列恒等式(8.14)を適⽤用     •  ここで、        ,                とおいてyを計算すると     標本のベクトルの内積をカーネル関数で置き換えて得られた     →  リッジ回帰にカーネルトリックを適⽤用したものがガウス過程回帰 ˆα = σ 2 IN −σ 4 X IN +σ 2 XT X( ) −1 XT { }XyN ˆα k = XT x K = XT X y =σ 2 kT IN −σ 2 σ 2 K + IN( ) −1 K{ }yN =σ 2 kT σ 2 K +IN( ) −1 σ 2 K +IN( )−σ 22 K{ }yN = kT K +σ 2 IN( ) −1 yN …  ガウス過程における予測平均σy(x)と⼀一致 38  
  • 39.
  • 40.
    まとめ •  ガウス過程回帰   • 予測分布   •  N個の⼊入⼒力力データに対し出⼒力力値を⽣生成する確率率率モデル     •  異異常度度   p y x, D,σ 2 ( )= N y µy (x),σ 2 y (x)( ) µy (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) =σ 2 + Ko − kT K +σ 2 IN( ) −1 k a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 40