SlideShare a Scribd company logo
1 of 45
Download to read offline
カーネル法入門
6 章:正定値カーネルの理論
Daiki Tanaka
March 18, 2020
6.1 正定値カーネルと負定値カーネル
6.1.1 負定値カーネル
6.1.2 カーネルを生成する操作
6.2 Bochner の定理
6.3 Mercer の定理
6.3.1 積分核と積分作用素
6.3.2 積分核の Hilbert-Schmidt 展開
6.3.3 正値積分核と Mercer の定理
8.1 平均による確率分布の特徴づけ
8.1.1 ヒルベルト空間に値をとる確率変数
8.1.2 RKHS における平均
2
6.1.1 負定値カーネル
以下のように定める負定値カーネルから正定値カーネルを生成することができる.
定義:負定値
X:set について, : X ˆ X ! C が負定値であるとは, がエルミート的で,かつ X
の n 個の任意の点 x1; : : : ; xn と
Pn
i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C
に対して
nX
i;j=1
ci —cj (xi; xj) » 0 (1)
が成り立つことをいう.
[Remark]:負定値カーネルの定義は正定値カーネルの定義:
任意の n 2 N,任意の x1; : : : ; xn 2 X,任意の c1; : : : ; cn 2 C に対して
nX
i;j=1
ci —cjk (xi; xj) – 0
の逆符号ではない.(負定値性に関しては制約:
Pn
i=1 ci = 0 を満たす
ci (i = 1; : : : ; n) に対してだけ考える)
3
6.1.1 負定値カーネル:負定値カーネルの例
命題 6.1
› (1) k が正定値カーネルならば,`k は負定値カーネル.
› (2) 定数関数は負定値カーネル.
› (3) 任意の関数 f に対して, (x; y) = f (x) + f (y) は負定値カーネル.
[証明]
› (1):k が正定値カーネルである時,任意の n 2 N ,x1; : : : ; xn 2 X,
c1; : : : ; cn 2 C に対し,正値性
nX
i;j=1
ci —cjk (xi; xj) – 0
を満たす.この時,k0 := `k は
nX
i;j=1
ci —cjk0
(xi; xj) » 0
を任意の c1; : : : ; cn 2 C について満たすことから,`k は負定値カーネル. ✷
4
6.1.1 負定値カーネル
[証明]
› (2):定数関数 k (´; ´) = a と
Pn
i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C
について,
nX
i;j=1
ci —cjk (xi; xj) =
nX
i;j=1
ci —cja
=
nX
j=1
—cj
0
@
nX
i=1
cia
1
A
= 0 » 0
より,k は負定値カーネル. ✷
› (3) 任意の関数 f と
Pn
i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C に対し,
nX
i;j=1
ci —cj (xi; xj) =
nX
i;j=1
ci —cj (f(xi) + f(xj))
=
nX
j=1
—cj
0
@
nX
i=1
cif(xi)
1
A +
nX
i=1
ci
0
@
nX
j=1
—cjf(xj)
1
A
= 0 » 0
より, は負定値カーネル. ✷5
6.1.1 負定値カーネル
命題 6.2
i : X ˆ X ! C (i = 1; : : : ) を負定値カーネルとする時,次の 2 つのカーネルも負
定値である.
› (1) 非負結合:¸ 1 + ˛ 2
› (2) 極限: limi!1 i (x; y)
ただし,(2) では極限値の存在を仮定した.
X 上の負定値カーネル全体は閉凸錐である.正定値カーネルとは異なり,負定値カーネルの
積は負定値であるとは限らない.
6
6.1.1 負定値カーネル
負定値カーネルの基本的な例は以下の命題から得られる.
命題 6.3
集合 X から内積空間 V への写像 ffi : X ! V について,
(x; y) = kffi(x) ` ffi(y)k2
は X 上の負定値カーネルである.
[証明]Pn
i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C と x1; : : : ; xn 2 X に対して,
n
X
i;j=1
ci —cj kffi(x) ` ffi(y)k2
=
n
X
i;j=1
ci —cj hffi(x) ` ffi(y); ffi(x) ` ffi(y)i
=
n
X
i;j=1
ci —cj
˘
kffi (xi)k2
+ kffi (xj)k2
` hffi (xi) ; ffi (xj)i ` hffi (xj) ; ffi (xi)i
¯
= 0 + 0 `
* n
X
i=1
ciffi (xi) ;
n
X
j=1
—cjffi (xj)
+
`
* n
X
j=1
cjffi (xj) ;
n
X
j=1
ciffi (xi)
+
= `
‚
‚
‚
‚
‚
‚
n
X
i=1
ciffi (xi)
‚
‚
‚
‚
‚
‚
2
`
‚
‚
‚
‚
‚
‚
n
X
i=1
ciffi (xi)
‚
‚
‚
‚
‚
‚
2
» 0
□7
6.1.1 負定値カーネル
正定値カーネルと負定値カーネルの間には密接な関連性がある.
補題 6.4
(x; y) を集合 X ; 上の Hermite 的なカーネル ( (x; y) = (y; x)) とする.
8x0 2 X に対して,’ を以下のように定義する.
’ (x; y) := ` (x; y) + (x; x0) + (x0; y) ` (x0; x0)
この時, が負定値であることと,’ が正定値であることは同値である.
[証明] xi 2 X を任意の点とする.
› (:’ を正定値とする.
Pn
i=1 ai = 0 を満たす ai 2 C とすると,正定値性より,
nX
i;j=1
aiaj’ (xi; xj) – 0
である.
Pn
i;j=1 aiaj (xi; x0) =
Pn
i;j=1 aiaj (x0; xj) =
Pn
i;j=1 aiaj (x0; x0) = 0 であることに注意すると,
Pn
i;j=1 aiaj (xi; xj) » 0 を得られ, は負定値である.
8
6.1.1 負定値カーネル
[証明]
› ): を負定値とする.ci 2 C (i = 1; : : : ; n) を任意にとり,c0 := `
Pn
i=1 ci
とすれば, の負定値性から任意の x0; x1; : : : ; xn 2 X に対して,
nX
i=0;j=0
ci—cj (xi; xj) » 0
が成り立つ.上式の左辺は i = 0; j = 0 の場合を外に出せば:
n
X
i=0;j=0
ci—cj (xi; xj) =
n
X
i=0
n
X
j=0
ci—cj (xi; xj)
=
n
X
i;j=1
ci—cj (xi; xj) + c0
n
X
i=1
ci (xi; x0) + c0
n
X
j=1
cj (x0; xj) + jc0j2
(x0; x0)
=
n
X
i;j=1
cicj (xi; xj) `
n
X
i;j=1
cicj (xi; x0) `
n
X
i;j=1
cicj (x0; xj) +
n
X
i;j=1
cicj (x0; x0)
= `
n
X
i;j=1
cicj’ (xi; xj)
となって,
Pn
i;j=1 cicj’ (xi; xj) – 0 から ’ は正定値である. ✷
9
6.1.1 負定値カーネル:カーネル生成に便利な定理
次の定理はカーネルを系統的に生成する際に役立つ.
定理 6.5 Schoenberg の定理
集合 X ; に対して : X ˆ X ! C を X 上のカーネルとする.この時,
「 が負定値」 () 「exp (`t ) が任意の正数 t > 0 に対して正定値」
[証明] 微分の定義から,8x; y 2 X に対して,
(x; y) = lim
t!+0
1 ` exp (`t (x; y))
t
が成り立つ (?).8t > 0 に対して,exp (`t (x; y)) が正定値ならば,
1`exp (`t (x;y))
t
は負定値であり,その極限値 も負定値である.(命題 6.2)
逆の証明には も負定値である時に t = 1 の場合について exp (`t (x; y)) が正定値
であることを示せば十分.任意の x0 2 X に対して
’ (x; y) := ` (x; y) + (x; x0) + (x0; y) ` (x0; x0)
と定義すると,補題 6.4 から ’ は正定値であり,exp (’ (x; y)) も正定値である.命題
2.5 から
exp (` (x; y)) = exp (’ (x; y)) exp (` (x; x0))exp (` (y; x0)) exp ( (x0; x0))
は正定値である. ✷
10
6.1.2 カーネルを生成する操作
命題 6.6
集合 X 上の負定値カーネル : X ˆ X ! C が (x; x) – 0 を満たす時,任意の
0 < p » 1 に対して,
(x; y)p
は負定値である.
[証明]8z > 0 について,ガンマ関数 ` (z) を用いて
zp = p
`(1`p)
R 1
0 t`p`1
`
1 ` e`tz
´
dt とできることから,
(x; y)p
=
p
` (1 ` p)
Z 1
0
t`p`1
“
1 ` e`t (x;y)
”
dt
である.Schoenberg の定理と命題 6.1 により,被積分関数は不定値カーネル.積分が
リーマン和の極限であることに注意すれば (x; y)p
も不定値カーネルとなる (命題 6.2 よ
り不定値カーネルの非負結合は不定値カーネ). ✷
11
6.1.2 カーネルを生成する操作
系 6.7
任意の 0 < p » 2 と ¸ > 0 に対して,
exp
`
`¸ kx ` ykp´
は Rn 上の正定値カーネルである.
特に,¸ = 1; 2 の時,それぞれラプラスカーネル及びガウス RBF カーネルである.
12
6.1.2 カーネルを生成する操作
命題 6.8
: X ˆ X ! C を,集合 X 上の負定値カーネルとする.任意の x; y 2 X について
(x; y) – 0 を満たす時,任意の ¸ > 0 について
log (¸ + (x; y))
は負定値カーネルとなる.また, (x; y) > 0 である時,
log ( (x; y))
は負定値カーネルとなる.
[証明]:積分表示
log (1 + (x; y)) =
Z 1
0
“
1 ` e`t (x;y)
” e`t
t
dt
により,命題 6.6 と同様に被積分関数が負定値カーネルであることから
log (1 + (x; y)) は負定値カーネルである.したがって,
log (¸ + ) = log
`
1 + 1
¸
´
+ log ¸ も負定値である.
[Remark]:
命題 6.1(3):
「任意の関数 f に対して, (x; y) = f (x) + f (y) は負定値カーネル.」
から, (x; y) := x + y は R 上の負定値カーネルであるので,
(x; y) = log (x + y) は (0; 1) 上の負定値カーネルである.13
6.1.2 カーネルを生成する操作
以下の命題を用いれば,負定値カーネルから正定値カーネルを生成できる.
命題 6.9 負定値カーネルから正定値カーネルを生成
負定値カーネル が Re (x; y) – 0 を満たす時,
1
(x; y) + a
は正定値カーネルである.ただし,a は正の定数.
[証明]:積分表示
1
(x; y) + a
=
Z 1
0
e`t( (x;y)+a)
dt
より,命題 6.6 と同様にして被積分関数の正定値性から,正定値性をえる. ✷
14
6.2 Bochner の定理
Rn 上のカーネル k が平行移動不変である,とは Rn 上の関数:ffi があって,
k (x; y) = ffi (x ` y) と書けることである.(2 要素の差にのみ依存するカーネル e.g.
RBF カーネル) カーネルが平行移動不変であることは
k (x; y) = k (x + z; y + z) (8z 2 Rn) と同値である.
定義:正値関数
Rn 上の関数 ffi が正値である,とは
k (x; y) := ffi (x ` y)
により定義されるカーネル k が正定値であることをいう.
定理 6.10 Bochner の定理
ffi を Rn 上の複素数連続関数とする.この時 ffi が正値であることの必要十分条件は,Rn 上
の有限な非負 Borel 測度 ˜ があって,
ffi (x) =
Z
e
p
`1!Tx
d˜ (!) (6.1)
と表されることである.
16
6.2 Bochner の定理:証明
› 十分性:
ffi (x) =
Z
e
p
`1!Tx
d˜ (!)
と表されるとする.
e
p
`1!T(x`y) = e
p
`1!Txe`
p
`1!Ty = e
p
`1!Txe
p
`1!Ty であるから
(純虚数 z に対して `z = z であることと exp
`
z
´
= exp (z) を使った),以下の
カーネル:
K (x; y) := ffi (x ` y) =
Z
e
p
`1!Tx
e
p
`1!Tyd˜ (!)
の被積分関数は命題 2.5(2) から正定値カーネルである.よって,その積分値として得
られる K も正定値カーネルであり,ffi は正値である. ✷
› 必要性: 省略.
Bochner の定理は,任意の正値連続関数が fe
p
`1!Tx j ! 2 Rng の非負結合とし
て表されることを主張している.
17
6.2 周波数領域で見た RKHS, 命題 2.19
平行移動不変な正定値カーネルは周波数領域において陽な形で表現できる.(e.g. RBF
カーネル,ラプラスカーネル)
平行移動不変なカーネル K が以下のような形をもつと仮定する.
K (x; y) =
Z
e
p
`1!T(x`y)
ȷ (!) d!
ただし,ȷ は連続で,ȷ (!) > 0;
R
ȷ (!) d! < 1.
この時,K を再生核とする RKHS:HK は
HK =
(
f 2 L2
(R; dx) j
Z ˛
˛ ^f (!)
˛
˛2
ȷ (!)
d! < 1
)
hf; gi =
Z
^f (!) ^g (!)
ȷ (!)
d!
ただし, ^f は f の Fourier 変換: ^f (!) = 1
(2ı)m
R
f (x) e`
p
`1!Txd!
18
6.3 Mercer の定理
連続な正定値カーネルに対する Mercer の定理を導入する.正定値カーネルを積分作用素に
関するスペクトル分解によって表現する定理である.
19
6.3.1 積分核と積分作用素
(˙; B; —) を測度空間とし,K : ˙ ˆ ˙ ! C を可測なカーネルとする.(K は必ずしも
正定値とは限らない.)
6.3 節ではカーネル K に対して常に以下の 2 乗可積分性を仮定する.
Z
˙
Z
˙
jK (x; y)j2
d— (x) d— (y) < 1
また,L2 (˙; —)(:二乗可積分関数からなる空間) は可分である (稠密な部分集合として可
算集合が存在する) と仮定する.
L2
内積
L2 (˙; —) の内積 (L2 内積) は
hf; giL2 :=
Z
˙
f (x) g (x)d— (x)
また,誘導されるノルムは
kfkL2 :=
Z
˙
f (x) f (x)d— (x)
!1
2
=
Z
˙
jf (x)j2
d— (x)
!1
2
である.
20
6.3.1 積分核と積分作用素:積分作用素 TK の定義と性質
カーネル K に対して,L2 (˙; —) 上の線形作用素
TK : L2 (˙; —) 3 f 7! TK f 2 fg j g : ˙ ! Cg を
(TK f) (x) :=
Z
˙
K (x; y) f (y) d— (y) ;
`
f 2 L2
(˙; —)
´
(6.2)
により定義する.ただし,Lp は
`R
jfjp
d—
´ 1
p < 1 を満たす関数の空間.
この時,Cauchy-Schwarz の不等式により,
Z
jTK f (x)j2
d— (x) =
Z (Z
jK (x; y) f (y) d— (y)j
)2
d— (x)
=
Z
hK (x; ´) ; fi2
L2 d— (x)
»
Z
kK (x; ´)k2
L2 kfk2
L2 d— (x)
=
Z Z
jK (x; y)j2
d— (x) d— (y) kfk2
L2 < 1
であることから TK f 2 L2 (˙; —) となり,結局 TK : L2 (˙; —) ! L2 (˙; —) とな
る.TK は K を積分核とする積分作用素と呼ばれる.
21
6.3.1 積分核と積分作用素:Hilbert-Schmidt 作用素
定義:Hilbert-Schmidt 作用素
ヒルベルト空間 H1 から H2 への作用素 A : H1 ! H2 が Hilbert-Schmidt 作用素で
あるとは, H1 の,ある正規直交基底 f’igI
i=1
; (I 2 N [ f1g) に対し,以下のように
定める Hilbert-Schmidt ノルムが
kAk2
HS :=
IX
i=1
kA’ik2
H2
< 1
を満たすことである.
定理 6.11:積分作用素は Hilbert-Schmidt 作用素
2 乗可積分な積分核 K によって,式 6.2 で定まる積分作用素 TK は Hilbert-Schmidt
作用素であり
kTK k2
HS =
Z Z
˙ˆ˙
jK (x; y)j2
d— (x) d— (y)
が成り立つ.
22
定理 6.11 証明
K の 2 乗可積分性から,ほとんど全ての x に対して,K (x; ´) 2 L2 (˙; —) である.
f’ig1
i=1 を L2 (˙; —) の完全正規直交基底とすると,Parseval の等式 (関数解析
p.111) から
Z
˙
jK (x; y)j2
d— (y) =
Z
˙
K (x; y) K (x; y)d— (y)
`
jzj2
= zzから
´
= kK (x; ´)k2
L2
=
1X
i=1
˛
˛
˛hK (x; ´) ; ’iiL2(˙;—)
˛
˛
˛
2
(Parseval の不等式から)
=
1X
i=1
˛
˛
˛
˛
˛
Z
˙
K (x; y) ’i (y)d— (y)
˛
˛
˛
˛
˛
2
`
L2
内積の定義から
´
=
1X
i=1
˛
˛TK ’i (x)
˛
˛2
(積分作用素の定義から)
が成り立つ.
˘
’i
¯1
i=1 も L2 (˙; —) の完全正規直交基底である (?) ことから
Z Z
˙ˆ˙
jK (x; y)j2
d— (x) d— (y) =
1X
i=1
‚
‚TK ’i
‚
‚2
= kTK k2
HS
をえる. ✷23
6.3.1 積分核と積分作用素
以下の定理は定理 6.11 の逆が成り立つことを主張する.(Hilbert-Schmidt 作用素に対
して積分核が一意に存在する)
定理 6.12
L2 (˙; —) 上の任意の Hilbert-Schmidt 作用素 T に対し,2 乗可積分な積分核
K (x; y) 2 L2 (˙ ˆ ˙; — ˆ —) が一意に存在し,
T ’ =
Z
K (x; y) ’ (y) d— (y) (6.3)
となり,T = TK が成り立つ.
定理 6.11 及び定理 6.12 から,Hilbert-Schmidt 作用素と 2 乗可積分な積分核をもつ積
分作用素は一対一に対応する.
24
定理 6.12 証明 1/3
[証明]: 存在性を示す.f’ig1
i=1 を L2 (˙; —) の完全正規直交基底とし,任意の n 2 N
に対して
Kn (x; y) :=
nX
i=1
(T ’i) (x) ’i (y)
と定義する.この時 fKng1
n=1 は L2 (˙ ˆ ˙; — ˆ —) のコーシー列.実際,m – n
に対して
Z Z
˙ˆ˙
jKm (x; y) ` Kn (x; y)j2
d— (x) d— (y)
=
Z Z
˙ˆ˙
˛
˛
˛
˛
˛
˛
mX
i=n+1
(T ’i) (x) ’i (y)
˛
˛
˛
˛
˛
˛
2
d— (x) d— (y)
=
mX
i=n+1
mX
j=n+1
(T ’i; T ’j) (’j; ’i) =
mX
i=n+1
kT ’ik2
L2(˙;—)
であるが,T は Hilbert-Schmidt 作用素なのでPm
i=n+1 kT ’ik2
L2(˙;—)
! 0 (n; m ! 1) であり,fKng1
n=1 は
L2 (˙ ˆ ˙; — ˆ —) のコーシー列となる.
25
定理 6.12 証明 2/3
L2 (˙ ˆ ˙; — ˆ —) は完備であり,2 乗可積分な関数 K (x; y) が fKng の収束先とし
てある:Kn ! K (n ! 1).式 (6.2) によって積分作用素 TK を定義する時,
TK = T であることを示せば良い.
Kn を積分核とする積分作用素を Tn とすると,定理 6.11 から
kTK ` Tnk » kTK ` TnkHS = kK ` KnkL2(˙ˆ˙;—ˆ—) である.すると,任意の
f 2 L2 (˙; —) について,一般化フーリエ級数展開:f =
P1
i=1 ’i hf; ’i を用いると,
kTK f ` T fk = lim
n!1
kTnf ` T fk = lim
n!1
‚
‚
‚
‚
‚
‚
nX
i=1
(T ’i) hf; ’ii ` T f
‚
‚
‚
‚
‚
‚
= lim
n!1
‚
‚
‚
‚
‚
‚
T
0
@
nX
i=1
(f; ’i) ’i
1
A ` T f
‚
‚
‚
‚
‚
‚
となる.
Pn
i=1 hf; ’ii ’i ! f (n ! 1) となるので,上式の最後の極限は 0 となり,
TK = T をえる.□
26
定理 6.12 証明 3/3
[証明]: 一意性を示す.L2 (˙; —) 上の任意の Hilbert-Schmidt 作用素 T に対して,異
なる 2 乗可積分な積分核 K1 (x; y) ; K2 (x; y) 2 L2 (˙ ˆ ˙; — ˆ —) が存在し,
T ’ =
Z
K1 (x; y) ’ (y) d— (y)
T ’ =
Z
K2 (x; y) ’ (y) d— (y)
が成り立つことを仮定する.つまり,
Z
(K1 (x; y) ` K2 (x; y)) ’ (y) d— (y) = 0
であるが,これはほとんど全ての x で K1 = K2 となることを意味し,仮定に反する. □
27
6.3.2 Hermite 性から導かれる Hilbert-Schmidt の展開定理
積分核 K が Hermite 的,すなわち K (x; y) = K (y; x) を満たすとする.この時,K
を積分核とする積分作用素 TK は自己共役作用素である.実際,
hTK f; giL2(˙;—) =
Z
˙
Z
˙
K (x; y) f (y) d— (y) g (x)d— (x)
=
Z
˙
f (x)
Z
˙
K (y; x) g (x)d— (x) d— (y) = hf; TK gi
であることが確認できる.自己共役な Hilbert-Schmidt 作用素は固有値分解が可能であ
る.TK の固有値,固有ベクトルは
TK ffi = –ffi;
`
– 2 C; ffi 2 L2
(˙; —)
´
により定義される.自己共役な Hilbert-Schmidt 作用素の固有値は実数となり,非ゼロ固
有値に対する固有ベクトル全体の集合 (固有空間) は有限次元である.固有空間の次元だけ
重複を許し j–1j – j–2j – ´ ´ ´ > 0 とし,–i に対応する固有ベクトルを ffii とすると,
fffiig は L2 (˙; —) の正規直交系で,8f 2 L2 (˙; —) に対して
f =
1X
i=1
hf; ffiiiL2(˙;—) ffii + ; ( 2 N (TK ))
TK f =
1X
i=1
–i hf; ffiiiL2(˙;—) ffii
と展開できる (Hilbert-Schmidt の展開定理).28
6.3.2 積分核の Hilbert-Schmidt 展開
さらに,L2 (˙ ˆ ˙; — ˆ —) において K (x; y) は以下のように展開できる.
定理 6.13
積分核 K に対する積分作用素 TK の非ゼロ固有値 –i と単位固有ベクトル ffii を先述のよ
うにする.この時,L2 (˙ ˆ ˙; — ˆ —) において,
K (x; y) =
1X
i=1
–iffii (x) ffii (y)
の展開が成り立つ.
Fubini の定理
˙ を測度空間とし,f (x; y) が可測かつ可積分であるならば,以下が成立する.
Z
˙
Z
˙
f (x; y) dy
!
dx =
Z
˙
Z
˙
f (x; y) dx
!
dy =
Z
˙ˆ˙
f (x; y) d (x; y)
29
定理 6.13 証明 1/2
K の 2 乗可積分性から,ほとんど全ての x に対して K (x; ´) 2 L2 (˙; —) である.ここ
で,積分核の定義,及び固有値分解を用いて
D
K (x; ´) ; ffii
E
L2(˙;—)
=
Z
K (x; y) ffii (y) d— (y) = TK ffii (x) = –iffii (x)
となることに注意する.さらに, 2 N (TK ) ならば
D
K (x; ´) ;
E
L2(˙;—)
= TK (x) = 0
となり,測度 — に関して,ほとんど全ての x に対して一般化フーリエ級数展開を用いると:
K (x; ´) =
1X
i=1
D
K (x; ´) ; ffii
E
L2(˙;—)
ffii =
1X
i=1
–iffii (x) ffii (6.4)
が成立する.Fubini の定理や L2 ノルムの定義から,
Z Z ˛
˛
˛
˛
˛
˛
K (x; y) `
NX
i=1
–iffii (x) ffii (y)
˛
˛
˛
˛
˛
˛
2
d— (x) d— (y)
=
Z ‚
‚
‚
‚
‚
‚
K (x; ´) `
NX
i=1
–iffii (x) ffii
‚
‚
‚
‚
‚
‚
2
L2(˙;—)
d— (x) (6.5)
となる.30
定理 6.13 証明 2/2
式 6.5 の右辺の被積分関数は式 6.4 からほとんど全ての x に対して N ! 1 で 0 に収
束.かつ,
‚
‚
‚
‚
‚
‚
K (x; ´) `
NX
i=1
–iffii (x) ffii
‚
‚
‚
‚
‚
‚
2
L2(˙;—)
=
*
K (x; ´) `
NX
i=1
–iffii (x) ffii; K (x; ´) `
NX
i=1
–iffii (x) ffii
+
L2(˙;—)
=
Z
jK (x; y)j2
d— (y) `
NX
i=1
–2
i
jffii (x)j2
»
Z
jK (x; y)j2
d— (y)
と N によらない 2 乗可積分関数で上から抑えることができ,優収束定理によって式 (6.5)
は N ! 1 で 0 に収束する. ✷
31
6.3.3 正値積分核と Mercer の定理
定理 6.13 ではカーネル K の Hermite 性のみを仮定して K の L2 (˙ ˆ ˙; — ˆ —) に
おける展開を示した.さらに — がコンパクト Hausdorff 空間 ˙ 上の有限 Randon 測度
で,K が ˙ 上の連続な正定値カーネルの場合には以下に示すようにこの収束は絶対かつ一
様である (Mercer の定理).
まず K の正定値性と積分作用素 TK の正値性:
hTK f; fi =
Z
˙
Z
˙
K (x; y) f (x) f (y)d— (x) d— (y) – 0;
`
8f 2 L2
(˙; —)
´
(6.6)
の関連を示す.
位相空間 ˙ 上の非負 Borel 測度 — のサポート:Supp (—) を
Supp (—) := fx 2 ˙ j — (U) > 0; U は x を含む任意の開集合 g
により定義する.サポートは閉集合である.また,Rn 上の Borel 測度 — が連続な確率密
度 p (x) を持つ時,— のサポートと p (x) のサポートは一致する.
Hausdorff 空間上の Borel 測度 — が Randon 測度である,とは任意のコンパクト融合
K に対して — (K) < 1 で,任意の可測集合 E に対して
— (E) = sup f— (K) j K は K ȷ E なるコンパクト集合 g が成り立つことである.
32
6.3.3 正値積分核と Mercer の定理
命題 6.14
˙ をコンパクト Hausdorff 空間,— を ˙ 上の有限非負 Randon 測度で,
Supp (—) = ˙ とする.K (´; ´) : ˙ ˆ ˙ ! C を ˙ 上の連続な Hermite カーネルと
する時,K が正定値カーネルである必要十分条件は TK が正値作用素であることである.
証明:
› 必要性:˙ 上の任意の連続関数 g と可測集合による ˙ の分割 fEign
i=1,(ただし
i j ならば Ei  Ej = ;; [n
i=1
Ei = ˙) に対して,K の正定値性から,
nX
i;j=1
K (xi; xj) g (xi) g (xj)— (Ei) — (Ej) – 0
は成り立つ.式 6.6:hTK f; fi はこのような和の極限として得られるため,非負であ
る.一般の f 2 L2 (˙; —) に対しては任意の › > 0 に対しては
kf ` gkL2(˙;—) < › なる連続関数 g をとれば式 6.6 が示される.
33
命題 6.14 証明 2
› 十分性: TK が正値作用素である.— = 0 ならば自明に正定値性は満たされる.その
ため,— (˙) > 0 としてよい.背理法で示すために,ある xi 2 ˙ と ci 2 C と
‹ > 0 があって,
nX
i;j=1
cicjK (xi; xj) » `‹
が成り立つと仮定する (TK が正値作用素である時に K が正定値カーネルでないこと
を仮定する).一般性を失わず,xi xj としてよい.K の連続性と ˙ の
Housdorff 性により,各 xi の開近傍 Ui があって,Ui  Uj = ; (i j) かつ,
8(x; y) 2 Ui ˆ Uj に対して
˛
˛cicjK (x; y) ` cicjK (xi; xj)
˛
˛ » ‹
2n2 が成り立
つ (?).この時,Supp (—) = ˙ から — (Ui) > 0 である.
f :=
nX
i=1
„
ci
— (Ui)
«
IUi 2 L2
(˙; —)
とおく (ただし IUi は Ui の定義関数).
34
命題 6.14 証明 3
このとき TK の正値性をチェックすると
Z Z
˙ˆ˙
K (x; y) f (x) f (y)d— (x) d— (y)
»
nX
i;j=1
1
— (Ui) — (Uj)
Z Z
UiˆUj
˛
˛cicjK (x; y) ` cicjK (xi; xj)
˛
˛ d— (x) d— (y)
+
nX
i;j=1
Z Z
UiˆUj
cicj
— (Ui) — (Uj)
K (xi; xj) d— (x) d— (y)
»
‹
2
` ‹ < 0
となり (?),仮定に矛盾する.□
35
6.3.3 正値積分核と Mercer の定理
˙ と — を命題 6.14 のとおりとする.連続な正定値カーネル K によって定まる積分核を
TK とする時,命題 6.14 から TK は正値作用素で,任意の f 2 L2 (˙; —) に対して,
(TK f; f) – 0 が成り立つので TK の固有値は非負実数である.重複度のぶんだけ並べた
正の固有値と固有ベクトルをそれぞれ
–1 – –2 – ´ ´ ´ > 0
及び ffii で表す.
定理 6.15 Mercer の定理
K (x; y) =
1X
i=1
–iffii (x) ffii (y) (6.7)
ここで,収束は ˙ ˆ ˙ 上の絶対かつ一様収束である.
36
Mercer の定理:証明 1
定理 6.13 から,式 6.7 は L2 (˙ ˆ ˙; — ˆ —) の収束として成り立つ.また,
–iffii (x) = TK ffii (x) =
Z
K (x; y) ffii (y) d— (y)
から K の連続性から ffii も連続である.ここで,
Kn;m (x; y) :=
mX
i=n
–iffii (x) ffii (y); Rn (x; y) := K (x; y) ` K1;n`1 (x; y)
とおくと,Kn;m は正値積分核となる?.また,定理 6.13 から L2 (˙ ˆ ˙; — ˆ —) に
おいて
lim
m!1
Kn;m (x; y) =
1X
i=n
–iffii (x) ffii (y)
=
1X
i=1
–iffii (x) ffii (y) `
n`1X
i=1
–iffii (x) ffii (y)
= K (x; y) ` K1;n`1 (x; y) = Rn (x; y)
であり,正値積分核であるという性質は L2 (˙ ˆ ˙; — ˆ —) の収束に関して保存される
ことから,収束先 Rn も正値積分核である.Rn が正値積分核であることから,命題 6.14
を用いれば Rn (x; y) は正定値カーネルである.h37
Mercer の定理:証明 2
この時,正定値カーネルの定義から 8x 2 ˙ と 8n 2 N に対し,Rn (x; x) – 0 であ
る.K (x; x) = Rn (x; x) + K1;n`1 (x; x) から,
K1;n`1 (x; x) =
Pn`1
i=1
–i jffii (x)j2
» K (x; x) が成り立ち,
1X
i=1
–i jffii (x)j2
» K (x; x) (6.8)
をえる.また,Cauchy-Schwarz の不等式から,
1X
i=1
˛
˛
˛–iffii (x) ffii (y)
˛
˛
˛ »
0
@
mX
i=n
–i jffii (x)j2
1
A
1
2
0
@
mX
i=n
–i jffii (y)j2
1
A
1
2
= Kn;m (x; x)
1
2 Kn;m (y; y)
1
2 (6.9)
である.式 6.8 から,式 6.7 の右辺の級数は各 (x; y) で絶対収束する (?).この収束先を
H (x; y) :=
1X
i=1
–iffii (x) ffii (y) (6.10)
とおいて,H = K となることを示す.
38
Mercer の定理:証明 3
まず,式 6.9 から
m
X
i=n
˛
˛
˛–iffii (x) ffii (y)
˛
˛
˛ » Kn;m (x; x)
1
2 Kn;m (y; y)
1
2 » Kn;m (x; x)
1
2 sup
z2˙
K (z; z)
1
2
から,任意に x 2 ˙ を固定すれば式 6.10 は y 2 ˙ に関して一様に収束する.ゆえに任
意の x に対し,
Z
H (x; y) ffii (y) d— (y) =
1X
n=1
Z
–nffin (x) ffin (y)ffii (y) d— (y)
= –iffii (x) =
Z
K (x; y) ffii (y) d— (y)
が成り立つ.これは L2 において H (x; ´) = K (x; ´) を意味するが,両者は連続関数であ
ることから H (x; y) = K (x; y) を得る.
39
Mercer の定理:証明 4
最後に.Mercer の定理の式が ˙ ˆ ˙ 上の一様収束であることを示す.各点収束であるこ
とは見たので,特に y = x とおくと,
1X
i=1
–i jffii (x)j2
= K (x; x)
が成り立つ.各 ffii (x) は連続関数であり,左辺は単調に K (x; x) に収束するので,Dini
の定理 (コンパクト集合上の連続関数の単調列がある連続関数に各点収束するならば収束は
一様) からこの収束は一様である.したがって,n; m ! 1 の時,Kn;m (x; x) は 0 に
一様収束し,式 6.9 から Kn;m (x; y) は 0 に一様収束する.これは式 6.7 の絶対かつ一
様な収束を意味する. ✷
40
正定値カーネルに対応する RKHS の陽な表示
Mercer の定理を用いると,正定値カーネルに対応する RKHS と,その内積の陽な表示を
与えることができる.(2.2.2.b:有限集合上の RKHS の表示の拡張として与えることがで
きる)
Mercer の定理と同じ条件の元,積分作用素 TK の非ゼロ固有値に対応する単位固有ベクト
ルに N (TK ) の正規直交基底を付け加えて L2 (˙; —) の完全正規直交基底 fffiig1
i=1
を構
成する.すると,fffiig1
i=1
はシャウダー基底となり,任意の f 2 H はそれらの基底の線
型結合として:
f =
1X
i=1
aiffii (ただし ai 2 R)
とできる.これを用いて L2 (˙; —) の部分ベクトル空間 H を
H :=
8
<
:
f 2 L2
(˙; —) j f =
1X
i=1
aiffii;
1X
i=1
jaij2
–i
< 1
9
=
;
(6.11)
により定義する.また,f =
P1
i=1 aiffii 2 H と g =
P1
i=1 biffii 2 H に対して,内
積を
hf; giH :=
1X
i=1
aibi
–i
(6.12)
と定める.このように定めた H が K を再生核とする RKHS になることを示す.41
H が正定値カーネルに対応する RKHS であること:証明 1
まず H がヒルベルト空間である (完備である) ことを示す.
ffng1
n=1 を H の Cauchy 列とする.式 6.11 から fn =
P1
i=1 ¸n;iffii とおくことが
できて,
P1
i=1
j¸n;ij
2
–i
< 1 であるので,
tn :=
(
¸n;i
p
–i
)1
i=1
は数列空間 l2 の Cauchy 列である.l2 は完備なので,ある t = f˛ig1
i=1 2 l2 が存在
し,tn ! t (n ! 1) である.この時,¸˜
i
:=
p
–i˛i とすると,
1X
i=1
˛
˛¸˜
i
˛
˛2
–i
=
1X
i=1
j˛ij2
< 1
`
f˛ig1
i=1 2 l2
から
´
1X
i=1
˛
˛an;i ` a˜
i
˛
˛2
–i
! 0
が成り立つ.すると,f =
P1
i=1 a˜
i
ffii 2 H に対して,kfn ` fkH ! 0 を得る.
42
H が正定値カーネルに対応する RKHS であること:証明 2
次に,H が K を再生核に持つことを示す.
K (x; ´) =
P1
i=1 –iffii (´) ffii (x) において,Mercer の定理から K (´; x) 2 H であ
る.8f =
P1
i=1 aiffii 2 H に対し,
hf; K (´; x)iH =
1X
i=1
ai–iffii (x)
–i
=
1X
i=1
aiffii = f (x)
となり,再生性が確認できた. ✷
以上から,正定値カーネルに対応する RKHS は式 6.11 で与えられる H に一致し,その
内積は式 6.12 のように,級数として与えられる.
43
ヒルベルト空間上の確率変数の平均
H:ヒルベルト空間 (関数空間),F :H 上の確率変数.ただし,E[kF k] < 1.
この時,f 2 H に対して H 上の線形汎関数 ffiF : H ! R を以下のように定める:
ffiF (f) := E[hf; F i]
リースの表現定理から,任意の f 2 H に対して,ある mF 2 H が存在し,
hf; mF i = ffiF (f) が成り立つ.よって
ffiF (f) = E[hf; F i] = hf; mF i (8.1)
をえる.この mF を確率変数 F の平均と呼び,E[F ] で表す.この時,
E[hf; F i] = hf; mF i = hf; E[F ]i
となり,平均と内積の操作は交換可能である.
44
RKHS における平均
(X; B):可測空間,X:X に値をとる確率変数,RKHS:(Hk; k) を考える.ただし,
E[
p
k (X; X)] < 1 を仮定する.
特徴写像 ˘ (x) = k (´; x) に対して,再生性から
k˘ (X)k2
= hk (´; X) ; k (´; X)i = hkX ; kX i = kX (X) = k (X; X)
が成り立つことに注意すれば,E k˘ (X)k < 1 となり,前項の仮定を満たし,確率変数
˘ (X) の平均 mk
X が存在する.この時,mk
X を,X の Hk における平均,と呼ぶ.式
(8.1) および再生性から,任意の f 2 H に対して
˙
f; mk
X
¸
= E[hf; ˘ (X)i] = E[f (X)] (8.2)
となり,任意の f に対して期待値 E[f (X)] が f と mk
X の内積で表される.
平均 mk
X の陽な表示を求める.mk
X 2 H から,任意の y 2 X について,再生性を用い
ると
mk
X (y) =
˙
mk
X ; k (´; y)
¸
= hE (˘ (X)) ; k (´; y)i
= E hk (´; X) ; k (´; y)i = E[k (X; y)] (8.8)
となって,平均 mk
X はカーネル関数の期待値として与えられる.
45

More Related Content

What's hot

PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現hagino 3000
 
プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~Takuya Akiba
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Takao Yamanaka
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半T T
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習Ichigaku Takigawa
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Yuichi Yoshida
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンMotoya Wakiyama
 
色々なダイクストラ高速化
色々なダイクストラ高速化色々なダイクストラ高速化
色々なダイクストラ高速化yosupo
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデルYuya Takashina
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 

What's hot (20)

PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 
プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~プログラミングコンテストでのデータ構造 2 ~動的木編~
プログラミングコンテストでのデータ構造 2 ~動的木編~
 
Fisher Vectorによる画像認識
Fisher Vectorによる画像認識Fisher Vectorによる画像認識
Fisher Vectorによる画像認識
 
はじパタ6章前半
はじパタ6章前半はじパタ6章前半
はじパタ6章前半
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習グラフデータの機械学習における特徴表現の設計と学習
グラフデータの機械学習における特徴表現の設計と学習
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展Greed is Good: 劣モジュラ関数最大化とその発展
Greed is Good: 劣モジュラ関数最大化とその発展
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
色々なダイクストラ高速化
色々なダイクストラ高速化色々なダイクストラ高速化
色々なダイクストラ高速化
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Rの高速化
Rの高速化Rの高速化
Rの高速化
 
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 

Similar to カーネル法:正定値カーネルの理論

半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...Yuya Masumura
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamotoRCCSRENKEI
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisTatsuki SHIMIZU
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半Prunus 1350
 
topology of musical data
topology of musical datatopology of musical data
topology of musical dataTatsuki SHIMIZU
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 
情報幾何の基礎輪読会 #1
情報幾何の基礎輪読会 #1情報幾何の基礎輪読会 #1
情報幾何の基礎輪読会 #1Tatsuki SHIMIZU
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズムHiroshi Nakagawa
 
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620RCCSRENKEI
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Taiji Suzuki
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングMaruyama Tetsutaro
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationtakutori
 
Infomation geometry(overview)
Infomation geometry(overview)Infomation geometry(overview)
Infomation geometry(overview)Yoshitake Misaki
 

Similar to カーネル法:正定値カーネルの理論 (20)

半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
半正定値計画問題と最大カット Sedemifinite Programming and Approximation Algorithm for Maxcu...
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)第8回 配信講義 計算科学技術特論A(2021)
第8回 配信講義 計算科学技術特論A(2021)
 
210603 yamamoto
210603 yamamoto210603 yamamoto
210603 yamamoto
 
回帰
回帰回帰
回帰
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半はじめてのパターン認識 第6章 後半
はじめてのパターン認識 第6章 後半
 
topology of musical data
topology of musical datatopology of musical data
topology of musical data
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
情報幾何の基礎輪読会 #1
情報幾何の基礎輪読会 #1情報幾何の基礎輪読会 #1
情報幾何の基礎輪読会 #1
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
主成分分析
主成分分析主成分分析
主成分分析
 
El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620El text.tokuron a(2019).yamamoto190620
El text.tokuron a(2019).yamamoto190620
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
Infomation geometry(overview)
Infomation geometry(overview)Infomation geometry(overview)
Infomation geometry(overview)
 

More from Daiki Tanaka

[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...Daiki Tanaka
 
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal InferenceDaiki Tanaka
 
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...Daiki Tanaka
 
Selective inference
Selective inferenceSelective inference
Selective inferenceDaiki Tanaka
 
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Daiki Tanaka
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learningDaiki Tanaka
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You NeedDaiki Tanaka
 
Local Outlier Detection with Interpretation
Local Outlier Detection with InterpretationLocal Outlier Detection with Interpretation
Local Outlier Detection with InterpretationDaiki Tanaka
 
Interpretability of machine learning
Interpretability of machine learningInterpretability of machine learning
Interpretability of machine learningDaiki Tanaka
 
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...Daiki Tanaka
 
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesThe Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesDaiki Tanaka
 
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Daiki Tanaka
 
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataToeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataDaiki Tanaka
 

More from Daiki Tanaka (13)

[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
 
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
[Paper Reading] Causal Bandits: Learning Good Interventions via Causal Inference
 
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
[Paper reading] L-SHAPLEY AND C-SHAPLEY: EFFICIENT MODEL INTERPRETATION FOR S...
 
Selective inference
Selective inferenceSelective inference
Selective inference
 
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
Anomaly Detection with VAEGAN and Attention [JSAI2019 report]
 
オンライン学習 : Online learning
オンライン学習 : Online learningオンライン学習 : Online learning
オンライン学習 : Online learning
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need
 
Local Outlier Detection with Interpretation
Local Outlier Detection with InterpretationLocal Outlier Detection with Interpretation
Local Outlier Detection with Interpretation
 
Interpretability of machine learning
Interpretability of machine learningInterpretability of machine learning
Interpretability of machine learning
 
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
The Million Domain Challenge: Broadcast Email Prioritization by Cross-domain ...
 
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social TiesThe Limits of Popularity-Based Recommendations, and the Role of Social Ties
The Limits of Popularity-Based Recommendations, and the Role of Social Ties
 
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
Learning Deep Representation from Big and Heterogeneous Data for Traffic Acci...
 
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series DataToeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data
 

カーネル法:正定値カーネルの理論

  • 2. 6.1 正定値カーネルと負定値カーネル 6.1.1 負定値カーネル 6.1.2 カーネルを生成する操作 6.2 Bochner の定理 6.3 Mercer の定理 6.3.1 積分核と積分作用素 6.3.2 積分核の Hilbert-Schmidt 展開 6.3.3 正値積分核と Mercer の定理 8.1 平均による確率分布の特徴づけ 8.1.1 ヒルベルト空間に値をとる確率変数 8.1.2 RKHS における平均 2
  • 3. 6.1.1 負定値カーネル 以下のように定める負定値カーネルから正定値カーネルを生成することができる. 定義:負定値 X:set について, : X ˆ X ! C が負定値であるとは, がエルミート的で,かつ X の n 個の任意の点 x1; : : : ; xn と Pn i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C に対して nX i;j=1 ci —cj (xi; xj) » 0 (1) が成り立つことをいう. [Remark]:負定値カーネルの定義は正定値カーネルの定義: 任意の n 2 N,任意の x1; : : : ; xn 2 X,任意の c1; : : : ; cn 2 C に対して nX i;j=1 ci —cjk (xi; xj) – 0 の逆符号ではない.(負定値性に関しては制約: Pn i=1 ci = 0 を満たす ci (i = 1; : : : ; n) に対してだけ考える) 3
  • 4. 6.1.1 負定値カーネル:負定値カーネルの例 命題 6.1 › (1) k が正定値カーネルならば,`k は負定値カーネル. › (2) 定数関数は負定値カーネル. › (3) 任意の関数 f に対して, (x; y) = f (x) + f (y) は負定値カーネル. [証明] › (1):k が正定値カーネルである時,任意の n 2 N ,x1; : : : ; xn 2 X, c1; : : : ; cn 2 C に対し,正値性 nX i;j=1 ci —cjk (xi; xj) – 0 を満たす.この時,k0 := `k は nX i;j=1 ci —cjk0 (xi; xj) » 0 を任意の c1; : : : ; cn 2 C について満たすことから,`k は負定値カーネル. ✷ 4
  • 5. 6.1.1 負定値カーネル [証明] › (2):定数関数 k (´; ´) = a と Pn i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C について, nX i;j=1 ci —cjk (xi; xj) = nX i;j=1 ci —cja = nX j=1 —cj 0 @ nX i=1 cia 1 A = 0 » 0 より,k は負定値カーネル. ✷ › (3) 任意の関数 f と Pn i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C に対し, nX i;j=1 ci —cj (xi; xj) = nX i;j=1 ci —cj (f(xi) + f(xj)) = nX j=1 —cj 0 @ nX i=1 cif(xi) 1 A + nX i=1 ci 0 @ nX j=1 —cjf(xj) 1 A = 0 » 0 より, は負定値カーネル. ✷5
  • 6. 6.1.1 負定値カーネル 命題 6.2 i : X ˆ X ! C (i = 1; : : : ) を負定値カーネルとする時,次の 2 つのカーネルも負 定値である. › (1) 非負結合:¸ 1 + ˛ 2 › (2) 極限: limi!1 i (x; y) ただし,(2) では極限値の存在を仮定した. X 上の負定値カーネル全体は閉凸錐である.正定値カーネルとは異なり,負定値カーネルの 積は負定値であるとは限らない. 6
  • 7. 6.1.1 負定値カーネル 負定値カーネルの基本的な例は以下の命題から得られる. 命題 6.3 集合 X から内積空間 V への写像 ffi : X ! V について, (x; y) = kffi(x) ` ffi(y)k2 は X 上の負定値カーネルである. [証明]Pn i=1 ci = 0 を満たす任意の複素数 c1; : : : ; cn 2 C と x1; : : : ; xn 2 X に対して, n X i;j=1 ci —cj kffi(x) ` ffi(y)k2 = n X i;j=1 ci —cj hffi(x) ` ffi(y); ffi(x) ` ffi(y)i = n X i;j=1 ci —cj ˘ kffi (xi)k2 + kffi (xj)k2 ` hffi (xi) ; ffi (xj)i ` hffi (xj) ; ffi (xi)i ¯ = 0 + 0 ` * n X i=1 ciffi (xi) ; n X j=1 —cjffi (xj) + ` * n X j=1 cjffi (xj) ; n X j=1 ciffi (xi) + = ` ‚ ‚ ‚ ‚ ‚ ‚ n X i=1 ciffi (xi) ‚ ‚ ‚ ‚ ‚ ‚ 2 ` ‚ ‚ ‚ ‚ ‚ ‚ n X i=1 ciffi (xi) ‚ ‚ ‚ ‚ ‚ ‚ 2 » 0 □7
  • 8. 6.1.1 負定値カーネル 正定値カーネルと負定値カーネルの間には密接な関連性がある. 補題 6.4 (x; y) を集合 X ; 上の Hermite 的なカーネル ( (x; y) = (y; x)) とする. 8x0 2 X に対して,’ を以下のように定義する. ’ (x; y) := ` (x; y) + (x; x0) + (x0; y) ` (x0; x0) この時, が負定値であることと,’ が正定値であることは同値である. [証明] xi 2 X を任意の点とする. › (:’ を正定値とする. Pn i=1 ai = 0 を満たす ai 2 C とすると,正定値性より, nX i;j=1 aiaj’ (xi; xj) – 0 である. Pn i;j=1 aiaj (xi; x0) = Pn i;j=1 aiaj (x0; xj) = Pn i;j=1 aiaj (x0; x0) = 0 であることに注意すると, Pn i;j=1 aiaj (xi; xj) » 0 を得られ, は負定値である. 8
  • 9. 6.1.1 負定値カーネル [証明] › ): を負定値とする.ci 2 C (i = 1; : : : ; n) を任意にとり,c0 := ` Pn i=1 ci とすれば, の負定値性から任意の x0; x1; : : : ; xn 2 X に対して, nX i=0;j=0 ci—cj (xi; xj) » 0 が成り立つ.上式の左辺は i = 0; j = 0 の場合を外に出せば: n X i=0;j=0 ci—cj (xi; xj) = n X i=0 n X j=0 ci—cj (xi; xj) = n X i;j=1 ci—cj (xi; xj) + c0 n X i=1 ci (xi; x0) + c0 n X j=1 cj (x0; xj) + jc0j2 (x0; x0) = n X i;j=1 cicj (xi; xj) ` n X i;j=1 cicj (xi; x0) ` n X i;j=1 cicj (x0; xj) + n X i;j=1 cicj (x0; x0) = ` n X i;j=1 cicj’ (xi; xj) となって, Pn i;j=1 cicj’ (xi; xj) – 0 から ’ は正定値である. ✷ 9
  • 10. 6.1.1 負定値カーネル:カーネル生成に便利な定理 次の定理はカーネルを系統的に生成する際に役立つ. 定理 6.5 Schoenberg の定理 集合 X ; に対して : X ˆ X ! C を X 上のカーネルとする.この時, 「 が負定値」 () 「exp (`t ) が任意の正数 t > 0 に対して正定値」 [証明] 微分の定義から,8x; y 2 X に対して, (x; y) = lim t!+0 1 ` exp (`t (x; y)) t が成り立つ (?).8t > 0 に対して,exp (`t (x; y)) が正定値ならば, 1`exp (`t (x;y)) t は負定値であり,その極限値 も負定値である.(命題 6.2) 逆の証明には も負定値である時に t = 1 の場合について exp (`t (x; y)) が正定値 であることを示せば十分.任意の x0 2 X に対して ’ (x; y) := ` (x; y) + (x; x0) + (x0; y) ` (x0; x0) と定義すると,補題 6.4 から ’ は正定値であり,exp (’ (x; y)) も正定値である.命題 2.5 から exp (` (x; y)) = exp (’ (x; y)) exp (` (x; x0))exp (` (y; x0)) exp ( (x0; x0)) は正定値である. ✷ 10
  • 11. 6.1.2 カーネルを生成する操作 命題 6.6 集合 X 上の負定値カーネル : X ˆ X ! C が (x; x) – 0 を満たす時,任意の 0 < p » 1 に対して, (x; y)p は負定値である. [証明]8z > 0 について,ガンマ関数 ` (z) を用いて zp = p `(1`p) R 1 0 t`p`1 ` 1 ` e`tz ´ dt とできることから, (x; y)p = p ` (1 ` p) Z 1 0 t`p`1 “ 1 ` e`t (x;y) ” dt である.Schoenberg の定理と命題 6.1 により,被積分関数は不定値カーネル.積分が リーマン和の極限であることに注意すれば (x; y)p も不定値カーネルとなる (命題 6.2 よ り不定値カーネルの非負結合は不定値カーネ). ✷ 11
  • 12. 6.1.2 カーネルを生成する操作 系 6.7 任意の 0 < p » 2 と ¸ > 0 に対して, exp ` `¸ kx ` ykp´ は Rn 上の正定値カーネルである. 特に,¸ = 1; 2 の時,それぞれラプラスカーネル及びガウス RBF カーネルである. 12
  • 13. 6.1.2 カーネルを生成する操作 命題 6.8 : X ˆ X ! C を,集合 X 上の負定値カーネルとする.任意の x; y 2 X について (x; y) – 0 を満たす時,任意の ¸ > 0 について log (¸ + (x; y)) は負定値カーネルとなる.また, (x; y) > 0 である時, log ( (x; y)) は負定値カーネルとなる. [証明]:積分表示 log (1 + (x; y)) = Z 1 0 “ 1 ` e`t (x;y) ” e`t t dt により,命題 6.6 と同様に被積分関数が負定値カーネルであることから log (1 + (x; y)) は負定値カーネルである.したがって, log (¸ + ) = log ` 1 + 1 ¸ ´ + log ¸ も負定値である. [Remark]: 命題 6.1(3): 「任意の関数 f に対して, (x; y) = f (x) + f (y) は負定値カーネル.」 から, (x; y) := x + y は R 上の負定値カーネルであるので, (x; y) = log (x + y) は (0; 1) 上の負定値カーネルである.13
  • 14. 6.1.2 カーネルを生成する操作 以下の命題を用いれば,負定値カーネルから正定値カーネルを生成できる. 命題 6.9 負定値カーネルから正定値カーネルを生成 負定値カーネル が Re (x; y) – 0 を満たす時, 1 (x; y) + a は正定値カーネルである.ただし,a は正の定数. [証明]:積分表示 1 (x; y) + a = Z 1 0 e`t( (x;y)+a) dt より,命題 6.6 と同様にして被積分関数の正定値性から,正定値性をえる. ✷ 14
  • 15.
  • 16. 6.2 Bochner の定理 Rn 上のカーネル k が平行移動不変である,とは Rn 上の関数:ffi があって, k (x; y) = ffi (x ` y) と書けることである.(2 要素の差にのみ依存するカーネル e.g. RBF カーネル) カーネルが平行移動不変であることは k (x; y) = k (x + z; y + z) (8z 2 Rn) と同値である. 定義:正値関数 Rn 上の関数 ffi が正値である,とは k (x; y) := ffi (x ` y) により定義されるカーネル k が正定値であることをいう. 定理 6.10 Bochner の定理 ffi を Rn 上の複素数連続関数とする.この時 ffi が正値であることの必要十分条件は,Rn 上 の有限な非負 Borel 測度 ˜ があって, ffi (x) = Z e p `1!Tx d˜ (!) (6.1) と表されることである. 16
  • 17. 6.2 Bochner の定理:証明 › 十分性: ffi (x) = Z e p `1!Tx d˜ (!) と表されるとする. e p `1!T(x`y) = e p `1!Txe` p `1!Ty = e p `1!Txe p `1!Ty であるから (純虚数 z に対して `z = z であることと exp ` z ´ = exp (z) を使った),以下の カーネル: K (x; y) := ffi (x ` y) = Z e p `1!Tx e p `1!Tyd˜ (!) の被積分関数は命題 2.5(2) から正定値カーネルである.よって,その積分値として得 られる K も正定値カーネルであり,ffi は正値である. ✷ › 必要性: 省略. Bochner の定理は,任意の正値連続関数が fe p `1!Tx j ! 2 Rng の非負結合とし て表されることを主張している. 17
  • 18. 6.2 周波数領域で見た RKHS, 命題 2.19 平行移動不変な正定値カーネルは周波数領域において陽な形で表現できる.(e.g. RBF カーネル,ラプラスカーネル) 平行移動不変なカーネル K が以下のような形をもつと仮定する. K (x; y) = Z e p `1!T(x`y) ȷ (!) d! ただし,ȷ は連続で,ȷ (!) > 0; R ȷ (!) d! < 1. この時,K を再生核とする RKHS:HK は HK = ( f 2 L2 (R; dx) j Z ˛ ˛ ^f (!) ˛ ˛2 ȷ (!) d! < 1 ) hf; gi = Z ^f (!) ^g (!) ȷ (!) d! ただし, ^f は f の Fourier 変換: ^f (!) = 1 (2ı)m R f (x) e` p `1!Txd! 18
  • 19. 6.3 Mercer の定理 連続な正定値カーネルに対する Mercer の定理を導入する.正定値カーネルを積分作用素に 関するスペクトル分解によって表現する定理である. 19
  • 20. 6.3.1 積分核と積分作用素 (˙; B; —) を測度空間とし,K : ˙ ˆ ˙ ! C を可測なカーネルとする.(K は必ずしも 正定値とは限らない.) 6.3 節ではカーネル K に対して常に以下の 2 乗可積分性を仮定する. Z ˙ Z ˙ jK (x; y)j2 d— (x) d— (y) < 1 また,L2 (˙; —)(:二乗可積分関数からなる空間) は可分である (稠密な部分集合として可 算集合が存在する) と仮定する. L2 内積 L2 (˙; —) の内積 (L2 内積) は hf; giL2 := Z ˙ f (x) g (x)d— (x) また,誘導されるノルムは kfkL2 := Z ˙ f (x) f (x)d— (x) !1 2 = Z ˙ jf (x)j2 d— (x) !1 2 である. 20
  • 21. 6.3.1 積分核と積分作用素:積分作用素 TK の定義と性質 カーネル K に対して,L2 (˙; —) 上の線形作用素 TK : L2 (˙; —) 3 f 7! TK f 2 fg j g : ˙ ! Cg を (TK f) (x) := Z ˙ K (x; y) f (y) d— (y) ; ` f 2 L2 (˙; —) ´ (6.2) により定義する.ただし,Lp は `R jfjp d— ´ 1 p < 1 を満たす関数の空間. この時,Cauchy-Schwarz の不等式により, Z jTK f (x)j2 d— (x) = Z (Z jK (x; y) f (y) d— (y)j )2 d— (x) = Z hK (x; ´) ; fi2 L2 d— (x) » Z kK (x; ´)k2 L2 kfk2 L2 d— (x) = Z Z jK (x; y)j2 d— (x) d— (y) kfk2 L2 < 1 であることから TK f 2 L2 (˙; —) となり,結局 TK : L2 (˙; —) ! L2 (˙; —) とな る.TK は K を積分核とする積分作用素と呼ばれる. 21
  • 22. 6.3.1 積分核と積分作用素:Hilbert-Schmidt 作用素 定義:Hilbert-Schmidt 作用素 ヒルベルト空間 H1 から H2 への作用素 A : H1 ! H2 が Hilbert-Schmidt 作用素で あるとは, H1 の,ある正規直交基底 f’igI i=1 ; (I 2 N [ f1g) に対し,以下のように 定める Hilbert-Schmidt ノルムが kAk2 HS := IX i=1 kA’ik2 H2 < 1 を満たすことである. 定理 6.11:積分作用素は Hilbert-Schmidt 作用素 2 乗可積分な積分核 K によって,式 6.2 で定まる積分作用素 TK は Hilbert-Schmidt 作用素であり kTK k2 HS = Z Z ˙ˆ˙ jK (x; y)j2 d— (x) d— (y) が成り立つ. 22
  • 23. 定理 6.11 証明 K の 2 乗可積分性から,ほとんど全ての x に対して,K (x; ´) 2 L2 (˙; —) である. f’ig1 i=1 を L2 (˙; —) の完全正規直交基底とすると,Parseval の等式 (関数解析 p.111) から Z ˙ jK (x; y)j2 d— (y) = Z ˙ K (x; y) K (x; y)d— (y) ` jzj2 = zzから ´ = kK (x; ´)k2 L2 = 1X i=1 ˛ ˛ ˛hK (x; ´) ; ’iiL2(˙;—) ˛ ˛ ˛ 2 (Parseval の不等式から) = 1X i=1 ˛ ˛ ˛ ˛ ˛ Z ˙ K (x; y) ’i (y)d— (y) ˛ ˛ ˛ ˛ ˛ 2 ` L2 内積の定義から ´ = 1X i=1 ˛ ˛TK ’i (x) ˛ ˛2 (積分作用素の定義から) が成り立つ. ˘ ’i ¯1 i=1 も L2 (˙; —) の完全正規直交基底である (?) ことから Z Z ˙ˆ˙ jK (x; y)j2 d— (x) d— (y) = 1X i=1 ‚ ‚TK ’i ‚ ‚2 = kTK k2 HS をえる. ✷23
  • 24. 6.3.1 積分核と積分作用素 以下の定理は定理 6.11 の逆が成り立つことを主張する.(Hilbert-Schmidt 作用素に対 して積分核が一意に存在する) 定理 6.12 L2 (˙; —) 上の任意の Hilbert-Schmidt 作用素 T に対し,2 乗可積分な積分核 K (x; y) 2 L2 (˙ ˆ ˙; — ˆ —) が一意に存在し, T ’ = Z K (x; y) ’ (y) d— (y) (6.3) となり,T = TK が成り立つ. 定理 6.11 及び定理 6.12 から,Hilbert-Schmidt 作用素と 2 乗可積分な積分核をもつ積 分作用素は一対一に対応する. 24
  • 25. 定理 6.12 証明 1/3 [証明]: 存在性を示す.f’ig1 i=1 を L2 (˙; —) の完全正規直交基底とし,任意の n 2 N に対して Kn (x; y) := nX i=1 (T ’i) (x) ’i (y) と定義する.この時 fKng1 n=1 は L2 (˙ ˆ ˙; — ˆ —) のコーシー列.実際,m – n に対して Z Z ˙ˆ˙ jKm (x; y) ` Kn (x; y)j2 d— (x) d— (y) = Z Z ˙ˆ˙ ˛ ˛ ˛ ˛ ˛ ˛ mX i=n+1 (T ’i) (x) ’i (y) ˛ ˛ ˛ ˛ ˛ ˛ 2 d— (x) d— (y) = mX i=n+1 mX j=n+1 (T ’i; T ’j) (’j; ’i) = mX i=n+1 kT ’ik2 L2(˙;—) であるが,T は Hilbert-Schmidt 作用素なのでPm i=n+1 kT ’ik2 L2(˙;—) ! 0 (n; m ! 1) であり,fKng1 n=1 は L2 (˙ ˆ ˙; — ˆ —) のコーシー列となる. 25
  • 26. 定理 6.12 証明 2/3 L2 (˙ ˆ ˙; — ˆ —) は完備であり,2 乗可積分な関数 K (x; y) が fKng の収束先とし てある:Kn ! K (n ! 1).式 (6.2) によって積分作用素 TK を定義する時, TK = T であることを示せば良い. Kn を積分核とする積分作用素を Tn とすると,定理 6.11 から kTK ` Tnk » kTK ` TnkHS = kK ` KnkL2(˙ˆ˙;—ˆ—) である.すると,任意の f 2 L2 (˙; —) について,一般化フーリエ級数展開:f = P1 i=1 ’i hf; ’i を用いると, kTK f ` T fk = lim n!1 kTnf ` T fk = lim n!1 ‚ ‚ ‚ ‚ ‚ ‚ nX i=1 (T ’i) hf; ’ii ` T f ‚ ‚ ‚ ‚ ‚ ‚ = lim n!1 ‚ ‚ ‚ ‚ ‚ ‚ T 0 @ nX i=1 (f; ’i) ’i 1 A ` T f ‚ ‚ ‚ ‚ ‚ ‚ となる. Pn i=1 hf; ’ii ’i ! f (n ! 1) となるので,上式の最後の極限は 0 となり, TK = T をえる.□ 26
  • 27. 定理 6.12 証明 3/3 [証明]: 一意性を示す.L2 (˙; —) 上の任意の Hilbert-Schmidt 作用素 T に対して,異 なる 2 乗可積分な積分核 K1 (x; y) ; K2 (x; y) 2 L2 (˙ ˆ ˙; — ˆ —) が存在し, T ’ = Z K1 (x; y) ’ (y) d— (y) T ’ = Z K2 (x; y) ’ (y) d— (y) が成り立つことを仮定する.つまり, Z (K1 (x; y) ` K2 (x; y)) ’ (y) d— (y) = 0 であるが,これはほとんど全ての x で K1 = K2 となることを意味し,仮定に反する. □ 27
  • 28. 6.3.2 Hermite 性から導かれる Hilbert-Schmidt の展開定理 積分核 K が Hermite 的,すなわち K (x; y) = K (y; x) を満たすとする.この時,K を積分核とする積分作用素 TK は自己共役作用素である.実際, hTK f; giL2(˙;—) = Z ˙ Z ˙ K (x; y) f (y) d— (y) g (x)d— (x) = Z ˙ f (x) Z ˙ K (y; x) g (x)d— (x) d— (y) = hf; TK gi であることが確認できる.自己共役な Hilbert-Schmidt 作用素は固有値分解が可能であ る.TK の固有値,固有ベクトルは TK ffi = –ffi; ` – 2 C; ffi 2 L2 (˙; —) ´ により定義される.自己共役な Hilbert-Schmidt 作用素の固有値は実数となり,非ゼロ固 有値に対する固有ベクトル全体の集合 (固有空間) は有限次元である.固有空間の次元だけ 重複を許し j–1j – j–2j – ´ ´ ´ > 0 とし,–i に対応する固有ベクトルを ffii とすると, fffiig は L2 (˙; —) の正規直交系で,8f 2 L2 (˙; —) に対して f = 1X i=1 hf; ffiiiL2(˙;—) ffii + ; ( 2 N (TK )) TK f = 1X i=1 –i hf; ffiiiL2(˙;—) ffii と展開できる (Hilbert-Schmidt の展開定理).28
  • 29. 6.3.2 積分核の Hilbert-Schmidt 展開 さらに,L2 (˙ ˆ ˙; — ˆ —) において K (x; y) は以下のように展開できる. 定理 6.13 積分核 K に対する積分作用素 TK の非ゼロ固有値 –i と単位固有ベクトル ffii を先述のよ うにする.この時,L2 (˙ ˆ ˙; — ˆ —) において, K (x; y) = 1X i=1 –iffii (x) ffii (y) の展開が成り立つ. Fubini の定理 ˙ を測度空間とし,f (x; y) が可測かつ可積分であるならば,以下が成立する. Z ˙ Z ˙ f (x; y) dy ! dx = Z ˙ Z ˙ f (x; y) dx ! dy = Z ˙ˆ˙ f (x; y) d (x; y) 29
  • 30. 定理 6.13 証明 1/2 K の 2 乗可積分性から,ほとんど全ての x に対して K (x; ´) 2 L2 (˙; —) である.ここ で,積分核の定義,及び固有値分解を用いて D K (x; ´) ; ffii E L2(˙;—) = Z K (x; y) ffii (y) d— (y) = TK ffii (x) = –iffii (x) となることに注意する.さらに, 2 N (TK ) ならば D K (x; ´) ; E L2(˙;—) = TK (x) = 0 となり,測度 — に関して,ほとんど全ての x に対して一般化フーリエ級数展開を用いると: K (x; ´) = 1X i=1 D K (x; ´) ; ffii E L2(˙;—) ffii = 1X i=1 –iffii (x) ffii (6.4) が成立する.Fubini の定理や L2 ノルムの定義から, Z Z ˛ ˛ ˛ ˛ ˛ ˛ K (x; y) ` NX i=1 –iffii (x) ffii (y) ˛ ˛ ˛ ˛ ˛ ˛ 2 d— (x) d— (y) = Z ‚ ‚ ‚ ‚ ‚ ‚ K (x; ´) ` NX i=1 –iffii (x) ffii ‚ ‚ ‚ ‚ ‚ ‚ 2 L2(˙;—) d— (x) (6.5) となる.30
  • 31. 定理 6.13 証明 2/2 式 6.5 の右辺の被積分関数は式 6.4 からほとんど全ての x に対して N ! 1 で 0 に収 束.かつ, ‚ ‚ ‚ ‚ ‚ ‚ K (x; ´) ` NX i=1 –iffii (x) ffii ‚ ‚ ‚ ‚ ‚ ‚ 2 L2(˙;—) = * K (x; ´) ` NX i=1 –iffii (x) ffii; K (x; ´) ` NX i=1 –iffii (x) ffii + L2(˙;—) = Z jK (x; y)j2 d— (y) ` NX i=1 –2 i jffii (x)j2 » Z jK (x; y)j2 d— (y) と N によらない 2 乗可積分関数で上から抑えることができ,優収束定理によって式 (6.5) は N ! 1 で 0 に収束する. ✷ 31
  • 32. 6.3.3 正値積分核と Mercer の定理 定理 6.13 ではカーネル K の Hermite 性のみを仮定して K の L2 (˙ ˆ ˙; — ˆ —) に おける展開を示した.さらに — がコンパクト Hausdorff 空間 ˙ 上の有限 Randon 測度 で,K が ˙ 上の連続な正定値カーネルの場合には以下に示すようにこの収束は絶対かつ一 様である (Mercer の定理). まず K の正定値性と積分作用素 TK の正値性: hTK f; fi = Z ˙ Z ˙ K (x; y) f (x) f (y)d— (x) d— (y) – 0; ` 8f 2 L2 (˙; —) ´ (6.6) の関連を示す. 位相空間 ˙ 上の非負 Borel 測度 — のサポート:Supp (—) を Supp (—) := fx 2 ˙ j — (U) > 0; U は x を含む任意の開集合 g により定義する.サポートは閉集合である.また,Rn 上の Borel 測度 — が連続な確率密 度 p (x) を持つ時,— のサポートと p (x) のサポートは一致する. Hausdorff 空間上の Borel 測度 — が Randon 測度である,とは任意のコンパクト融合 K に対して — (K) < 1 で,任意の可測集合 E に対して — (E) = sup f— (K) j K は K ȷ E なるコンパクト集合 g が成り立つことである. 32
  • 33. 6.3.3 正値積分核と Mercer の定理 命題 6.14 ˙ をコンパクト Hausdorff 空間,— を ˙ 上の有限非負 Randon 測度で, Supp (—) = ˙ とする.K (´; ´) : ˙ ˆ ˙ ! C を ˙ 上の連続な Hermite カーネルと する時,K が正定値カーネルである必要十分条件は TK が正値作用素であることである. 証明: › 必要性:˙ 上の任意の連続関数 g と可測集合による ˙ の分割 fEign i=1,(ただし i j ならば Ei Ej = ;; [n i=1 Ei = ˙) に対して,K の正定値性から, nX i;j=1 K (xi; xj) g (xi) g (xj)— (Ei) — (Ej) – 0 は成り立つ.式 6.6:hTK f; fi はこのような和の極限として得られるため,非負であ る.一般の f 2 L2 (˙; —) に対しては任意の › > 0 に対しては kf ` gkL2(˙;—) < › なる連続関数 g をとれば式 6.6 が示される. 33
  • 34. 命題 6.14 証明 2 › 十分性: TK が正値作用素である.— = 0 ならば自明に正定値性は満たされる.その ため,— (˙) > 0 としてよい.背理法で示すために,ある xi 2 ˙ と ci 2 C と ‹ > 0 があって, nX i;j=1 cicjK (xi; xj) » `‹ が成り立つと仮定する (TK が正値作用素である時に K が正定値カーネルでないこと を仮定する).一般性を失わず,xi xj としてよい.K の連続性と ˙ の Housdorff 性により,各 xi の開近傍 Ui があって,Ui Uj = ; (i j) かつ, 8(x; y) 2 Ui ˆ Uj に対して ˛ ˛cicjK (x; y) ` cicjK (xi; xj) ˛ ˛ » ‹ 2n2 が成り立 つ (?).この時,Supp (—) = ˙ から — (Ui) > 0 である. f := nX i=1 „ ci — (Ui) « IUi 2 L2 (˙; —) とおく (ただし IUi は Ui の定義関数). 34
  • 35. 命題 6.14 証明 3 このとき TK の正値性をチェックすると Z Z ˙ˆ˙ K (x; y) f (x) f (y)d— (x) d— (y) » nX i;j=1 1 — (Ui) — (Uj) Z Z UiˆUj ˛ ˛cicjK (x; y) ` cicjK (xi; xj) ˛ ˛ d— (x) d— (y) + nX i;j=1 Z Z UiˆUj cicj — (Ui) — (Uj) K (xi; xj) d— (x) d— (y) » ‹ 2 ` ‹ < 0 となり (?),仮定に矛盾する.□ 35
  • 36. 6.3.3 正値積分核と Mercer の定理 ˙ と — を命題 6.14 のとおりとする.連続な正定値カーネル K によって定まる積分核を TK とする時,命題 6.14 から TK は正値作用素で,任意の f 2 L2 (˙; —) に対して, (TK f; f) – 0 が成り立つので TK の固有値は非負実数である.重複度のぶんだけ並べた 正の固有値と固有ベクトルをそれぞれ –1 – –2 – ´ ´ ´ > 0 及び ffii で表す. 定理 6.15 Mercer の定理 K (x; y) = 1X i=1 –iffii (x) ffii (y) (6.7) ここで,収束は ˙ ˆ ˙ 上の絶対かつ一様収束である. 36
  • 37. Mercer の定理:証明 1 定理 6.13 から,式 6.7 は L2 (˙ ˆ ˙; — ˆ —) の収束として成り立つ.また, –iffii (x) = TK ffii (x) = Z K (x; y) ffii (y) d— (y) から K の連続性から ffii も連続である.ここで, Kn;m (x; y) := mX i=n –iffii (x) ffii (y); Rn (x; y) := K (x; y) ` K1;n`1 (x; y) とおくと,Kn;m は正値積分核となる?.また,定理 6.13 から L2 (˙ ˆ ˙; — ˆ —) に おいて lim m!1 Kn;m (x; y) = 1X i=n –iffii (x) ffii (y) = 1X i=1 –iffii (x) ffii (y) ` n`1X i=1 –iffii (x) ffii (y) = K (x; y) ` K1;n`1 (x; y) = Rn (x; y) であり,正値積分核であるという性質は L2 (˙ ˆ ˙; — ˆ —) の収束に関して保存される ことから,収束先 Rn も正値積分核である.Rn が正値積分核であることから,命題 6.14 を用いれば Rn (x; y) は正定値カーネルである.h37
  • 38. Mercer の定理:証明 2 この時,正定値カーネルの定義から 8x 2 ˙ と 8n 2 N に対し,Rn (x; x) – 0 であ る.K (x; x) = Rn (x; x) + K1;n`1 (x; x) から, K1;n`1 (x; x) = Pn`1 i=1 –i jffii (x)j2 » K (x; x) が成り立ち, 1X i=1 –i jffii (x)j2 » K (x; x) (6.8) をえる.また,Cauchy-Schwarz の不等式から, 1X i=1 ˛ ˛ ˛–iffii (x) ffii (y) ˛ ˛ ˛ » 0 @ mX i=n –i jffii (x)j2 1 A 1 2 0 @ mX i=n –i jffii (y)j2 1 A 1 2 = Kn;m (x; x) 1 2 Kn;m (y; y) 1 2 (6.9) である.式 6.8 から,式 6.7 の右辺の級数は各 (x; y) で絶対収束する (?).この収束先を H (x; y) := 1X i=1 –iffii (x) ffii (y) (6.10) とおいて,H = K となることを示す. 38
  • 39. Mercer の定理:証明 3 まず,式 6.9 から m X i=n ˛ ˛ ˛–iffii (x) ffii (y) ˛ ˛ ˛ » Kn;m (x; x) 1 2 Kn;m (y; y) 1 2 » Kn;m (x; x) 1 2 sup z2˙ K (z; z) 1 2 から,任意に x 2 ˙ を固定すれば式 6.10 は y 2 ˙ に関して一様に収束する.ゆえに任 意の x に対し, Z H (x; y) ffii (y) d— (y) = 1X n=1 Z –nffin (x) ffin (y)ffii (y) d— (y) = –iffii (x) = Z K (x; y) ffii (y) d— (y) が成り立つ.これは L2 において H (x; ´) = K (x; ´) を意味するが,両者は連続関数であ ることから H (x; y) = K (x; y) を得る. 39
  • 40. Mercer の定理:証明 4 最後に.Mercer の定理の式が ˙ ˆ ˙ 上の一様収束であることを示す.各点収束であるこ とは見たので,特に y = x とおくと, 1X i=1 –i jffii (x)j2 = K (x; x) が成り立つ.各 ffii (x) は連続関数であり,左辺は単調に K (x; x) に収束するので,Dini の定理 (コンパクト集合上の連続関数の単調列がある連続関数に各点収束するならば収束は 一様) からこの収束は一様である.したがって,n; m ! 1 の時,Kn;m (x; x) は 0 に 一様収束し,式 6.9 から Kn;m (x; y) は 0 に一様収束する.これは式 6.7 の絶対かつ一 様な収束を意味する. ✷ 40
  • 41. 正定値カーネルに対応する RKHS の陽な表示 Mercer の定理を用いると,正定値カーネルに対応する RKHS と,その内積の陽な表示を 与えることができる.(2.2.2.b:有限集合上の RKHS の表示の拡張として与えることがで きる) Mercer の定理と同じ条件の元,積分作用素 TK の非ゼロ固有値に対応する単位固有ベクト ルに N (TK ) の正規直交基底を付け加えて L2 (˙; —) の完全正規直交基底 fffiig1 i=1 を構 成する.すると,fffiig1 i=1 はシャウダー基底となり,任意の f 2 H はそれらの基底の線 型結合として: f = 1X i=1 aiffii (ただし ai 2 R) とできる.これを用いて L2 (˙; —) の部分ベクトル空間 H を H := 8 < : f 2 L2 (˙; —) j f = 1X i=1 aiffii; 1X i=1 jaij2 –i < 1 9 = ; (6.11) により定義する.また,f = P1 i=1 aiffii 2 H と g = P1 i=1 biffii 2 H に対して,内 積を hf; giH := 1X i=1 aibi –i (6.12) と定める.このように定めた H が K を再生核とする RKHS になることを示す.41
  • 42. H が正定値カーネルに対応する RKHS であること:証明 1 まず H がヒルベルト空間である (完備である) ことを示す. ffng1 n=1 を H の Cauchy 列とする.式 6.11 から fn = P1 i=1 ¸n;iffii とおくことが できて, P1 i=1 j¸n;ij 2 –i < 1 であるので, tn := ( ¸n;i p –i )1 i=1 は数列空間 l2 の Cauchy 列である.l2 は完備なので,ある t = f˛ig1 i=1 2 l2 が存在 し,tn ! t (n ! 1) である.この時,¸˜ i := p –i˛i とすると, 1X i=1 ˛ ˛¸˜ i ˛ ˛2 –i = 1X i=1 j˛ij2 < 1 ` f˛ig1 i=1 2 l2 から ´ 1X i=1 ˛ ˛an;i ` a˜ i ˛ ˛2 –i ! 0 が成り立つ.すると,f = P1 i=1 a˜ i ffii 2 H に対して,kfn ` fkH ! 0 を得る. 42
  • 43. H が正定値カーネルに対応する RKHS であること:証明 2 次に,H が K を再生核に持つことを示す. K (x; ´) = P1 i=1 –iffii (´) ffii (x) において,Mercer の定理から K (´; x) 2 H であ る.8f = P1 i=1 aiffii 2 H に対し, hf; K (´; x)iH = 1X i=1 ai–iffii (x) –i = 1X i=1 aiffii = f (x) となり,再生性が確認できた. ✷ 以上から,正定値カーネルに対応する RKHS は式 6.11 で与えられる H に一致し,その 内積は式 6.12 のように,級数として与えられる. 43
  • 44. ヒルベルト空間上の確率変数の平均 H:ヒルベルト空間 (関数空間),F :H 上の確率変数.ただし,E[kF k] < 1. この時,f 2 H に対して H 上の線形汎関数 ffiF : H ! R を以下のように定める: ffiF (f) := E[hf; F i] リースの表現定理から,任意の f 2 H に対して,ある mF 2 H が存在し, hf; mF i = ffiF (f) が成り立つ.よって ffiF (f) = E[hf; F i] = hf; mF i (8.1) をえる.この mF を確率変数 F の平均と呼び,E[F ] で表す.この時, E[hf; F i] = hf; mF i = hf; E[F ]i となり,平均と内積の操作は交換可能である. 44
  • 45. RKHS における平均 (X; B):可測空間,X:X に値をとる確率変数,RKHS:(Hk; k) を考える.ただし, E[ p k (X; X)] < 1 を仮定する. 特徴写像 ˘ (x) = k (´; x) に対して,再生性から k˘ (X)k2 = hk (´; X) ; k (´; X)i = hkX ; kX i = kX (X) = k (X; X) が成り立つことに注意すれば,E k˘ (X)k < 1 となり,前項の仮定を満たし,確率変数 ˘ (X) の平均 mk X が存在する.この時,mk X を,X の Hk における平均,と呼ぶ.式 (8.1) および再生性から,任意の f 2 H に対して ˙ f; mk X ¸ = E[hf; ˘ (X)i] = E[f (X)] (8.2) となり,任意の f に対して期待値 E[f (X)] が f と mk X の内積で表される. 平均 mk X の陽な表示を求める.mk X 2 H から,任意の y 2 X について,再生性を用い ると mk X (y) = ˙ mk X ; k (´; y) ¸ = hE (˘ (X)) ; k (´; y)i = E hk (´; X) ; k (´; y)i = E[k (X; y)] (8.8) となって,平均 mk X はカーネル関数の期待値として与えられる. 45