統計的学習の基礎:	6-1	~	6-4	カーネル平滑化法	
@siero5335	
20161004	@Yahoo!	
統計的学習の基礎 読書会#1
カーネル平滑化?	
領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0	
に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモ
デルを作る(局所的に上手く当てはまるようにする)。
カーネル平滑化?	
領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0	
に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモ
デルを作る(局所的に上手く当てはまるようにする)。	
	
観測点xiにx0からの距離に基づく重みを付与する重み関数である
カーネル Kλ(x0,	xi)	を介して局所重み付けが実現される。トレーニ
ングはほぼ不要。訓練データから決めるパラメータはλだけ。
カーネル平滑化?	
領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0	
に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモ
デルを作る(局所的に上手く当てはまるようにする)。	
	
観測点xiにx0からの距離に基づく重みを付与する重み関数である
カーネル Kλ(x0,	xi)	を介して局所重み付けが実現される。トレーニ
ングはほぼ不要。訓練データから決めるパラメータはλだけ。	
	
この章でのカーネルは局所回帰に特化したもので、サポートベク
ターマシンみたいな高次元特徴空間での内積を計算するカーネ
ルとはちょっと違う	
(関係はしている?	→	7章で詳細)
カーネル平滑化?	
領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0	
に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモ
デルを作る(局所的に上手く当てはまるようにする)。	
	
観測点xiにx0からの距離に基づく重みを付与する重み関数である
カーネル Kλ(x0,	xi)	を介して局所重み付けが実現される。トレーニ
ングはほぼ不要。訓練データから決めるパラメータはλだけ。	
	
この章でのカーネルは局所回帰に特化したもので、サポートベク
ターマシンみたいな高次元特徴空間での内積を計算するカーネ
ルとはちょっと違う	
(関係はしている?	→	7章で詳細)	
	
こんなのがどこかにあったような?
1次元カーネル平滑化手法	(KNNカーネル)	
着目する点x0	に近い観測点だけを使って、f^(X)がRp上で滑らか
になるようにモデルを作る。	
→	2章のKNN:	f^(X)	=	Ave(yi|xi	∈	Nk(x))	を推定値にした場合	
最近傍カーネルでは
f^(x)がxにおいて不
連続なので予測値が
波打っている	
拡大
1次元カーネル平滑化手法	
予測値が波打つような不連続なのは
見栄えが良くないので避けたい	
	
→	近傍に含まれる全ての点に対し、	
等しく重みをつけているのがよくない	
	
→着目点からの距離に応じて重みが
減少すれば良い感じになる	
	
ナダラヤ=ワトソン重み付きカーネル
1次元カーネル平滑化手法	
ナダラヤ=ワトソン重み付きカーネル	
	
	
	
今回はカーネルKλ(x0,	xi)	にイパネクニコフ2次カーネルを使う	
! =
!!(!!, !!)!!
!
!!!
!!(!!, !!)!
!!!
D(t)	=	
3
4
1 − !! ! ≤ 1
0		その他の場合	
!! !!, ! = !
𝑥 − 𝑥!
λ
! =
𝑥 − 𝑥!
λ
1次元カーネル平滑化手法 (ナダラヤ=ワトソンカーネル)	
着目する点x0	に近い観測点だけを使って、f^(X)がRp上で滑らか
になるようにモデルを作る。	
→	ナダラヤ=ワトソンカーネルの場合	(イパネクニコフ:	λ	=	0.2)	
ナダラヤ=ワトソンカー
ネルだとスムーズな線
になっている	
拡大
1次元カーネル平滑化手法	
ナダラヤ=ワトソン重み付きカーネル	
	
	
	
今回はカーネルKλ(x0,	xi)	にイパネクニコフ2次カーネルを使う	
! =
!!(!!, !!)!!
!
!!!
!!(!!, !!)!
!!!
D(t)	=	
3
4
1 − !! ! ≤ 1
0		その他の場合	
!! !!, ! = !
𝑥 − 𝑥!
λ
! =
𝑥 − 𝑥!
λ
その他のカーネル	
ナダラヤ=ワトソン重み付きカーネル	
	
	
	
矩形3次カーネル	
	
	
	
	
	
ガウス密度関数	
! =
!!(!!, !!)!!
!
!!!
!!(!!, !!)!
!!!
D(t)	=	
0		その他の場合	
!! !!, ! = !
𝑥 − 𝑥!
λ
! =
𝑥 − 𝑥!
λ
1 − ! ! ! ! ≤ 1
D(t)	=	φ	(t)	:	標準偏差が窓幅と同じ役割を示す
その他のカーネル	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.2	HasRe,	Tibshirani	and	Friedman	(2009)		
矩形3次カーネルは台の境界で連続導関数を持つ	
ガウスカーネルは連続微分可能・無限の台を持つ
注意点	
平滑化パラメータλの決定	
λ大きい	→	分散が小さくなり、バイアスが大きくなる	
	
カーネルの基準幅(定数hλ(x))	
推定値のバイアスを一定に抑える傾向があるが、分散は
局所的な密度に反比例する。最近傍窓の場合はこの逆	
	
同じxiに複数のデータが有るときは間引いたり平均したり重
み付けをしたりするが、重みの付け方は難しい	
	
データの境界部ではカーネルの基準幅ないの近傍点の数
が減ったり、最近傍点の入る領域が増えたりするので注意
局所重み付け回帰	(LOESS)	
ナダラヤ=ワトソン	 LOESS
局所重み付け回帰	(LOESS)	
ナダラヤ=ワトソン	 LOESS	
領域の境界上や近傍にバイアス問題を含んでいる	
ここでは近傍に含まれる観測値の殆どが着目点より大き
い平均値を持つので上向きのバイアスを持つ		
LOESSだとバイアスが1次まで除去される
局所重み付け回帰	(LOESS):	推定値	
局所重み付け回帰ではそれぞれの着目点x0において	
別々に重み付き最小2乗誤差問題	
	
	
を解く	
	
この時推定値は	
	
	
このモデルは領域のすべてのデータを使って線形モデ
ルを当てはめるが、単一の点x0を評価するためだけに
使っている	
min
!(!!),!(!!)
!! !!, !! [!! − α !! − β !! !!]
!
!
!!!
! !! = α !! + β !! !!
ベクトル値関数をb(x)T	=	(1,	x)	
第i行がでb(x)TであるN×2の回帰行列	=	B	
第i対角要素がKλ(x0,	xi)であるN×Nの対角行列	=	W(x0)		
とすると、先程の推定値	
	
	
は	
	
	
	
の様に書ける		
重みli(x0)は重み付きカーネルと最小二乗法を組み合わ
せたもので等価カーネルと呼ばれる	
	局所重み付け回帰	(LOESS):	等価カーネル	
! !! = ! !!
! !!! !! ! !!!!! !! !
= !! !! !!
!
!!!
! !! = α !! + β !! !!
(推定値がyiに対し線形,	li(x0)が重み)
局所重み付け回帰	(LOESS):	カーネルの自動手直し	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.4	HasRe,	Tibshirani	and	Friedman	(2009)		
緑:	局所回帰に対する等価カーネル	
黄色 ナダラヤ=ワトソン局所平均に対する等価カーネル	
	
ナダラヤ=ワトソンだと重みが対称になっているが、局所回帰の場
合は非対称性に起因するバイアスを修正するように重みを改良
局所重み付け回帰	(LOESS):	推定値の期待値	
!! !! = !! !! !(!!)
!
!!!
= !(!!) !! !!
!
!!!
+ !!
(!!) !! − !!
!
!!!
!! !! +
!!!
(!!)
2
!! − !!
!
!! !! + !
!
!!!
残差項Rはfの3次またはそれ以上の導関数を含む	
滑らかさについての過程が適切なら通常は小さい値になる	
	
局所線形回帰では																											=	1,																												=	0	
	
なので、第2項まではf(x0)と一緒		
バイアスは													-	f(x0)なので、バイアスはfの展開の2次以上に依存	
局所回帰の線形性と真の関数fのx0周りの級数展開から推定値の期
待値について考える	
!! − !!
!
!!!
!! !! !! − !!
!!! !! + !
!
!!!
!! !! = !! !! !(!!)
!
!!!
局所重み付け回帰	(LOESS):	多項式の場合	
LOESS1次	 LOESS2次
局所重み付け回帰	(LOESS):	多項式の場合	
局所2次回期だと個々のバイアスを修正できる	
(分散は増加する)	
次数に関してバイアス=バリアンストレードオフがあるので	
末端部分などでの分散が大きくなりやすい	
LOESS1次	 LOESS2次
局所重み付け回帰	(LOESS):	多項式の場合	
min
!(!!),!(!!)
!! !!, !! [!! − α !! − β !! !!]!
!
!!!
LOESS1次	
LOESSd次	
min
!(!!),!(!!),!!!,…,!
!! !!, !! [!! − α !! − β! !! !!
!
!
!!!
]
!!
!!!
LOESS1次	 LOESS2次
局所重み付け回帰	(LOESS):	多項式まとめ	
局所線形当てはめは分散を大きくしすぎることなく
バイアスを減らせる	
	
2次当てはめだと境界のバイアスを減らさないが分
散を大きく増加させる	
	
2次当てはめは多くの場合領域内部の関数の湾曲
に起因するバイアスを上手く減らせる	
	
漸近解析より、奇数次数の多項式が偶数のそれよ
り支配的であることが期待される	
MSEが境界の影響に支配されるため(?)
カーネル幅の選択	
カーネル幅色々	
	
イパネクニコフ,	矩形3次:	台領域の半径		
ガウスカーネル:	標準偏差	
	
k近傍:	kの数	
	
窓の幅が変わると?	
	
窓が狭い:	推定値がx0に近い少数のyiの平均になり、分散
は対応するyiの分散より相対的に大きくなる	
推定値の期待値がf(x0)に近づくのでバイアスは小さくなる	
	
窓が広い:	上記の逆
多次元における局所回帰	
カーネル平滑化,	局所回帰はより高次元へ自然に一般化
される	
	
ナダラヤ=ワトソンカーネル平滑化	
p次元カーネルによって与えられる重みを局所的に一定
値に割り当て	
	
局所線形回帰	
p次元カーネルによって与えられる重みで重み付けされた
最小2乗法により,	Xの空間において局所的に超平面を割
り当て
多次元における局所回帰	
b(X)をXに含まれる最大次数dの多項式ベクトルとする		
d	=	1,	p	=	2のときb(X)	=	(1,	X1,	X2),		
d	=	2のときb(X)	=	(1,	X1,	X2,	X1
2,	X2
2,	X1,	X2)	
d	=	0のときb(X)	=	1	
	
それぞれのx0	∈	Rp	において	
	
	
を解いて の当てはめを得る	
min
!(!!)
!! !!, !! (!! − ! !!
!
β !! )
!
!
!!!
! !! = ! !!
!β !!
多次元における局所回帰	
!! !!, ! = !
𝑥 − 𝑥!
λ
このカーネルはイパネクニコフや矩形3次みたいな
動径関数になる	
	
	
	
ll・llはユークリッドノルム	
ユークリッドノルムは座標の単位に依存するので、
平滑化に先立ち変数の標準化をしておくと良い
多次元における局所回帰:	図示	
galaxyデータの局所解析	
幅=15%とした	
	
散布図などは大まかな傾向見
るには良いが、条件ごとに図を
用意するほうが良いかも?
多次元における局所回帰:	図示	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.9	HasRe,	Tibshirani	and	Friedman	(2009)		
条件ごとに図を用意した図	
	
ElemStatLearn	pakageに
データはあるものの記述の
条件がイマイチ不明…
多次元における局所回帰:	問題点	
1次元平滑化のとき	
境界での当てはめに問題があった	
	
多次元のとき	
境界上の各点の比率が大きくなるのでより大きな問題に	
このため3次元よりもはるかに次元が高い場合、局所回
帰はあまり有用ではなくなってしまう	
	
次元数pに対して指数的に総標本数が増えないと…
多次元における構造化局所回帰	
次元数pに対して指数的に総標本数が増えないと局所
回帰はあまり役に立たないので、何らかの内部構造を仮
定して次元削減的なことをするとうまくいく事がある		
→	構造化局所回帰	
	
その中でも	
	
構造化カーネル,	構造化回帰関数がカーネル法に直接
関連するアプローチとして知られている
多次元における構造化局所回帰:	構造化カーネル	
カーネルを修正し、半正定値行列Aを異なる座標の重み
付けに使うと良い	
	
	
	
半正定値行列Aに適切な制約を課すと、幾つかの座標
や方向をまるごと取り除いたり、寄与を小さくできる	
	
ex.	Aが対角行列ならAjj要素の大きさを変えることで予測
変数Xjの影響を変えることができる	
予測変数が多数あり、かつそれらの相関が強い時など	
	
その他射影追跡回帰などは11章で	
!!,! !!, ! = !
! − !!
!! ! − !!
λ
多次元における構造化局所回帰:構造化回帰関数	
任意の相互作用が存在しうる回帰関数	
E(Y	|	X)	=	f(X1,	X2,...,Xp)	を当てはめることを試みる	
	
下記のような分散分析の形を分解を考える	
	
	
この中の高次の項を幾つか取り除くことで構造を導入	
	
ex.	加法的モデルなら主要項だけを仮定し、2次のモデル
の場合は高々2次の交互作用をもつ項を含むようにする等	
→	9章で詳細	
! !!, !!, … , !! = α + !! !!
!
+ !!" !!, !!
!!!
+
多次元における構造化局所回帰:構造化回帰関数	
これら構造化モデルの中でも	
係数変化モデルは特に重要な具体例	
	
Xに含まれる予測変数をp個の集合(X1,	X2,...Xq)(q	<	p)	と	
残りの変数をベクトルZにまとめたものに分割したとする	
	
このとき条件付き線形モデル	
	
	
を仮定する	
	
これは線形モデルだがそれぞれの係数はZによって異なっ
ており、これを局所重み付き最小2乗法に当てはめるもの	
! ! = α ! + β Z !! + + β! ! !!
min
!(!!),!(!!)
!! !!, !! (!! − α !! − !!!β !!! − − !!!β! !!! )
!
!
!!!
多次元における構造化局所回帰:構造化回帰関数(作図)	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.10	HasRe,	Tibshirani	and	Friedman	(2009)		
大動脈の直径データ	
ElemStatLearn	packageに含まれず?
多次元における構造化局所回帰:構造化回帰関数(作図)	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.10	HasRe,	Tibshirani	and	Friedman	(2009)		
加齢とともに大動脈は太くなるが、性別や動脈の深度で
長さが変わると予想し、男女でモデルを分けて作った
多次元における構造化局所回帰:構造化回帰関数(作図)	
Elements	of	StaRsRcal	Learning	(second	ediRon):		
Fig.	6.10	HasRe,	Tibshirani	and	Friedman	(2009)		
確かに年齢とともに太くなっているが、	
その傾向は大動脈に沿った距離とともに弱まる
まとめ	
局所重み付き回帰だと	
	
	
	
に一手間加えたり、	
	
カーネル平滑化だと	
	
	
のDの中身を入れ替えることで色々調節できるよ	
min
!(!!),!(!!)
!! !!, !! [!! − α !! − β !! !!]
!
!
!!!
!! !!, ! = !
𝑥 − 𝑥!
λ
参考資料	
ナダラヤ・ワトソン推定量を用いたノンパラメトリック回帰	
hhp://www.math.hc.keio.ac.jp/itoseminar/index.php?%B1%CA
%B0%E6%A1%A6%A5%CE%A5%F3%A5%D1%A5%E9%A5%E1%A5%C8%A5%EA
%A5%C3%A5%AF%B2%F3%B5%A2%A1%C1NW%BF%E4%C4%EA%CE%CC%A1%C1	
	
カーネル平滑化のメモ	
hhp://entertainment-lab.blogspot.jp/2010/08/blog-post.html	
	
コンパクト性、開被覆	
hhp://d.hatena.ne.jp/Zellij/20120515/p1

統計的学習の基礎6章前半 #カステラ本