統計的学習の基礎
第5章
Yusuke Kaneko
5.1 導入
● 4章までは線形モデルについて取り扱ってきた
● 通常は、真の関数f(X)が実際に線形であるケースは考えにくい
… 線形モデルは解釈が容易かつ、f(X)への線形近似にもなっているというメリットが
ある
● 5,6章では、線形モデルを超える手法について扱っていく
...5章では、Xを変換で得られる新たな変数で補ったり、置換することで得られる新
たな特徴に線形モデルを適用する手法を扱う
● 5.8.2以降はskip
5.1 導入
● Xのm番目の変換を と表すと、Xに関する線形基底展開は、
● モデルは変換した変数に対して線形なので従来の手法を使えるというメリットがあ
る
… hに用いられる関数の例として、二乗項、交差項、対数関数、指示関数などがあ
る
● 基底展開は、f(X)を柔軟に表現するために用いられ、多項式はその例
...しかし、多項式は大域的に不安定になりがちという欠点がある.
→ 区分的多項式やスプラインを本章では考える
5.2 区分的多項式とスプライン
● X:1次元と仮定(5.7節まで)
● 区分的多項関数f(X)は、Xの領域を隣接した区間に分割して、fを各区間で別々の
多項式として表現することで得られる
● 区間ごとに、異なる多項式に従うモデル
5.2 区分的多項式とスプライン
● 上2つの図は連続ではない.一般的には、当てはめは節点で連続であるのが良い
● 左下図のように、節点で連続になる
ように連続性のための制約を導入する
(例):
とすれば制約は以下式
5.2 区分的多項式とスプライン
● 連続性を保った区分的多項式を構成する方法として、さらに
といったように、直接制約を
組み込んだ基底を用いる方法もある
● 右図は節点での連続性の次数を大きくして
いった時の遷移
5.2 区分的多項式とスプライン
● 次数Mのスプラインとは(M-2)階までの連続導関数を持つ次数Mの区分的多項式の
ことを言う
3次スプライン: M=4
区分的定数関数: M=1
連続区分的線形関数:M=2
● 3次スプラインが節点における不連続性が人間に感知できない最も次数の低いス
プラインとされている.
→ 実用的には M=1,2,4のケースが広く用いられている
● 回帰スプラインは節点が固定されたスプライン
→ 次数だけでなく、節点の位置や個数まで決める必要あり
5.2.1 3次自然スプライン
● 多項式のデータの当てはめは、境界付近で不安定になることがよく知られている
(カーネル法の境界問題なども).したがって、外挿は適切ではなく、スプラインだとさ
らに問題になる
● 右図は各点の分散を比較したもの
3次スプラインが境界付近では
最悪になる
5.2.1 3次自然スプライン
● 前スライドの問題を改善するためのものが3次自然スプライン(Natural Cubic
Spline)
→関数が境界節点上で線形である
という追加制約を加えたもの
● 右図の青線が改善を示している
5.2.2 例:南アフリカの心臓疾患データ
● 4.4.2で線形ロジスティックを用いた当てはめを行った.今回は自然スプラインを用
いる.モデルは以下の式で表される.
● 各項に4つのスプライン基底を用いる.ただし、famhistは2段階のカテゴリ変数なの
でダミー変数を用いて表現する.これにより、モデルは基底関数からなるp個のベク
トルを結合して
で表現可能.
5.2.2 例:南アフリカの心臓疾患データ
● パラメータ数の総和は
なので、結局N × dfの基底行列Hが得られる.
→結局線形モデルとして扱えるので、ロジスティック回帰を適用可能
● 後ろ向き削除を実行(注意:モデル構造を維持するために、AICを用いて変数では
なく項を削除していく)
5.2.2 例:南アフリカの心臓疾患データ
● 結果は左図
→赤が標本値
黄が標準誤差
5.2.3 例:音素認識
● 5.2.2とは違い、モデルの柔軟性を下げるための例.“aa” と “ao”の音素を分類する
ことがタスク.
● 入力は, 周波数fの格子状の関数X(f)の値を要素とする256次元ベクトルx.
● モデルは、連続モデルを近似した以下の式
5.2.3 例:音素認識
● 灰色が制約無しのロジスティック回帰で出した係数.極めて乱雑なので、3次自然
スプラインを用いた正則化を行う
● 赤い曲線が正則化を用いて
得られた滑らかな係数.
分類器の性能も向上.
5.3 フィルタリングと特徴抽出
● 高次元データにおいて、特徴の前処理は性能上昇のための強力かつ一般的方法
→ 別に、前処理は線形ではなく非線形で良い
● 信号認識や画像認識では、ウェーブレット変換をした後に、生成した特徴をニューラ
ルネットの入力に用いるのが広く行われている
→ ウェーブレットは離散値の急変や境界を捉えるのに強み
ニューラルネットはこれらの非線形関数を構築するのに強み
5.4 平滑化スプライン
● 節点選択の問題を回避するための平滑化スプラインについて扱う
→ 正則化を用いる
● 連続2次導関数を持つ任意のf(・) について、以下の最小化問題を考える
● 第1項で当てはめを、第2項で関数の歪曲度に罰則を課している
λ = 0 : fは任意の関数
λ= ∞ : 単に直線の最小2乗推定
5.4 平滑化スプライン
● (5.9)の有限次元の一意解は各xiを節点を持つ3次自然スプラインになるので、解は
の形でかける(Nj(x)は基底関数)
● 解くべき最小化問題は以下の式の形でかける
5.4 平滑化スプライン
● 解くべき最小化問題は以下の式の形でかける
● これを解くと、解は以下の式になる
5.4 平滑化スプライン
● 「(5.9)の有限次元の一意解は
各xiを節点を持つ
3次自然スプラインになる」
ことの証明(演習5.7)
5.4 平滑化スプライン
● 「(5.9)の有限次元の一意解は
各xiを節点を持つ
3次自然スプラインになる」
ことの証明(演習5.7)
5.4 平滑化スプライン
● 「(5.9)の有限次元の一意解は
各xiを節点を持つ
3次自然スプラインになる」
ことの証明(演習5.7)
5.4.1 自由度と平滑化行列
● λの選択について扱う.まずはCVではなく直感的な方法について.
● 事前に選ばれたλを用いた平滑化スプラインは線型平滑化の例
● を の推定値からなるN次元ベクトルとすると、
5.4.1 自由度と平滑化行列
● は平滑化行列として知られる.(xとλのみに依存する)
● 平滑化スプラインの有効自由度を以下の式で定義する
5.4.1 自由度と平滑化行列
● の性質について触れる
… λ→0 の時、df_λ→N 、λ→ inftyの時、df_λ →2
… の固有値を とおくと、df_λ=
5.5 平滑化パラメータの自動選択
● 回帰スプラインでの平滑化パラメータはスプライン次数や節点数や配置などを多岐
にわたる
● 平滑化スプラインにおいては、節点は全訓練データ上にあり基本的に3次なので、
決めれば良いのは罰則パラメータλのみ.
● 回帰スプラインにおける節点数および配置の選択は複雑になりがち.
→9章で扱うMARSは貪欲法で妥協的解決を果たしている
5.5.1 固定自由度
● 平滑化スプラインにおいて、
はλについて単調.
→ つまり、dfを固定すればλを指定可能.
→ 複数の異なるdfを試し、F検定統計量や残差の図示などでモデル選択を行うこと
ができる.
● このようなdfを用いて複数の平滑化手法を比較するアプローチは9章で扱う一般化
加法的モデル(Generalized Additive Model : GAM) で特に有効
5.5.2 バイアスと分散のトレードオフ
● 右図は以下のモデルで平滑化スプラインを
行った時の図
5.5.2 バイアスと分散のトレードオフ
● バイアス、分散は次の式で表される.
ただし、
は訓練データXにおける真のfの
評価値からなる未知ベクトル
5.5.2 バイアスと分散のトレードオフ
● 右図はdf に応じて分散とバイアスのトレード
オフを可視化したもの
df = 5… 明らかにunderfit
df = 9… バイアスと分散のバランス良
df = 15… overfit気味
5.5.2 バイアスと分散のトレードオフ
● バイアスと分散のトレードオフを適度に扱う基準が必要
● 期待二乗誤差(EPE)は右下のようにバイアスと分散を同時に扱える
● EPEはfの値が未知なので、
推定を行う必要がある.
K-fold CVやGCVなどが
用いられる
5.5.2 バイアスと分散のトレードオフ
● (7章で再度扱うので詳細は省く)CVは以下の式で表される基準
● 当てはめ値と平滑化行列の対角要素でのみ計算可能.
5.6 ノンパラメトリックロジスティック回帰
● そもそも5.4節で平滑化スプラインの問題は回帰の文脈で導入された
→他の問題に転用することは容易.今節ではロジスティック回帰を扱う.モデルは以
下の式
これは次の関係を表す.
● つまり、滑らかなf(x)の当てはめを行えば、分類などに利用可能なP(Y=1|x)の滑らか
な推定が可能になる.
5.6 ノンパラメトリックロジスティック回帰
● 罰則付対数尤度基準を以下のように構成する.(ただし、p(x) = P(Y=1|x))
● これの1次、2次導関数は次の式となる
ただし、pはp(xi)を要素として持つN次元ベクトルで、Wは重みp(xi)(1-p(xi))の対角行
列.
5.6 ノンパラメトリックロジスティック回帰
● ニュートン法を用いた更新式は以下の式になる.
● fの更新式からわかることは、
を任意のノンパラメトリック回帰オペレーターに置き換えればノンパラメトリックロジ
スティック回帰モデル族が構成可能なところ
→一般化加法的モデル(9章)への拡張の核心になる
5.7 多次元スプライン
● 多次元スプラインも構成可能.次式のテンソル積基底を用いて
次の2次元関数を表現可能
5.7 多次元スプライン
● 次の最小化問題を用いることで高次元のスプラインを構成可能
● 上式の最適化を用いて得られたスプラインは薄板スプラインと呼ばれ、解は次式の
形で書ける.
5.8 正則化と再生核ヒルベルト空間
● スプラインの問題を正則化法と再生核ヒルベルト空間の文脈で考えていく.
● 正則化問題のクラスは以下で表現可能
ただし、Lは損失関数で、Jは罰則汎関数.
● Girosi et al.(1995)はJ(f)について以下の一般的な形を提案
ただし、tilde{f}はfのフーリエ変換で、tilde{G}は||s||→inftyとすれば0に収束する正
の関数
5.8 正則化と再生核ヒルベルト空間
● その他の追加的仮定の下で、解は以下の形で表現可能
● 注意すべき点として、評価関数は無限次元空間でdefされているのに、解は有限次
元となること.次はそのいくつかの例に触れる
5.8.1 カーネルにより生成される関数空間
● (5.42)から得られる問題の部分族として正定値カーネルK(x,y)によって得られるもの
がある.
→ 正定値カーネル
5.8.1 カーネルにより生成される関数空間
● 再生核ヒルベルト空間(RKHS)
5.8.1 カーネルにより生成される関数空間
5.8.1 カーネルにより生成される関数空間
● 5.42式を書き換えると、
● (演習5.15より)上式の解は有限次元であり、以下の形になる
● (演習5.15より)罰則は以下の形になる
5.8.1 カーネルにより生成される関数空間
● f(x)とJ(f)の形より、目的関数は以下の形の有限次元に落とせる
● このように、無限次元の問題を有限次元の最適化問題の形に落とし込める性質は
Kernel Propertyと呼ばれる

Hastie_chapter5