パターン認識と機械学習
第三章:線形回帰モデル
佐々木亮輔
1
第三章:線形回帰モデル
注意:
線形回帰モデルの"線形"は、モデルが一次関数で表されるという意
味ではなく、非線形関数の線形結合で表すという意味。
2
【目次】第三章:線形回帰モデル
3.1 線形基底モデル
3.1.1 最尤推定と最小二乗法
3.1.2 最小二乗法の幾何学
3.1.3 逐次学習
3.1.4 正則化最小二乗法
3.1.5 出力変数が多次元の場合
3.2 バイアス‐バリアンス分解
3.3 ベイズ線形回帰
3.3.1 パラメータの分布
3.3.2 予測分布
3.3.3 等価カーネル
3
【目次】第三章:線形回帰モデル
3.4 ベイズモデル比較
3.5 エビデンス近似
3.5.1 エビデンス関数の評価
3.5.2 エビデンス関数の最大化
3.5.3 有効パラメータ数
3.6 固定された基底関数の限界
4
3.1 線形基底関数モデル
入力変数に関して非線形な線形結合を考えることで、単純な線形
回帰モデルを拡張
y(x, w) = w ϕ (x) =w ϕ(x)
パラメータwに関して線形、入力データxに対して非線形
ϕを基底関数と呼ぶ
j=0
∑
M−1
j j
⊤
5
基底関数
入力ベクトルに表現能力を持たせるための関数
多項式基底関数
ガウス基底関数
シグモイド基底関数
フーリエ基底関数
基底関数の線形結合からなる関数をスプライン関数という
※ PRML本に基底関数の決め方は記述されていない(ウェブ上でも
見当たらない)
6
多項式基底関数
ϕ (x) = xj
j
7
ガウス基底関数
ϕ (x) = exp −
単峰性であることから、局所性を持つという
j {
2s2
(x − μ )j
2
}
8
シグモイド基底関数
σ(a) = 1/ 1 + exp(−a) をロジスティックシグモイド関数と
するとき、
ϕ (x) = σ
{ }
j (
s
x − μj
)
9
3.1.1 最尤推定と最小二乗法
目標関数tが決定論的な関数y(x, w)と加法性のガウスノイズの和
で与えられると仮定する
t = y(x, w) + ϵ
ϵの尤度は次式で表せる
p(t∣X, w, β) = N(t∣y(x, w), β )−1
10
線形基底関数における対数尤度関数の最
大化
前式の尤度関数
p(t∣X, w, β) = N(t ∣w ϕ(x ), β )
wに関して最大化したものを0とおいて解く
∇ ln p(t∣w, β) = β t −w ϕ(x ) ϕ(x ) = 0
ただし、E (w) = t −w ϕ(x ) を誤差関数とし
て定義する
n=1
∏
N
n
⊤
n
−1
n=1
∑
N
{ n
⊤
n } n
⊤
D 2
1
∑n=1
N { n
⊤
n }2
11
計画行列
最小二乗問題の正規方程式
w = (Φ Φ) Φ t
N × M 行列 Φ を計画行列と呼ぶ
Φ =
ML
⊤ −1 ⊤
⎝
⎜
⎜
⎛ϕ (x )0 1
ϕ (x )0 2
⋮
ϕ (x )0 N
ϕ (x )1 1
ϕ (x )1 2
⋮
ϕ (x )1 N
⋯
⋯
⋱
⋯
ϕ (x )M−1 1
ϕ (x )M−1 2
⋮
ϕ (x )M−1 N
⎠
⎟
⎟
⎞
12
ムーア・ペンローズの擬似逆行列
行列 Φ を行列 Φ のムーア・ペンローズの逆擬似行列と呼ぶ
Φ = (Φ Φ) Φ
一般の逆行列の概念の非正方行列への拡張
逆行列を持たない行列であっても近似的な解を導出可能
[参考] 大人になってからの再学習 一般逆行列・ムーア・ペンロー
ズ逆行列 http://zellij.hatenablog.com/entry/20120811/p1
†
† ⊤ −1 ⊤
13
3.1.2 最小二乗法の幾何学
それぞれの基底関数を N 次元ベクトル φとみなすとき、最小二乗
回帰関数 y はデータベクトル t の基底関数ϕ (x)で張られる線形
部分空間 S 上への正射影となる
j
14
3.1.3 逐次学習
確率的勾配降下法により、データ点を一度に一つだけ用いてモデ
ルのパラメータを更新
w =w − η∇E
二乗和誤差関数の場合(LMS﴾Least Mean Square﴿アルゴリズム)
w =w − η(t −w ϕ )ϕ
(τ+1) (τ)
n
(τ+1) (τ)
n
(τ)⊤
n n
15
3.1.4 正則化最小二乗法
lassoではλが十分に大きいとき、いくつかの係数が0になり、疎な
解が得られる
限られたサイズの訓練データ集合を用いて複雑なモデルを学
習する際の過学習を防ぐ
適切な基底関数の数を求める問題を正則化係数λを適切に決め
る問題に置き換えた
16
3.1.5 出力変数が多次元の場合
出力変数が多次元であっても応用可能。。。
以降では、出力変数が多次元の場合の話は出てこない
17
3.2 バイアス・バリアンス分解
過学習の問題
基底関数の数を限定するとモデルの表現能力が限られる
正則化項の導入は正則化係数の適切な値を求める必要がある
⇒ ベイズアプローチによるパラメータの周辺化が解決
その前に...
⇒ 頻度主義の立場からバイアスとバリアンスの概念からモデルの
複雑さを考える
18
期待二乗損失
関数値 y(x),最適値 h(x),目標変数 tによる期待二乗損失
E(L) = y(x) − h(x) p(x)dx + h(x) − t p(x, t)dxdt
第一項は誤差
第二項はデータに含まれる本質的なノイズ
∫ { }2
∫ ∫ { }2
19
期待二乗損失の詳細
前式を分解
E(L) = (Bias) + variance + Noise
ただし、
(Bias) = E [y(x; D)] − h(x) p(x)dx
variance = E y(x; D) −E [y(x; D) p(x)dx
noise = h(x) − t p(x, t)dxdt
2
2
∫ { D }2
∫ D[{ D }]
∫ ∫ { }2
20
バイアスとバリアンス
バイアスとバリアンスはトレードオフの関係
バイアス:全てのデータ集合のとり方に関する予測値の平均
が理想的な回帰関数からどのくらい離れているかの度合い
バリアンス:各々のデータ集合に対する解が、特定のデータ
集合の選び方に関する期待値の周りでの変動の度合い
次スライド以降では、第一章の三角関数データを用いて、バイア
スとバリアンスがモデルの複雑さに依存することを説明する
21
正則化パラメータ λ が小さい場合
柔軟性のある複雑なモデルであることを意味する
バイアスは小さいが、バリアンスが大きい
それぞれのデータ集合のノイズに過剰にあてはまる
22
正則化パラメータ λ が大きい場合
柔軟性の低い簡素なモデルであることを意味する
バリアンスは小さいが、バイアスが大きい
23
バイアスとバリアンスに関する誤差値
予測性能が最適なモデルとは、バイアスとバリアンスをバランス
良く小さくするモデル
⇒ 最適な正則化パラメータ λ を選択することを意味し、テスト誤
差を最小化する
24
3.3 ベイズ線形回帰
過学習の問題
基底関数の数を限定するとモデルの表現能力が限られる
正則化項の導入は正則化係数の適切な値を求める必要がある
尤度関数の最大化によるモデル選択は過度に複雑なモデルを
選択する
テスト用データを用意する手法は、計算量が多くデータの無
駄遣い
⇒ 次こそベイズ的アプローチ
25
3.3.1 パラメータの分布
モデルパラメータ w の事前確率分布を導入し、線形回帰モデルの
ベイズアプローチを説明する
共役事前分布(期待値 m ,共分散 S )
p(w) = N(w∣m ,S )
事後分布(m =S (S m + βΦ t),S =S + βΦ Φ)
p(w∣t) = N(w∣m ,S )
最頻値は期待値と一致すること(ガウス分布による性質)から、
事後確率を最大にする重みベクトルはw =m となる
0 0
0 0
N N 0
−1
0
⊤
N
−1
0
−1 ⊤
N N
MAP N
26
3.3.1 パラメータの分布
議論の簡潔化のため、以降では事前分布を次式の等方的ガウス分
布とする
p(w∣α) = N(w∣0, α I)
そのとき、事後分布は次式で与えられる
p(w∣t) = N(w∣m ,S )
m = βS Φ t
S = αI + βΦ Φ
−1
N N
N N
⊤
N
−1 ⊤
27
逐次ベイズ学習の例
1次元の入力変数xと1次元の目標変数を考え、次式の線形モデルを
用いる
y(x, w) = w + w x
関数 f(x, a) = a + a x とする(a = 0.3,a = 0.5)
目標値 t は 一様分布 U(x∣ − 1, 1) から選ばれた x を
f(x , a) を評価し、標準偏差 0.2 のガウスノイズを加える
0 1
0 1 0 1
n n
n
28
逐次ベイズ学習の例(データ数0, 1)
1行目:どのデータ点も観測される前の状況
2行目:1個のデータ点を観測した後の状況
例に挙げられる線形関数は、1個のデータ点でデータ空間を定義す
ることはできない
29
逐次ベイズ学習の例(データ数2, 20)
1行目:2個のデータ点を観測した後の状況
2行目:20個のデータ点を観測した後の状況
2個のデータ点でこの線形関数を表現する十分なモデルとなる
訓練データ点数を無限に増加させると、事後分布は白十字で
示した真のパラメータを中心とするデルタ関数に収束
30
3.3.2 予測分布
パラメータ wの値ではなく、新しい入力データxの値に対する目
標変数tを予測する分布
p(t∣t, α, β) = p(t∣w, β)p(w∣t, α, β)dw
= N(t∣m ϕ(x), σ (x))
ただし、
σ (x) = + ϕ(x) S ϕ(x)
右辺第一項:データに含まれるノイズ
右辺第二項:パラメータ w に関する不確かさ
∫
N
⊤
N
2
N
2
β
1 ⊤
N
31
予測分布の例(三角関数)
ガウス関数9個から成り立つモデル
灰色で塗られた領域は、平均 ± 標準偏差の範囲を示す
局所的な基底関数を用いると、予測分散における第二項の寄
与が小さくなるため、基底関数の中心から遠く離れた領域の
推定信頼性が非常に高くなる
32
3.3.3 等価カーネル
線形基底関数モデルのパラメータ w を最適化したモデルを導出す
ることを考える
y(x, w) =w ϕ(x)
w =m =S (S m + βΦ t)
上二式から、式導出
y(x,m ) =m ϕ(x) = βϕ(x) S ϕ(x )t = k(x,x )t
ここで、等価カーネル k(x,x ) を次式で定義する
k(x,x ) = βϕ(x) S ϕ(x )
⊤
MAP N N 0
−1
0
⊤
N N
⊤ ⊤
N n n n n
′
′ ⊤
N
′
33
ガウス基底関数に対する等価カーネル
ガウス基底関数に対する等価カーネル k(x, x )
右図の横軸は x 、縦軸は x に対応する
(−1, 1)の区間の等間隔の200点の x の値からなるデータ集合
に基づく
′
′
34
等価カーネルの役目
y(x) と y(x ) の共分散を導出(確率分布 p は共分散の計算時に
使用)
p(w∣t) = N(w∣m ,S )
k(x,x ) = βϕ(x) S ϕ(x )
上二式から、
cov y(x), y(x ) = cov[ϕ(x) w,w ϕ(x )] = ϕ(x) S ϕ(x )
= β k(x,x )
⇒ 近傍点での予測平均は互いに強い相関を持ち、より離れた点の
組では相関は小さくなる
′
N N
′ ⊤
N
′
[ ′
] ⊤ ⊤ ′ ⊤
N
′
−1 ′
35
3.4 ベイズモデル比較
モデルパラメータの値を周辺化することで過学習を回避
訓練データだけを使って直接比較可能であるため、交差確認
を回避可能
モデルの複雑さを決めるパラメータを複数導入し、値を同時
に決めることが可能
36
モデルエビデンスとは
モデルの尤もらしさを示す値(手元にあるデータ集合 D が生成さ
れる確率)
p(D∣M ) = p(D∣w,M )p(w∣M )i ∫ i i
37
ベイズモデル比較のための仮定
以下4つを仮定する
L 個のモデル M (i = 1, ⋯ , L) は観測されたデータ D
上の確率分布
分布 p は目標ベクトルtの集合上に定義される
入力値集合 X は既知
データ D はこれらのモデルのどれかに従って生成される
{ i}
38
モデルエビデンスの近似
事後分布が最頻値w の近傍で鋭く尖っているとき、全体の積
分は幅 Δw と最大値の積で近似可能
MAP
post
39
パラメータが一つのみのモデル
パラメータwに関する積分の単純近似によりモデルエビデンスを
解釈する
p(D) = p(D∣w)p(w)dw ⋍ p(D∣w )
対数をとる
ln p(D) ⋍ ln p(D∣w ) + ln
第一項:一番尤もらしいパラメータ値によるデータへのフィ
ッティングの度合い
第二項:モデルの複雑さに基づくペナルティ
∫ MAP
Δwpre
Δwpost
MAP
Δwpre
Δwpost
40
パラメータが複数あるモデル
全てのパラメータが同じΔw /Δw を持つとする
ln p(D) ⋍ ln p(D∣w ) + M ln
モデルの適応パラメータMが増加することに比例し、複雑な
モデルに対するペナルティが増加
post pre
MAP
Δwpre
Δwpost
41
3.5 エビデンス近似
保留
42
3.5.1 エビデンス関数の評価
保留
43
3.5.2 エビデンス関数の最大化
保留
44
3.5.3 有効パラメータ数
保留
45
3.6 固定された基底関数の限界
保留
46

[PRML] パターン認識と機械学習(第3章:線形回帰モデル)