PRML 3.1 – 3.2
M2 Arata Honda
Mathematical Informatics Lab, NAIST
Nov, 2th ,2016 1
3章 : 線形回帰モデル
回帰問題の復習
与えられたD次元の入力(input)変数のベクトルxの
値から, 1つ or 複数の目標(target)変数tを予測
線形回帰モデル
 パラメータに関しての線形結合で表現
2
3.1 : 線形基底関数モデル
まずは簡単なモデルから
入力変数 :
パラメータ :
特徴 : 入力変数, パラメータともに線形
表現能力が制限される→入力変数に基底関数を導入
↑みたいな感じに入力を非線形に変換する 3
基底関数の導入
入力に関して基底関数 を導入
バイアスパラメータ をまとめる
 函数, 基底関数 : 非線形
 パラメータ : 線形
4
基底関数の例(どんな時に何を使うかは不明)
たくさんあるよ
その他 : スプライン函数で入力空間を区切る
フーリエ基底やウェーブレットも 5
3.1.1 最尤推定と最小二乗法
最小二乗法と最尤推定の関係性について議論
目的変数t が以下で与えられる
不確実に(確率的に)書く
6
1.2.5にて設定している
尤度関数は?
入力 と目標変数
7
尤度関数(データ点が上式で独立に生成されてると仮定)
※以後 と表記する
尤度関数に対数をとる(対数尤度)の例
例
8
本題の対数尤度は?
9
但し
 線形ガウスモデルの条件下
尤度最大化 = 二乗誤差最小化は等価
最尤推定(対数尤度の微分)
10
パラメータwについて微分
上式=0とおき, “w=“ の形にする
最尤推定(結果)
行列の式に変換
:正規方程式
:計画行列
11
疑似逆行列
最尤推定(バイアスパラメータの微分)
12
パラメータw_0について微分
まずはw_0を出す. ↓のように
w_0について解く
最尤推定(バイアスパラメータの微分)
13
パラメータw_0についての解釈
補足 : バイアスパラメータの役割
14
図にするとこんな感じ?
赤 : w_0がある線形回帰
緑 : w_0がない線形回帰
切片がない→原点から
直感的に、モデルの表現の自由度に関わってくることが分かる
w_0
3.1.2 最小二乗法の幾何学
最小二乗法の幾何学的解釈について議論
目的変数t と先ほどの計画行列
15
N=3, M=2の時
16
t
φ_1
φ_2
画力なくてごめんね
2つの三次元ベクトルφ_1とφ_2により, 二次元平面Sが張られる
S
yの定義
17
n番目の要素が で与えられるN次元ベクトルy
yはφの線形結合. 二乗誤差はyとtのユークリッド距離を表す
もしもの補足
18yはφの線形結合.
つまり最小二乗ってどゆことなの?
19
最小二乗解からの出力 を とおくと
つまり, 最小二乗解はyとtが一番近くなる正射影を意味する
^
高校数学の時に実はやっている
20
3.1.5 出力が多次元の場合
21
まったく同じンゴ
3.1.3 逐次学習
22
はバッチ手法と呼ばれる
訓練データ集合を全部使うので時間かかる…
確率的勾配法(Stochastic Gradient Decent)
※別名LMSアルゴリズム
3.1.4 正則化最小二乗法に入る前に
23
1章にて多項式フィッティングの過学習が紹介
訓練データにすべ
て対応してるが真
の函数(緑線)は捉
えられてない
3.1.4 正則化最小二乗法には入る前に
24
パラメータの次数が大きくなるのを防ぐ
→罰則項をつける(正則化)
罰則項
こんな感じや
3.1.4 正則化最小二乗法
正則化について議論
二乗誤差 に正則化項 を加える
25
誤差関数
誤差関数を展開してwで微分
展開
wについて微分 (行列の微分はmatrix cookbookで)
上=0を解く
26
実は疑似逆行列のランク補正している
非正規行列なので、逆行列が計算できない可能性がある
正則化で計算できるよう補正しているのだ 27
疑似逆行列
より一般的な正則化項
一般的な正則化項の式
28
lasso ridge
Lasso : Least absolute shrinkage and selection operator
lassoは, スパース(疎)な解が得られるという話がある
スパースで何がうれしいのか?
毎回この図でてくるけど何なん? 29
lassoridge
そろそろ理解したいぜ
(M=2の時の図らしい)
青線 : 正則化されていない誤差関数の等高線
赤線で囲まれた領域 : 正則化項の制約条件を満たす領域
30
lassoridge 青と赤が満たすのが誤差最小化条件
ridge :
lasso :
条件が減る = 次元が減る
→特徴量も減る(変数選択)
→モデル推定と変数選択を一括
3.2 バイアス・バリアンス分解に入る前に
31
ある同時確率p(x, t)が推定できた時,
それをもとに何らかの行動を起こす = 決定段階
入力xに対して目標値tの値に対する推定値y(x)
を決定した際, その損失を とおく.
期待損失は
期待損失が小さくなるy(x)についてみていく.
変分法
32
函数を引数にとる函数のことを汎函数と呼ぶ
汎函数の最小(大)値をとる函数を見つけたい
函数で汎函数を微分 = 0を解く(変分法).
オイラー・ラグランジュの方程式を使うと解ける
:汎函数
※ が出てこない場合, 方程式は となる
期待損失に変分法をかます①
33
期待損失関数 を二乗損失とおき定義
を の汎函数とみなし変分法をかます
であり, オイラー方程式は
期待損失に変分法をかます②
34
両辺をxで微分する(y(x)はxの関数だが定数とみなす)
期待損失に変分法をかます③
35
期待損失が最小値を与える関数y(x)はxが与えられたもと
でのtの条件付き期待値である.
もうちょい期待損失をいじる
36
損失関数(二乗誤差)をいじる
期待損失の式に代入し, 積分する
同じやつ
念のため
37
期待損失(二乗誤差)の解釈
38
 第一項はy(x)に依存するので期待損失を最小にしたかった
ら, この項が最小になるようなy(x)を求める(y(x)=E[t|x])
 第二項はy(x)とは関係ないので, データに含まれる本質的
なノイズのみに依存
定数項か,yに影響しない項yに関係する項
もっと分解しようぜ
39
第一項をより注意深く見る
実際は有限個のデータDしか与えられない
データDによりy(x; D)が決まるとする(h(x) = )
青枠の二乗項はいかに書き直せる
分解し、期待値をとる
(バイアス・バリアンス分解)
40
データDについて期待値をとる
バイアス・バリアンス・ノイズ
41
bias : yによる予測の平均と理想的予測の差(の期待値)
variance : yによる予測のデータ依存の分散
noise : 理想的予測と観測値の差の平均
バイアス・バリアンスのトレードオフ
42
柔軟性の高い複雑なモデル→バイアス小, バリアンス大
柔軟性の低い単純なモデル→バイアス大, バリアンス小
バイアス・バリアンスのデメリット
43
データの取り方に関して平均をとり導出
1組のデータ集合しかなかったらあてにならない
次は頻度主義ではなくベイズ的に線形基底モデルを
扱う流れ(3.3節)
これまでの話(前回までの線形回帰モデル)
最尤法を用いて線形回帰モデルについて議論
様々な基底関数があり、適切に選択
”モデルの複雑さ”を適切に決めるべき
正則化でモデルの複雑さの調節
単純に尤度関数が最大になるパラメータを選んでは×
独立なテストデータをとっておいても計算量が…
44
3.3 : ベイズ線形回帰
 線形回帰モデルをベイズ的に取り扱う
過学習の回避
訓練データだけからモデルの複雑さを自動決定
45
3.3.1 : パラメータの分布
 パラメータの事前確率分布を導入
 を既知とする
尤度関数 の指数部分はwの二次関数の指数
ここでパラメータの事前分布 をガウス分布で設定
※ちなみにこの事前分布は共益事前分布と呼ぶ
46
再記述
β=1/分散
尤度関数
事後確率の計算
 事後分布∝事前分布×尤度関数
47
モードは?~MAP推定
 事後分布もガウスなので確率が一番高いところ(モード)
= 期待値m_N
事後確率を最大にするw_MAP = m_N
48
事後確率最大を求める
無限に広い事前分布をとると?
が無限に広い(α->0)(※分布の広さ=分散)
最尤推定値と一致するやん
→最尤推定=無情報事前分布によるベイズ推定
N=0なら事前分布=事後分布
49
0 0
今後のアノテーション(記述)&
事後分布の対数
wの事前分布を単一のパラメータで次のように書く
事後分布の対数 = 対数尤度+事前分布
最大化する→二乗和誤差と二次の正規化項の和を最小化
50
再記述
逐次的更新
51
目標函数
パラメータは固定
内容 : データを観測するごとに
現在の事後分布→次の時点の事後分布と逐次更新
尤度関数が変わって,事後分布も変化する
データ観測前(N=0)
52
事前分布 = 事後分布なのでガウス的にランダムに
パラメータが選ばれる
事前分
持って
決まる
れる)
データ観測前(N=1)
53
観測点から尤度関数が決まり事後分布の更新
観測点に近くなるような直線に変わっている
観測点
尤度関数
4番のスライドの右の
式にぶちこむ
データ観測前(N=2)
54
2点の観測点から直線がわかってしまう
事後分布が狭くなっているのがわかる
+=分布
の中心
データ観測前(N=20)
55
直線も傾きがほとんど一緒に
事後分布は真のパラメータに収束
もっと近くで
56
3.3.2予測分布
57
 パラメータwを推定することで間接的にtを推定
 直接tを予測したい→予測分布の導入
 左辺にインテグラルをとる
要約:wが入らなくなって
ハッピー
3.3.2予測分布
58
 予測分布の変形
 代入して計算
予測分布 平均:パラメータ平均×基底関数
分散:
α,βは略されてる,wの事後分布
式3.8 tが得られる確率
赤青掛け合わせてtの予測分布
予測分布の分布を見てみる
59
次の関係が成り立つ
Nが十分に大きい(N->∞)の時は第二項は0になる.
(ノイズ)+(パラメータの不確かさ)
ほんまかいなっていう人へ
60
演習問題3.8から
正弦波の回帰
61
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
62
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
63
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
64
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
3.3.3 等価カーネル(ほぼおまけ)
65
 パラメータwに平均解m_Nをぶっこむ
 この関数を等価カーネル(平滑化行列)とよぶ
カーネルってなにがうれしいの?
66
 データとデータが似ている = 近いということはどういう
ことか具体的に決めることができる.
 何が”等価”なのかは下式が示す
カーネル函数 = 基底関数に関する行列
ガウス基底関数の等価カーネルの場合
67
他の基底関数の等価カーネルの場合
68
函数の共分散と等価カーネル
69
 近傍の予測平均同士の共分散の値 = 大きい
 離れた予測平均同士の共分散の値 = 小さい
そのほか
(6章でじっくりやるからいらぬ)
70

Prml 3 3.3