PRML 3.5.2, 3.5.3, 3.6

PRML
3.5.2, 3.5.3, 3.6
2012/8/5
@tomity

3.5.2 エビデンス関数の最大化
• 概要
– エビデンス関数 P(t|α, β) を最大化するαを求め
る
– エビデンス関数 P(t|α, β) を最大化するβを求め
る

(1/6)
• エビデンス関数 P(t|α, β) を最大化するαを求め
る
• α: 事前分布の精度パラメータ
• β: ガウスノイズの精度パラメータ
• t：訓練データの目標値からなるベクトル (3.86)

: 正則化最小二乗和誤差関数 (3.79)

: 事後分布の平均 (3.84)

：E(w)のヘッセ行列 (3.81)

• Φ: 計画行列

(2/6)
• エビデンス関数 P(t|α, β) を最大化するαを求
める
(3.86)

下線: αに関連する項

(3.79)
(3.84)
(3.81)

を求めた後 P(t|α, β)を最大化する

(3/6)
• を求める
(3.81)

– βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
を持ち、(3.87)が成立する
(3.87)

• Aは固有値α + λ_i を持つ

(4/6)
• Aは固有値λ_i+αを持つ

より

, より

(3.88)

(5/6)
をαで微分

(3.89)

m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの？

(3.90)

(3.91)

(3.92)

• γはαの関数, m_Nは陰にαに依存
• 繰り返し法で求める
– M_N, γを求め, αを再推定。これを繰り返す
• γの解釈は3.5.3節で

(6/6)
• を求める
(3.87)

• (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β

= γ /β (3.93)

(3.95)

• βも繰り返し法で解を求める
• βの解釈も3.5.3節で

3.5.3 有効パラメータ数
• 概要
– γの解釈
– βの解釈
– 実例を用いてγ, α, w_iの関係を確認する
– N >> M のケースについて

(1/7)
• γの解釈について考える

• そもそもλ_iってなんぞや
– βΦ^TΦの固有値
– βΦ^TΦ: – ln p(t|w) のヘッセ行列
– 尤度関数のu_iに対応する軸に対
する曲率 <= ？？？

図3.15
赤:尤度関数の等高線
緑: 事前分布の等高線
u_iとw_iが重なるように
座標変換済み
図では, λ_1 < α < λ_2を想定

(2/7)
• γの解釈について考える

• wML_iが鋭く尖っている場合
– λ_i / (α + λ_i) -> 1 (ex. i=2)
– wMAP_iがwML_iに近い
– 値がデータによって強く制
約される
= well-determinedパラメータ
• wML_iがなだらか図3.15
– λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線
– ｗMAP_iがwML_iから遠い緑: 事前分布の等高線
• γ = well-determinedパラメー u_iとw_iが重なるように
タの有効数座標変換済み
図では, λ_1 < α < λ_2を想定

(3/7)
• βの解釈
• 不定推定量に酷似
– 最尤推定値:
(3.96)

– 不偏推定量:
(3.97)

– β
(3.95)

• 不偏推定量は自由度の一つを平均フィッティングと最尤推定
用のバイアスを取り除くのに用いている。
• βを同様の考え方で解釈してみよう…

(4/7)
• 最尤推定によりβを推定(3.1.1節)
– 事前分布を導入していない

(3.21)

• γ個のパラメータが有効, 残りが無効
• 有効パラメータ:
データにより決定される
• 有効パラメータでない:
データによらず事前分布により小さい値に設定される
• パラメータの決定のために自由度γを使用 => 自由度N-γ
• m_N = w_MAP
(3.95)

(5/7)
• 三角関数の例(1.1節)を9個の基底関数から
なるガウス規定関すモデルによって近似
• M=10 ln 尤度関数
• β=11.1 2αE_w(m_N)
テスト集合に対する誤差
= α m_N *m_N
• αの決定
γ

図3.16

(6/7)
• 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
化を見る
– α -> ∞
=> γ -> 0
=> w_i -> 0
– α -> 0
=> γ -> M
=> w_iは大きくなる

図 3.17

(7/7)
• N >> M
=> 尤度関数があらゆるパラメータで鋭く
尖る
=> λ_i が大きい
=> 全てのパラメータがwell-determined
=> γ = M
γ = Mを代入
(3.98)

(3.99)

3.6 固定された基底関数の限界
• 線形モデルの致命的な欠点がいくつか
– 次元の呪い(1.4節)
• 次元数が増える => 基底関数は指数的に増える
– D次元のM次の多項式での係数の数は: D^M
• 軽減するために役立つ2つの性質
– 本質的な次元数が入力空間の次元数よりも小さい
» 局所的な基底関数を用いる(12章)
• RBFネットワーク, SVM, RVMでも用いられる
• ニューラルネットワークでは基底関数をデータ多
様体に対応するようにパラメータを調整
– 目標変数がほんの尐数の可能な方向にしか強く依存しない
» ニューラルネットワークでもこの性質を活用

PRML 3.5.2, 3.5.3, 3.6

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML 3.5.2, 3.5.3, 3.6

Similar to PRML 3.5.2, 3.5.3, 3.6 (13)

PRML 3.5.2, 3.5.3, 3.6