More Related Content
Similar to PRML 3.5.2, 3.5.3, 3.6
Similar to PRML 3.5.2, 3.5.3, 3.6 (13)
PRML 3.5.2, 3.5.3, 3.6
- 3. 3.5.2 エビデンス関数の最大化
(1/6)
• エビデンス関数 P(t|α, β) を最大化するαを求め
る
• α: 事前分布の精度パラメータ
• β: ガウスノイズの精度パラメータ
• t: 訓練データの目標値からなるベクトル (3.86)
: 正則化最小二乗和誤差関数 (3.79)
: 事後分布の平均 (3.84)
:E(w)のヘッセ行列 (3.81)
• Φ: 計画行列
- 4. 3.5.2 エビデンス関数の最大化
(2/6)
• エビデンス関数 P(t|α, β) を最大化するαを求
める
(3.86)
下線: αに関連する項
(3.79)
(3.84)
(3.81)
を求めた後 P(t|α, β)を最大化する
- 5. 3.5.2 エビデンス関数の最大化
(3/6)
• を求める
(3.81)
– βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
を持ち、(3.87)が成立する
(3.87)
• Aは固有値α + λ_i を持つ
- 7. 3.5.2 エビデンス関数の最大化
(5/6)
をαで微分
(3.89)
m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの?
(3.90)
(3.91)
(3.92)
• γはαの関数, m_Nは陰にαに依存
• 繰り返し法で求める
– M_N, γを求め, αを再推定。これを繰り返す
• γの解釈は3.5.3節で
- 8. 3.5.2 エビデンス関数の最大化
(6/6)
• を求める
(3.87)
• (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β
= γ /β (3.93)
(3.95)
• βも繰り返し法で解を求める
• βの解釈も3.5.3節で
- 10. 3.5.3 有効パラメータ数
(1/7)
• γの解釈について考える
• そもそもλ_iってなんぞや
– βΦ^TΦの固有値
– βΦ^TΦ: – ln p(t|w) のヘッセ行列
– 尤度関数のu_iに対応する軸に対
する曲率 <= ???
図3.15
赤:尤度関数の等高線
緑: 事前分布の等高線
u_iとw_iが重なるように
座標変換済み
図では, λ_1 < α < λ_2を想定
- 11. 3.5.3 有効パラメータ数
(2/7)
• γの解釈について考える
• wML_iが鋭く尖っている場合
– λ_i / (α + λ_i) -> 1 (ex. i=2)
– wMAP_iがwML_iに近い
– 値がデータによって強く制
約される
= well-determinedパラメータ
• wML_iがなだらか 図3.15
– λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線
– wMAP_iがwML_iから遠い 緑: 事前分布の等高線
• γ = well-determinedパラメー u_iとw_iが重なるように
タの有効数 座標変換済み
図では, λ_1 < α < λ_2を想定
- 12. 3.5.3 有効パラメータ数
(3/7)
• βの解釈
• 不定推定量に酷似
– 最尤推定値:
(3.96)
– 不偏推定量:
(3.97)
– β
(3.95)
• 不偏推定量は自由度の一つを平均フィッティングと最尤推定
用のバイアスを取り除くのに用いている。
• βを同様の考え方で解釈してみよう…
- 13. 3.5.3 有効パラメータ数
(4/7)
• 最尤推定によりβを推定(3.1.1節)
– 事前分布を導入していない
(3.21)
• γ個のパラメータが有効, 残りが無効
• 有効パラメータ:
データにより決定される
• 有効パラメータでない:
データによらず事前分布により小さい値に設定される
• パラメータの決定のために自由度γを使用 => 自由度N-γ
• m_N = w_MAP
(3.95)
- 14. 3.5.3 有効パラメータ数
(5/7)
• 三角関数の例(1.1節)を9個の基底関数から
なるガウス規定関すモデルによって近似
• M=10 ln 尤度関数
• β=11.1 2αE_w(m_N)
テスト集合に対する誤差
= α m_N *m_N
• αの決定
γ
図3.16
- 15. 3.5.3 有効パラメータ数
(6/7)
• 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
化を見る
– α -> ∞
=> γ -> 0
=> w_i -> 0
– α -> 0
=> γ -> M
=> w_iは大きくなる
図 3.17
- 16. 3.5.3 有効パラメータ数
(7/7)
• N >> M
=> 尤度関数があらゆるパラメータで鋭く
尖る
=> λ_i が大きい
=> 全てのパラメータがwell-determined
=> γ = M
γ = Mを代入
(3.98)
(3.99)
- 17. 3.6 固定された基底関数の限界
• 線形モデルの致命的な欠点がいくつか
– 次元の呪い(1.4節)
• 次元数が増える => 基底関数は指数的に増える
– D次元のM次の多項式での係数の数は: D^M
• 軽減するために役立つ2つの性質
– 本質的な次元数が入力空間の次元数よりも小さい
» 局所的な基底関数を用いる(12章)
• RBFネットワーク, SVM, RVMでも用いられる
• ニューラルネットワークでは基底関数をデータ多
様体に対応するようにパラメータを調整
– 目標変数がほんの尐数の可能な方向にしか強く依存しない
» ニューラルネットワークでもこの性質を活用