SlideShare a Scribd company logo
PRML
3.5.2, 3.5.3, 3.6
    2012/8/5
    @tomity
3.5.2 エビデンス関数の最大化
• 概要
 – エビデンス関数 P(t|α, β) を最大化するαを求め
   る
 – エビデンス関数 P(t|α, β) を最大化するβを求め
   る
3.5.2 エビデンス関数の最大化
           (1/6)
• エビデンス関数 P(t|α, β) を最大化するαを求め
  る
   • α: 事前分布の精度パラメータ
   • β: ガウスノイズの精度パラメータ
   • t: 訓練データの目標値からなるベクトル              (3.86)

                      : 正則化最小二乗和誤差関数   (3.79)

               : 事後分布の平均               (3.84)

               :E(w)のヘッセ行列             (3.81)




   • Φ: 計画行列
3.5.2 エビデンス関数の最大化
           (2/6)
• エビデンス関数 P(t|α, β) を最大化するαを求
  める
                                      (3.86)

                                 下線: αに関連する項


                                      (3.79)
                                      (3.84)
                                      (3.81)



         を求めた後 P(t|α, β)を最大化する
3.5.2 エビデンス関数の最大化
             (3/6)
•        を求める
                                      (3.81)

    – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i
      を持ち、(3.87)が成立する
                                      (3.87)




      • Aは固有値α + λ_i を持つ
3.5.2 エビデンス関数の最大化
           (4/6)
• Aは固有値λ_i+αを持つ



           より



       ,        より



                     (3.88)
3.5.2 エビデンス関数の最大化
              (5/6)
                                      をαで微分

                                       (3.89)

      m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの?

                                       (3.90)

                                       (3.91)

                                       (3.92)

•   γはαの関数, m_Nは陰にαに依存
•   繰り返し法で求める
    – M_N, γを求め, αを再推定。これを繰り返す
•   γの解釈は3.5.3節で
3.5.2 エビデンス関数の最大化
             (6/6)
•           を求める
                                                    (3.87)

• (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β


                                        = γ /β      (3.93)


                                                    (3.95)

• βも繰り返し法で解を求める
• βの解釈も3.5.3節で
3.5.3 有効パラメータ数
• 概要
 – γの解釈
 – βの解釈
 – 実例を用いてγ, α, w_iの関係を確認する
 – N >> M のケースについて
3.5.3 有効パラメータ数
                 (1/7)
• γの解釈について考える



• そもそもλ_iってなんぞや
  – βΦ^TΦの固有値
  – βΦ^TΦ: – ln p(t|w) のヘッセ行列
  – 尤度関数のu_iに対応する軸に対
    する曲率 <= ???


                                図3.15
                                    赤:尤度関数の等高線
                                    緑: 事前分布の等高線
                                    u_iとw_iが重なるように
                                    座標変換済み
                                    図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
                     (2/7)
• γの解釈について考える



•   wML_iが鋭く尖っている場合
    – λ_i / (α + λ_i) -> 1 (ex. i=2)
    – wMAP_iがwML_iに近い
    – 値がデータによって強く制
      約される
      = well-determinedパラメータ
• wML_iがなだらか                           図3.15
    – λ_i / (α + λ_i) -> 0 (ex. i=1)       赤:尤度関数の等高線
    – wMAP_iがwML_iから遠い                     緑: 事前分布の等高線
• γ = well-determinedパラメー                  u_iとw_iが重なるように
  タの有効数                                    座標変換済み
                                           図では, λ_1 < α < λ_2を想定
3.5.3 有効パラメータ数
               (3/7)
• βの解釈
• 不定推定量に酷似
 – 最尤推定値:
                          (3.96)

 – 不偏推定量:
                          (3.97)

 – β
                          (3.95)

• 不偏推定量は自由度の一つを平均フィッティングと最尤推定
  用のバイアスを取り除くのに用いている。
• βを同様の考え方で解釈してみよう…
3.5.3 有効パラメータ数
             (4/7)
• 最尤推定によりβを推定(3.1.1節)
 – 事前分布を導入していない

                                   (3.21)

• γ個のパラメータが有効, 残りが無効
 • 有効パラメータ:
     データにより決定される
 • 有効パラメータでない:
     データによらず事前分布により小さい値に設定される
 • パラメータの決定のために自由度γを使用 => 自由度N-γ
 • m_N = w_MAP
                                   (3.95)
3.5.3 有効パラメータ数
               (5/7)
• 三角関数の例(1.1節)を9個の基底関数から
  なるガウス規定関すモデルによって近似
• M=10                  ln 尤度関数
• β=11.1   2αE_w(m_N)
                              テスト集合に対する誤差
           = α m_N *m_N
• αの決定
           γ




          図3.16
3.5.3 有効パラメータ数
             (6/7)
• 0<= α <= ∞の範囲で変化させ γ, w_i, αの変
  化を見る
 – α -> ∞
   => γ -> 0
   => w_i -> 0
 – α -> 0
   => γ -> M
   => w_iは大きくなる

                  図 3.17
3.5.3 有効パラメータ数
             (7/7)
• N >> M
  => 尤度関数があらゆるパラメータで鋭く
  尖る
  => λ_i が大きい
  => 全てのパラメータがwell-determined
  => γ = M
 γ = Mを代入
                          (3.98)

                          (3.99)
3.6 固定された基底関数の限界
• 線形モデルの致命的な欠点がいくつか
 – 次元の呪い(1.4節)
   • 次元数が増える => 基底関数は指数的に増える
     – D次元のM次の多項式での係数の数は: D^M
   • 軽減するために役立つ2つの性質
     – 本質的な次元数が入力空間の次元数よりも小さい
        » 局所的な基底関数を用いる(12章)
           • RBFネットワーク, SVM, RVMでも用いられる
           • ニューラルネットワークでは基底関数をデータ多
             様体に対応するようにパラメータを調整
     – 目標変数がほんの尐数の可能な方向にしか強く依存しない
        » ニューラルネットワークでもこの性質を活用

More Related Content

What's hot

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
matsuolab
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6Hiroyuki Kato
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
matsuolab
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
matsuolab
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
Sotetsu KOYAMADA(小山田創哲)
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
matsuolab
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
Akira Miyazawa
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
Junpei Tsuji
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
matsuolab
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
正志 坪坂
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
Akihiro Nitta
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
matsuolab
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
Toshihiko Iio
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
takutori
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
Masahito Ohue
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
matsuolab
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
sleepy_yoshi
 

What's hot (20)

Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
PRML上巻勉強会 at 東京大学 資料 第2章2.3.3 〜 2.3.6
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
Prml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティングPrml 最尤推定からベイズ曲線フィッティング
Prml 最尤推定からベイズ曲線フィッティング
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 

Similar to PRML 3.5.2, 3.5.3, 3.6

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)
Lintaro Ina
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
wada, kazumi
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
Toshiyuki Shimono
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
Naoya Nakamura
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
Shoichi Taguchi
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
Masahiro Suzuki
 
Sized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルSized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアル
Akinori Abe
 
Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ 
Yuta Koga
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
 
Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料
Yuya Takashina
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
Miki Katsuragi
 

Similar to PRML 3.5.2, 3.5.3, 3.6 (13)

パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)論理と計算のしくみ 5.3 型付きλ計算 (前半)
論理と計算のしくみ 5.3 型付きλ計算 (前半)
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
PRML10-draft1002
PRML10-draft1002PRML10-draft1002
PRML10-draft1002
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
Sized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアルSized Linear Algebra Package のチュートリアル
Sized Linear Algebra Package のチュートリアル
 
Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ Coursera Machine Learning Week2まとめ 
Coursera Machine Learning Week2まとめ 
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
 
Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料Model building in mathematical programming #2-3 輪読資料
Model building in mathematical programming #2-3 輪読資料
 
Pad入門その3
Pad入門その3Pad入門その3
Pad入門その3
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 

PRML 3.5.2, 3.5.3, 3.6

  • 1. PRML 3.5.2, 3.5.3, 3.6 2012/8/5 @tomity
  • 2. 3.5.2 エビデンス関数の最大化 • 概要 – エビデンス関数 P(t|α, β) を最大化するαを求め る – エビデンス関数 P(t|α, β) を最大化するβを求め る
  • 3. 3.5.2 エビデンス関数の最大化 (1/6) • エビデンス関数 P(t|α, β) を最大化するαを求め る • α: 事前分布の精度パラメータ • β: ガウスノイズの精度パラメータ • t: 訓練データの目標値からなるベクトル (3.86) : 正則化最小二乗和誤差関数 (3.79) : 事後分布の平均 (3.84) :E(w)のヘッセ行列 (3.81) • Φ: 計画行列
  • 4. 3.5.2 エビデンス関数の最大化 (2/6) • エビデンス関数 P(t|α, β) を最大化するαを求 める (3.86) 下線: αに関連する項 (3.79) (3.84) (3.81) を求めた後 P(t|α, β)を最大化する
  • 5. 3.5.2 エビデンス関数の最大化 (3/6) • を求める (3.81) – βΦ^TΦは固有値λ_i (> 0), 固有ベクトルu_i を持ち、(3.87)が成立する (3.87) • Aは固有値α + λ_i を持つ
  • 6. 3.5.2 エビデンス関数の最大化 (4/6) • Aは固有値λ_i+αを持つ より , より (3.88)
  • 7. 3.5.2 エビデンス関数の最大化 (5/6) をαで微分 (3.89) m_Nをαに依存しないと考えた上でln p(t|α, β)を微分してるけど、いいの? (3.90) (3.91) (3.92) • γはαの関数, m_Nは陰にαに依存 • 繰り返し法で求める – M_N, γを求め, αを再推定。これを繰り返す • γの解釈は3.5.3節で
  • 8. 3.5.2 エビデンス関数の最大化 (6/6) • を求める (3.87) • (3.87)よりβとλ_iが比例 <=> β = k λ_i <=> dλ_i/dβ = 1/k = λ_i/β = γ /β (3.93) (3.95) • βも繰り返し法で解を求める • βの解釈も3.5.3節で
  • 9. 3.5.3 有効パラメータ数 • 概要 – γの解釈 – βの解釈 – 実例を用いてγ, α, w_iの関係を確認する – N >> M のケースについて
  • 10. 3.5.3 有効パラメータ数 (1/7) • γの解釈について考える • そもそもλ_iってなんぞや – βΦ^TΦの固有値 – βΦ^TΦ: – ln p(t|w) のヘッセ行列 – 尤度関数のu_iに対応する軸に対 する曲率 <= ??? 図3.15 赤:尤度関数の等高線 緑: 事前分布の等高線 u_iとw_iが重なるように 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 11. 3.5.3 有効パラメータ数 (2/7) • γの解釈について考える • wML_iが鋭く尖っている場合 – λ_i / (α + λ_i) -> 1 (ex. i=2) – wMAP_iがwML_iに近い – 値がデータによって強く制 約される = well-determinedパラメータ • wML_iがなだらか 図3.15 – λ_i / (α + λ_i) -> 0 (ex. i=1) 赤:尤度関数の等高線 – wMAP_iがwML_iから遠い 緑: 事前分布の等高線 • γ = well-determinedパラメー u_iとw_iが重なるように タの有効数 座標変換済み 図では, λ_1 < α < λ_2を想定
  • 12. 3.5.3 有効パラメータ数 (3/7) • βの解釈 • 不定推定量に酷似 – 最尤推定値: (3.96) – 不偏推定量: (3.97) – β (3.95) • 不偏推定量は自由度の一つを平均フィッティングと最尤推定 用のバイアスを取り除くのに用いている。 • βを同様の考え方で解釈してみよう…
  • 13. 3.5.3 有効パラメータ数 (4/7) • 最尤推定によりβを推定(3.1.1節) – 事前分布を導入していない (3.21) • γ個のパラメータが有効, 残りが無効 • 有効パラメータ: データにより決定される • 有効パラメータでない: データによらず事前分布により小さい値に設定される • パラメータの決定のために自由度γを使用 => 自由度N-γ • m_N = w_MAP (3.95)
  • 14. 3.5.3 有効パラメータ数 (5/7) • 三角関数の例(1.1節)を9個の基底関数から なるガウス規定関すモデルによって近似 • M=10 ln 尤度関数 • β=11.1 2αE_w(m_N) テスト集合に対する誤差 = α m_N *m_N • αの決定 γ 図3.16
  • 15. 3.5.3 有効パラメータ数 (6/7) • 0<= α <= ∞の範囲で変化させ γ, w_i, αの変 化を見る – α -> ∞ => γ -> 0 => w_i -> 0 – α -> 0 => γ -> M => w_iは大きくなる 図 3.17
  • 16. 3.5.3 有効パラメータ数 (7/7) • N >> M => 尤度関数があらゆるパラメータで鋭く 尖る => λ_i が大きい => 全てのパラメータがwell-determined => γ = M γ = Mを代入 (3.98) (3.99)
  • 17. 3.6 固定された基底関数の限界 • 線形モデルの致命的な欠点がいくつか – 次元の呪い(1.4節) • 次元数が増える => 基底関数は指数的に増える – D次元のM次の多項式での係数の数は: D^M • 軽減するために役立つ2つの性質 – 本質的な次元数が入力空間の次元数よりも小さい » 局所的な基底関数を用いる(12章) • RBFネットワーク, SVM, RVMでも用いられる • ニューラルネットワークでは基底関数をデータ多 様体に対応するようにパラメータを調整 – 目標変数がほんの尐数の可能な方向にしか強く依存しない » ニューラルネットワークでもこの性質を活用