SlideShare a Scribd company logo
3.4 ベイズモデル比較

        showyou(hatena, twitter:)
自己紹介
●   Twitter, hatena: showyou
●
    横浜にある電機メーカーでソフトウェアの開発
    支援をしてます
●
    大学:AI, 院:画像処理/アプリケーション
●   Python, C++, Javaは読めるけど・・
●
    Twitterでha_maとかdonsukeとかyuka_とか作ってます
1章では過学習の問題と交差確認(cross-validation)
による正則化パラメータの値の決定やモデルの選
択法について述べた
ここではベイズの立場からモデル選択の問題を考
える
●
    最尤推定に関連した過学習
    →モデルパラメータの値を点推定→周辺化することで回避
●
    モデル
    →確認データを用いることなく訓練データだけを使って直
    接比較できる
    →すべての利用可能なデータを訓練用に使うことがで
    き、交差確認による繰り返し学習を回避できる
    →モデルの複雑さを決めるパラメータを複数導入で
    き、訓練課程の一部としてそれらの値を同時に決定す
    ることも出来る
     例:関連ベクトルマシン(RVM)
               M
           pw∣=∏ N wi∣0, ii 
                    i=1
ベイズの立場からのモデル比較

モデル選択に関する不確かさを表すために確率
を用い、確率の加法・乗法定理を使う
    加法定理: p X =∑ p  X ,Y 
                      Y

   乗法定理: p X , Y = pY∣X  p  X 
条件:L個のモデル{Mi}(i=1,...L)を
           比較する場合
●
    モデルは観測されたD上の確率分布
●
    モデルのどれかに従って生成されるが、どのモデ
    ルかは分からない
    (多項式フィッティングの問題:分布は目標値tの集合上に定義,入力
    値の集合Xは既知/ Xとtの同時を定義するモデルもある)
●
    すべてのモデルの事前確率は等しい
    ( p(M0), p(M1), … p(Mi)が等しい? )
訓練集合Dが与えられたとき、モデルの事後分布
          p  M i∣D∝ p  M i  p  D∣M i −3.66
    を評価


●
    p(D|M_i) はモデルエビデンスと呼ばれ、ベイズ
    モデル比較で重要な働きをする(周辺尤度とも呼
    ばれる)


●
    p(D|Mi)/p(D|Mj)はベイズ因子と呼ばれる
●
    一旦モデルの事後分布がわかれば、確率の加法・
    乗法定理より予測分布は
                        L
            p t∣x , D=∑ pt∣x , M i , D p M i∣D−3.67
                       i=1


                             p(t|x,D)=Σp(t, Mi | x,D) 加法定理
                             =Σp(t|x, Mi, D)p(Mi|x,D) 乗法定理


これは混合分布の一種
●
    ●   全体の予測分布が,個々のモデルの予測分布
        p(t | x, Mi, D)の事後確率 p( Mi | D )に関する重み付き平
        均で得られる
例:2つのモデルの事後確率が等しく 一方はt=a近傍,
他方はt=b近傍を表す分布を予測する場合、全体の予
測分布はt = a と t = b の二箇所にモードを持つ2山の
分布
モデル選択
●
    モデル平均の単純な近似は、一番もっともらし
    いモデルを1つ選ぶ方法である
●
    これはモデル選択と呼ばれる
●
    パラメータwを持つモデルに対して、モデルエ
    ビデンスは
     p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68

                 p  D∣M i =∫ p  D , w∣M i  dw   加法定理

                         それと乗法定理
p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68
●
    標本化の観点から、周辺尤度(=モデルエビデン
    ス)はパラメータを事前分布からランダムにサ
    ンプリングされた時に、手元にあるデータ集合
    Dが生成される確率
●
    モデルエビデンスはパラメータの事後確率を計
    算するときの分母に現れる正規化定数そのもの
    つまり               p  D∣w , M i  p w∣M i 
      p w∣D , M i =                            −3.69
                             p  D∣M i 
モデルエビデンスの別の解釈
●
    パラメータが一つしかないモデル(w)を考える
●
    ベイズの定理よりパラメータに関する事後分布は
    p(D|w)p(w)に比例 (Miは省略)
●
    事後分布が最頻値(モード) wMAP の近傍で鋭く尖っ
    てるとき、その幅をΔwposteriorで表せば、全体の積
    分は幅Δwposteriorと最大値の積で近似できる
●
    さらに事前確率が平坦で幅がΔwprior( p(w) = 1/Δwprior)
    のとき
                                          w posterior
p  D=∫ p  D∣w pw dw≃ p  D∣w MAP                −3.70
                                           w prior
    対数をとると
      ln p D≃ln p D∣w MAP ln
                                   
                                   w posterior
                                    w prior   −3.71
ln p D≃ln p D∣w MAP ln
                                       
                                       w posterior
                                        w prior      
●
    第1項p(D|wmap):一番もっともらしいパラメータ
    値によるデータへのフィッティング度
    ●
        事前分布が平坦なときの対数尤度
●
    第2項:モデルの複雑さに対するペナルティ
●Δwposterior<Δwprior なので第2
項は負
●Δwposterior/Δwpriorが小さくなる

につれ第2項は小さくなる
モデルがデータに強く
●

フィットするとペナル
ティは0に近づく
●
    モデルがM個のパラメータを含むとき、それぞ
    れのパラメータに対し同様の近似が行える
●
    すべてのパラメータが同じ比Δwposterior/Δwprior
    を持つとき

     ln p D=ln p D∣w MAP M ln
                                    w prior  
                                    w posterior
                                                 −3.72

    が得られる
●
    すなわちモデルの適応パラメータ数Mが増える
    と複雑なモデルに対するペナルティが強くなる
●
    モデルの複雑さを増したとき
    ●
        第1項:モデルはデータにフィットしやすくなるた
        め増加(0に近づく)
    ●
        第2項:Mとの依存性のために減少(負)
●
    エビデンスを最大にする最適なモデルの複雑さ
    →相反する項をバランスよく小さくする
ベイズモデル比較の更なる解釈、及びなぜ周辺尤
    度最大化により中間程度の複雑さのモデルが選ば
    れるか
●
    単純なモデルM1は自由度が少なく、分布p(D)は横
    軸の狭い領域に集中する
●
    複雑なモデルM3は多様なデータを生成することが
    できp(D)は広範囲に広
    がるが、データ集合の
    どれかに割り当てられ
    る確率は小さくなる
ある集合D0に対しては中間の複雑さを持つモデル
(この場合だとM2)のエビデンスが最大になる
期待ベイズ因子
●
    ベイズモデル比較では考えてるモデル集合の中に
    データが生成される真の分布が含まれていると暗に
    仮定
    ●
        この仮定が正しければベイズモデル比較によって平均的
        に正しいモデルを示す事ができる
期待ベイズ因子
●
    2つのモデルM1, M2 (M1が正しい分布と仮定)
●
    ベイズ因子をデータ集合の分布に関して平均
    →期待ベイズ因子が得られる
    (期待値は真のデータ分布の生成に関して取得)
                         p  D∣M 1 
           ∫ p D∣M 1ln p D∣M  dD−3.73
                                 2



●
    KLの例(-とln逆にすれば(1.113))
    ●
        二つの分布が等しい時に0、それ以外は常に正
●
    平均的には常に正しいモデルのベイズ因子の方が大
●
    ベイズの枠組み:過学習を回避できると共に訓練デー
    タだけに基づいてモデル比較が行える
●
    ベイズ的なアプローチではモデルの形に関する仮定
    を置く必要
    →正しくない場合:誤った結果を導くことがある
●
    モデルエビデンスは事前分布の様々な特性に強く依存
    ●
        変則事前分布:任意のスケーリング因子を持ち正規化定
        数が定義できないためエビデンスを定義できない
    ●
        まず変則的でない通常の事前分布→適当な極限
    ●
        二つのモデルのエビデンスの比を先に考えその後極限を
        とることで意味ある値が取れることもある
●
    実際の応用場面ではテスト用独立なデータ集合を
    とっておき、それを用いて最終的なシステムの全
    体性能を評価するのが賢明

More Related Content

What's hot

PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
Masahito Ohue
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
matsuolab
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
Masanori Takano
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)
Ryosuke Sasaki
 
model selection and information criteria part 1
model selection and information criteria part 1model selection and information criteria part 1
model selection and information criteria part 1
Masafumi Enomoto
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
matsuolab
 
model selection and information criteria part 2
model selection and information criteria part 2model selection and information criteria part 2
model selection and information criteria part 2
Masafumi Enomoto
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
Hirofumi Tsuruta
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
K5_sem
 
PRMLrevenge 4.4
PRMLrevenge 4.4PRMLrevenge 4.4
PRMLrevenge 4.4
Naoya Nakamura
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
Taikai Takeda
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
Arata Honda
 
MLデザインパターン入門_Cascade
MLデザインパターン入門_CascadeMLデザインパターン入門_Cascade
MLデザインパターン入門_Cascade
Masakazu Shinoda
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
 
レポート1
レポート1レポート1
レポート1
YoshikazuHayashi3
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
Masahito Ohue
 
DecisionMaker
DecisionMakerDecisionMaker
DecisionMaker
ADVENTURE Project
 
基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき
XMLProJ2014
 

What's hot (20)

PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
PRML輪読#7
PRML輪読#7PRML輪読#7
PRML輪読#7
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)
 
model selection and information criteria part 1
model selection and information criteria part 1model selection and information criteria part 1
model selection and information criteria part 1
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
model selection and information criteria part 2
model selection and information criteria part 2model selection and information criteria part 2
model selection and information criteria part 2
 
データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章データ解析のための統計モデリング入門4章
データ解析のための統計モデリング入門4章
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Prml5 6
Prml5 6Prml5 6
Prml5 6
 
PRML8章
PRML8章PRML8章
PRML8章
 
PRMLrevenge 4.4
PRMLrevenge 4.4PRMLrevenge 4.4
PRMLrevenge 4.4
 
Prml 4.3
Prml 4.3Prml 4.3
Prml 4.3
 
Prml 3 3.3
Prml 3 3.3Prml 3 3.3
Prml 3 3.3
 
MLデザインパターン入門_Cascade
MLデザインパターン入門_CascadeMLデザインパターン入門_Cascade
MLデザインパターン入門_Cascade
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
レポート1
レポート1レポート1
レポート1
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
 
DecisionMaker
DecisionMakerDecisionMaker
DecisionMaker
 
基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき基礎構文班22回目 試験対策もどき
基礎構文班22回目 試験対策もどき
 

Similar to 3.4

PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
Masahito Ohue
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
Taku Yoshioka
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
Yuya Yoshikawa
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
Takashi Tamura
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
Ryosuke Sasaki
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
Antonio Tejero de Pablos
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
 
基本統計量について
基本統計量について基本統計量について
基本統計量について
wada, kazumi
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
HiroyukiTerada4
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Hiroshi Kajino
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
K5_sem
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
. .
 
Lasso
LassoLasso

Similar to 3.4 (13)

PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
基本統計量について
基本統計量について基本統計量について
基本統計量について
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 
Prml3 4
Prml3 4Prml3 4
Prml3 4
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
Lasso
LassoLasso
Lasso
 

More from show you

Iaas, paasと利用者
Iaas, paasと利用者Iaas, paasと利用者
Iaas, paasと利用者
show you
 
Classification of Visualize Tool
Classification of Visualize ToolClassification of Visualize Tool
Classification of Visualize Tool
show you
 
An introduction of hue
An introduction of hueAn introduction of hue
An introduction of hue
show you
 
A survey of 2013 data science salary survey”
A survey of   2013 data science salary survey”A survey of   2013 data science salary survey”
A survey of 2013 data science salary survey”
show you
 
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
show you
 
Pycon tw 2013
Pycon tw 2013Pycon tw 2013
Pycon tw 2013
show you
 
Mobageのhadoop活用環境と適用方法
Mobageのhadoop活用環境と適用方法Mobageのhadoop活用環境と適用方法
Mobageのhadoop活用環境と適用方法show you
 
aisatsu suruto tomodachiga popopoponnto hueruyo
aisatsu suruto tomodachiga popopoponnto hueruyoaisatsu suruto tomodachiga popopoponnto hueruyo
aisatsu suruto tomodachiga popopoponnto hueruyoshow you
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデルshow you
 
plot beta dist
plot beta distplot beta dist
plot beta distshow you
 
SIG-WI2 twitterにおける、人工無脳との インタラクション
SIG-WI2 twitterにおける、人工無脳との インタラクションSIG-WI2 twitterにおける、人工無脳との インタラクション
SIG-WI2 twitterにおける、人工無脳との インタラクション
show you
 

More from show you (12)

Iaas, paasと利用者
Iaas, paasと利用者Iaas, paasと利用者
Iaas, paasと利用者
 
Classification of Visualize Tool
Classification of Visualize ToolClassification of Visualize Tool
Classification of Visualize Tool
 
An introduction of hue
An introduction of hueAn introduction of hue
An introduction of hue
 
A survey of 2013 data science salary survey”
A survey of   2013 data science salary survey”A survey of   2013 data science salary survey”
A survey of 2013 data science salary survey”
 
二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて二階堂愛と二階堂藍の違いについて
二階堂愛と二階堂藍の違いについて
 
Pycon tw 2013
Pycon tw 2013Pycon tw 2013
Pycon tw 2013
 
Mobageのhadoop活用環境と適用方法
Mobageのhadoop活用環境と適用方法Mobageのhadoop活用環境と適用方法
Mobageのhadoop活用環境と適用方法
 
aisatsu suruto tomodachiga popopoponnto hueruyo
aisatsu suruto tomodachiga popopoponnto hueruyoaisatsu suruto tomodachiga popopoponnto hueruyo
aisatsu suruto tomodachiga popopoponnto hueruyo
 
Yuka
YukaYuka
Yuka
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデル
 
plot beta dist
plot beta distplot beta dist
plot beta dist
 
SIG-WI2 twitterにおける、人工無脳との インタラクション
SIG-WI2 twitterにおける、人工無脳との インタラクションSIG-WI2 twitterにおける、人工無脳との インタラクション
SIG-WI2 twitterにおける、人工無脳との インタラクション
 

3.4

  • 1. 3.4 ベイズモデル比較 showyou(hatena, twitter:)
  • 2. 自己紹介 ● Twitter, hatena: showyou ● 横浜にある電機メーカーでソフトウェアの開発 支援をしてます ● 大学:AI, 院:画像処理/アプリケーション ● Python, C++, Javaは読めるけど・・ ● Twitterでha_maとかdonsukeとかyuka_とか作ってます
  • 4. 最尤推定に関連した過学習 →モデルパラメータの値を点推定→周辺化することで回避 ● モデル →確認データを用いることなく訓練データだけを使って直 接比較できる →すべての利用可能なデータを訓練用に使うことがで き、交差確認による繰り返し学習を回避できる →モデルの複雑さを決めるパラメータを複数導入で き、訓練課程の一部としてそれらの値を同時に決定す ることも出来る 例:関連ベクトルマシン(RVM) M pw∣=∏ N wi∣0, ii  i=1
  • 5. ベイズの立場からのモデル比較 モデル選択に関する不確かさを表すために確率 を用い、確率の加法・乗法定理を使う 加法定理: p X =∑ p  X ,Y  Y 乗法定理: p X , Y = pY∣X  p  X 
  • 6. 条件:L個のモデル{Mi}(i=1,...L)を 比較する場合 ● モデルは観測されたD上の確率分布 ● モデルのどれかに従って生成されるが、どのモデ ルかは分からない (多項式フィッティングの問題:分布は目標値tの集合上に定義,入力 値の集合Xは既知/ Xとtの同時を定義するモデルもある) ● すべてのモデルの事前確率は等しい ( p(M0), p(M1), … p(Mi)が等しい? )
  • 7. 訓練集合Dが与えられたとき、モデルの事後分布 p  M i∣D∝ p  M i  p  D∣M i −3.66 を評価 ● p(D|M_i) はモデルエビデンスと呼ばれ、ベイズ モデル比較で重要な働きをする(周辺尤度とも呼 ばれる) ● p(D|Mi)/p(D|Mj)はベイズ因子と呼ばれる
  • 8. 一旦モデルの事後分布がわかれば、確率の加法・ 乗法定理より予測分布は L p t∣x , D=∑ pt∣x , M i , D p M i∣D−3.67 i=1 p(t|x,D)=Σp(t, Mi | x,D) 加法定理 =Σp(t|x, Mi, D)p(Mi|x,D) 乗法定理 これは混合分布の一種 ● ● 全体の予測分布が,個々のモデルの予測分布 p(t | x, Mi, D)の事後確率 p( Mi | D )に関する重み付き平 均で得られる
  • 10. モデル選択 ● モデル平均の単純な近似は、一番もっともらし いモデルを1つ選ぶ方法である ● これはモデル選択と呼ばれる ● パラメータwを持つモデルに対して、モデルエ ビデンスは p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68 p  D∣M i =∫ p  D , w∣M i  dw 加法定理 それと乗法定理
  • 11. p  D∣M i =∫ p D∣w , M i  p w∣M i  dw−3.68 ● 標本化の観点から、周辺尤度(=モデルエビデン ス)はパラメータを事前分布からランダムにサ ンプリングされた時に、手元にあるデータ集合 Dが生成される確率 ● モデルエビデンスはパラメータの事後確率を計 算するときの分母に現れる正規化定数そのもの つまり p  D∣w , M i  p w∣M i  p w∣D , M i = −3.69 p  D∣M i 
  • 12. モデルエビデンスの別の解釈 ● パラメータが一つしかないモデル(w)を考える ● ベイズの定理よりパラメータに関する事後分布は p(D|w)p(w)に比例 (Miは省略) ● 事後分布が最頻値(モード) wMAP の近傍で鋭く尖っ てるとき、その幅をΔwposteriorで表せば、全体の積 分は幅Δwposteriorと最大値の積で近似できる
  • 13. さらに事前確率が平坦で幅がΔwprior( p(w) = 1/Δwprior) のとき  w posterior p  D=∫ p  D∣w pw dw≃ p  D∣w MAP  −3.70  w prior 対数をとると ln p D≃ln p D∣w MAP ln   w posterior  w prior −3.71
  • 14. ln p D≃ln p D∣w MAP ln   w posterior  w prior  ● 第1項p(D|wmap):一番もっともらしいパラメータ 値によるデータへのフィッティング度 ● 事前分布が平坦なときの対数尤度 ● 第2項:モデルの複雑さに対するペナルティ ●Δwposterior<Δwprior なので第2 項は負 ●Δwposterior/Δwpriorが小さくなる につれ第2項は小さくなる モデルがデータに強く ● フィットするとペナル ティは0に近づく
  • 15. モデルがM個のパラメータを含むとき、それぞ れのパラメータに対し同様の近似が行える ● すべてのパラメータが同じ比Δwposterior/Δwprior を持つとき ln p D=ln p D∣w MAP M ln  w prior   w posterior −3.72 が得られる ● すなわちモデルの適応パラメータ数Mが増える と複雑なモデルに対するペナルティが強くなる
  • 16. モデルの複雑さを増したとき ● 第1項:モデルはデータにフィットしやすくなるた め増加(0に近づく) ● 第2項:Mとの依存性のために減少(負) ● エビデンスを最大にする最適なモデルの複雑さ →相反する項をバランスよく小さくする
  • 17. ベイズモデル比較の更なる解釈、及びなぜ周辺尤 度最大化により中間程度の複雑さのモデルが選ば れるか ● 単純なモデルM1は自由度が少なく、分布p(D)は横 軸の狭い領域に集中する ● 複雑なモデルM3は多様なデータを生成することが できp(D)は広範囲に広 がるが、データ集合の どれかに割り当てられ る確率は小さくなる
  • 19. 期待ベイズ因子 ● ベイズモデル比較では考えてるモデル集合の中に データが生成される真の分布が含まれていると暗に 仮定 ● この仮定が正しければベイズモデル比較によって平均的 に正しいモデルを示す事ができる
  • 20. 期待ベイズ因子 ● 2つのモデルM1, M2 (M1が正しい分布と仮定) ● ベイズ因子をデータ集合の分布に関して平均 →期待ベイズ因子が得られる (期待値は真のデータ分布の生成に関して取得) p  D∣M 1  ∫ p D∣M 1ln p D∣M  dD−3.73 2 ● KLの例(-とln逆にすれば(1.113)) ● 二つの分布が等しい時に0、それ以外は常に正 ● 平均的には常に正しいモデルのベイズ因子の方が大
  • 21. ベイズの枠組み:過学習を回避できると共に訓練デー タだけに基づいてモデル比較が行える ● ベイズ的なアプローチではモデルの形に関する仮定 を置く必要 →正しくない場合:誤った結果を導くことがある ● モデルエビデンスは事前分布の様々な特性に強く依存 ● 変則事前分布:任意のスケーリング因子を持ち正規化定 数が定義できないためエビデンスを定義できない ● まず変則的でない通常の事前分布→適当な極限 ● 二つのモデルのエビデンスの比を先に考えその後極限を とることで意味ある値が取れることもある
  • 22. 実際の応用場面ではテスト用独立なデータ集合を とっておき、それを用いて最終的なシステムの全 体性能を評価するのが賢明