Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

24 views

Published on

DataRobot社主催「統計的機械学習のエレメンツ読み会」の第7回発表資料です。

Chapter8: Model Inference and Averaging

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging

  1. 1. 2017/07/19@統計的学習のエレメンツ読み会 #7 The Elements of Statistical Learning Chapter 8: Model Inference and Averaging 大塚 優@NTTデータ
  2. 2. Overview 1 ■Model Inference Methods 8.2 The Bootstrap and Maximum Likelihood Methods 8.3 Bayesian Methods 8.4 Relationship Between the Bootstrap and Bayesian Inference ■Calculation Techniques in Model Inference 8.5 The EM Algorithm 8.6 MCMC for Sampling from the Posterior ■Ensemble Methods 8.7 Bagging 8.8 Model Averaging and Stacking 8.9 Stochastic Search: Bumping
  3. 3. Model Inference Methods 2
  4. 4. The Bootstrap and Maximum Likelihood Methods スプライン平滑化の例 ・スプライン平滑化の例を通して、各種モデル推定の方法論 (最小二乗法,Bootstrap,最尤法,ベイズ推定)を俯瞰する。 3 データの散布図 3次B-spline基底 生成モデル: 𝑦𝑖 = 𝜇 𝑥𝑖 + 𝜀𝑖 , SETUP 𝛽𝑗:回帰係数(未知パラメータ), ℎ𝑗(𝑥):B-spline基底, 𝜀𝑖:観測誤差 E 𝜀𝑖 = 0, 𝑉𝑎𝑟 𝜀𝑖 = 𝜎2(未知パラメータ) for all 𝑖 𝐲 = 𝐇𝛃 + 𝛆𝜇 𝑥𝑖 = 𝑗=1 7 𝛽𝑗ℎ𝑗 𝑥𝑖 = 𝜷 𝑇 𝒉(𝑥𝑖) 𝐲 = 𝑦𝑖, … , 𝑦 𝑁 𝑇, 𝜷 = 𝛽1, … , 𝛽7 𝑇, 𝒉 𝑥𝑖 = ℎ1 𝑥𝑖 , … , ℎ7 𝑥𝑖 𝑇, 𝐇 = 𝒉 𝑥1 , … , 𝒉 𝑥 𝑁 𝑇
  5. 5. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化 ・前項のモデルの回帰係数を最小二乗法で推定 𝛃LS = argmin 𝛃 ||𝐇𝛃 − 𝐲||2 = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 ⇨ 平滑化曲線: 𝜇 𝑥 = 𝛃LS 𝑇 𝒉(𝑥) ・ 𝛃LSの分散は、 𝐇 𝑇 𝐇 −1 𝜎2 となり、適当な𝜎2の推定量 𝜎2を プラグインすることで、 𝛃LSの分散の推定量を構成 𝑉𝑎𝑟 𝛃LS = 𝐇 𝑇 𝐇 −1 𝜎2 𝜎2の例: ・上記結果から平滑化曲線の標準誤差の推定値が得られる 𝑆𝐷 𝜇 𝑥 = 𝑆𝐷[ 𝛃LS 𝑇 𝒉(𝑥)] = 𝒉 𝑥 𝑇 𝐇 𝑇 𝐇 −1 𝒉 𝑥 1 2 𝜎 4 1 𝑁 − 7 𝑖=1 𝑁 𝑦𝑖 − 𝜇 𝑥𝑖 2
  6. 6. The Bootstrap and Maximum Likelihood Methods 最小二乗法による平滑化の結果 ・最小二乗法による平滑化曲線(実線)と95%信頼区間(破線) 信頼区間を構築するため、 𝜇 𝑥 が正規分布することを仮定 (=観測誤差εに正規性を仮定)
  7. 7. The Bootstrap and Maximum Likelihood Methods Bootstrapについて ・経験分布を母集団分布と見立て、経験分布からのリサンプリン グにより統計的推測を行う方法 (例)θの推定量θに対する𝛼%信頼区間の構築 下記の手続きを𝑏 = 1, … , 𝐵回行う 1. 経験分布からN個データを復元抽出し、データセットを構成。 2. 得られたデータセットから推定量θ 𝑏を計算(Bootstrap標本) Bootstrap標本集合の100 · 𝛼/2%点を信頼区間下限、100 · (1 − 𝛼/2)%点を信頼 区間上限の推定値とする 6
  8. 8. The Bootstrap and Maximum Likelihood Methods Bootstrapによる平滑化の結果 ・スプライン平滑化の例について、Bootstrapにより 平滑化曲線 𝜇 𝑥 の信頼区間を推測する ・B=200として95%信頼区間を構築 7 𝜇 𝑥 のBootstrap標本 Bootstrap標本の平均(実線)と 95%信頼区間(破線)
  9. 9. The Bootstrap and Maximum Likelihood Methods 平滑化結果の比較(最小二乗法 vs Bootstrap) [Discussion]最小二乗法とBootstrap、どちらが妥当な結果? 8 最小二乗法 Bootstrap
  10. 10. The Bootstrap and Maximum Likelihood Methods 最尤法について ・確率変数𝑍がパラメータ𝜃を持つ確率密度𝑔 𝜃(𝑧)に従うと 仮定し、得られたデータに最もフィットする𝜃を知りたい ・𝑍の独立な𝑁個の実現値𝑧𝑖(𝑖 = 1, . . , 𝑁)が得られているとき、 尤度関数𝐿 𝑍; 𝜃 は以下で与えられる 𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 𝑔 𝜃(𝑧𝑖) ・𝐿 𝑍; 𝜃 の自然対数は対数尤度関数と呼ばれる 𝑙 𝑍; 𝜃 = 𝑙𝑜𝑔𝐿 𝑍; 𝜃 = 𝑖=1 𝑁 log 𝑔 𝜃(𝑧𝑖) (𝑙 𝜃 と略記する場合あり) ・尤度関数、もしくは対数尤度関数を最大にするパラメータを 𝜃の最尤推定量と呼ぶ 𝜃MLE = argm𝑎𝑥 𝜃 𝐿 𝑍; 𝜃 = argm𝑎𝑥 𝜃 𝑙 𝑍; 𝜃 9
  11. 11. The Bootstrap and Maximum Likelihood Methods 最尤推定量の統計的性質 ・𝑁 → ∞で真のパラメータ𝜃0に確率収束する(漸近不偏性) 𝜃MLE → 𝑃 𝜃0 ・ 𝑁 → ∞で正規分布に分布収束する(漸近正規性) 𝜃MLE → 𝑑 𝑁 𝜃0, 𝐼 𝜃0 −1 , 𝐼 𝜃0 : Fisher情報行列 ・ 𝑁 → ∞で不偏推定量のClassの中で最小分散となる(漸近有効性) cf. Cramér-Raoの不等式 𝑉𝑎𝑟 𝜃MLE ≤ 𝑉𝑎𝑟 𝜃U𝐵 , 𝜃U𝐵 ⊆ (全ての不偏推定量) 10
  12. 12. The Bootstrap and Maximum Likelihood Methods 最尤法による平滑化 ・平滑化の例について、最尤法でパラメータ推定を行う ・観測誤差εが𝑁 0, 𝜎2 に従うと仮定すると、観測変数𝑦は 𝑁 𝛃 𝑇 𝒉(𝑥𝑖) , 𝜎2 に従うので、対数尤度関数と最尤推定量は 𝑙 𝛃, 𝜎2 = − 1 𝑁 𝑙𝑜𝑔𝜎2 2𝜋 − 1 2𝜎2 𝑖=1 𝑁 (𝑦𝑖 − 𝛃 𝑇 𝒉(𝑥𝑖)) 𝛃MLE = 𝐇 𝑇 𝐇 −1 𝐇 𝑇 𝐲 (最小二乗法の結果と一致) 𝜎MLE = 1 𝑁 𝑖=1 𝑁 𝑦𝑖 − 𝛃MLE 𝑇 𝒉 𝑥𝑖 2 (不偏性を持たないことに注意) 11
  13. 13. Bayesian Methods ベイズ推論による事後分布の推測 ・これまではパラメータ𝜃を定数として扱ってきたが、 ベイズ推論では、 𝜃が確率変動するものとして扱う ・データ𝑍が与えられたもとで、パラメータ𝜃の事後分布 Pr(𝜃|𝑍)はベイズの定理により以下で与えられる。 Pr 𝜃 𝑍 = Pr 𝑍 𝜃 Pr(𝜃) 𝑍 Pr 𝑍 𝜃 Pr(𝜃) Pr 𝑍 𝜃 : 𝑍の尤度, Pr(𝜃): 𝜃の事前分布 ・ベイズ推論におけるパラメータの点推定の方法として、 事後分布の最大値(MAP推定量)がよく用いられる 𝜃M𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃[Pr 𝜃 𝑍 ] 12
  14. 14. Bayesian Methods ベイズ推論による平滑化 ・平滑化の例について、パラメータ𝛃に事前分布を導入する ことでベイズ推論を行う。(簡単のため𝜎2 は既知とする) ・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏Σ を考えたとき のパラメータ𝛃のMAP推定量は 𝛃MLE = 𝐇 𝑇 𝐇 + 𝜎2 𝜏 Σ −1 𝐇 𝑇 𝐲 (Ridge推定量と一致) ・ 𝛃の事前分布として、ラプラス分布を考えるとパラメータ 𝛃のMAP推定量はLASSO推定量と一致する 13
  15. 15. Bayesian Methods ベイズ推論による平滑化の結果 ・ 𝛃の事前分布として、多変量正規分布𝑁 0, 𝜏𝐼 を考えた場合 の平滑化結果 14
  16. 16. Calculation Techniques in Model Inference 15
  17. 17. The EM Algorithm EMアルゴリズムについて ・不完全なデータから最尤推定量を導くアルゴリズム ・ EMアルゴリズムが用いられるケース ・混合分布のパラメータ推定 ・隠れマルコフモデルのパラメータ推定 ・説明変数に欠損のあるデータでの最尤推定 ・目的変数に欠損のあるデータでの最尤推定(半教師あり学習) ・罰則付き最尤法のパラメータ推定 ・次の2つのステップを繰り返すことで尤度関数を最大化する E-step: 観測データ𝑦と 𝜃 の暫定値が与えられた下で、完全デー タの対数尤度の条件付期待値(Q関数)を計算するステップ M-step: E-stepで求めたQ関数を最大化する𝜃を求めるステップ 16
  18. 18. The EM Algorithm 混合正規分布の例 ・以下のような多峰性を持つデータの確率分布として、混合正規 分布がよく用いられる 17 𝑌1~N(μ1, Σ1) 𝑌2~N(μ2, Σ2) 𝑌 = 1 − ∆ ⋅ 𝑌1 + ∆ ⋅ 𝑌2 ⇨ 𝑔 𝑌 𝑦 = 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 where ∆∈ 0,1 with Pr ∆= 1 = 𝜋
  19. 19. The EM Algorithm 混合正規分布の例 ・観測データ𝑦𝑖(i = 1, … , N)が得られているときの対数尤度関数 𝑙 𝑍; 𝜃 = 𝑖=1 𝑁 𝑙𝑜𝑔[ 1 − 𝜋 𝜙 𝜃1 𝑦𝑖 + 𝜋𝜙 𝜃2 𝑦𝑖 ] ⇨ 𝑙 𝑍; 𝜃 の極値は陽に求められない ・そこで、潜在変数∆𝑖が仮に観測された場合の対数尤度 (完全対数尤度)を考えると 𝑙0 𝑍; 𝜃, ∆ = 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔𝜙 𝜃1 𝑦𝑖 + ∆𝑖 𝑙𝑜𝑔𝜙 𝜃2 𝑦𝑖 ] + 𝑖=1 𝑁 [ 1 − ∆𝑖 𝑙𝑜𝑔 1 − 𝜋 + ∆𝑖 𝑙𝑜𝑔𝜋] ⇨ 𝑙0 𝑍; 𝜃, ∆ の極値は陽に求めるられる 18
  20. 20. The EM Algorithm 混合正規分布の例 ・もちろん潜在変数∆𝑖は観測されていないので、完全対数尤度は 計算できない ⇨ データZ, パラメータ𝜃が与えられた元での条件付き期待値 (Expectation)で代用する ⇨ EM AlgorithmのE-stepに対応 ・パラメータ𝜃はどう決める? ⇨ E-stepで求めた条件付き期待値が最大(Maximization)になる 𝜃′を見つける ⇨ EM AlgorithmのM-stepに対応 ・この手続きをパラメータ𝜃が収束するまで交互に繰り返す 19
  21. 21. The EM Algorithm 混合正規分布の例 ・混合正規分布の例における具体的なアルゴリズムは以下の通り 20
  22. 22. The EM Algorithm 一般的なEMアルゴリズム ・一般的なEMアルゴリズムは以下の通り 21
  23. 23. The EM Algorithm EMアルゴリズムの妥当性 𝑍: 観測データ, 𝑍 𝑚 : 欠損データ, 𝑇 = (𝑍, 𝑍 𝑚 ) , 𝜃′:更新パラメータ(変数), 𝜃 :更新前パラメータ(定数) ・(8.45)式から観測データに対する対数尤度関数は下記の通り 𝑙 𝜃′; 𝑍 = 𝑙0 𝜃′; 𝑇 − 𝑙1 𝜃′; 𝑍 𝑚 𝑍 = 𝐸[𝑙0 𝜃′; 𝑇 𝑍, 𝜃 − 𝐸 𝑙1 𝜃′; 𝑍 𝑚 𝑍 𝑍, 𝜃 = 𝑄 𝜃′ , 𝜃 − 𝑅 𝜃′ , 𝜃 ・更新前後での尤度を比較すると 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 = 𝑄 𝜃′ , 𝜃 − 𝑄 𝜃, 𝜃 − [𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 ] ・1項目はM-stepにより明らかに0以上 ・2項目を評価すると 𝑅 𝜃′ , 𝜃 − 𝑅 𝜃, 𝜃 = −𝐸 𝑍 𝑚|𝑍,𝜃 log 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ = −𝐾𝐿 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃 , 𝑃𝑟 𝑍 𝑚 𝑍, 𝜃′ ≤ 0 Hence, 𝑙 𝜃′ ; 𝑍 − 𝑙 𝜃; 𝑍 ≥ 0 22
  24. 24. MCMC for Sampling from the Posterior MCMCについて ・ベイズ推論において、解析的に導出が困難な事後分布をモンテ カルロ法により求める方法 ・定常分布が事後分布になるようなマルコフ連鎖を構成する ・Gibbsサンプラー(完全条件付分布からの逐次サンプリング) ・M-Hアルゴリズム(尤度比を用いた棄却法) ・他のアプリケーションとしては、数え上げ問題、分割表の確率 計算(Fisherの正確確率検定)など 23
  25. 25. MCMC for Sampling from the Posterior Gibbsサンプラーについて ・同時分布の解析導出、もしくはサンプリングが困難だが、条件 付き分布からのサンプリングが容易な場合に有効なアルゴリズム 24
  26. 26. MCMC for Sampling from the Posterior 混合分布の例での具体的なアルゴリズム 25 事後分布の収束の様子

×