• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
PRML復々習レーン#2 2.3.6 - 2.3.7
 

PRML復々習レーン#2 2.3.6 - 2.3.7

on

  • 3,100 views

PRML復々習レーン#2 2.3.6 - 2.3.7

PRML復々習レーン#2 2.3.6 - 2.3.7

Statistics

Views

Total Views
3,100
Views on SlideShare
2,055
Embed Views
1,045

Actions

Likes
0
Downloads
27
Comments
0

3 Embeds 1,045

http://d.hatena.ne.jp 1023
http://hatenatunnel.appspot.com 16
http://webcache.googleusercontent.com 6

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    PRML復々習レーン#2 2.3.6 - 2.3.7 PRML復々習レーン#2 2.3.6 - 2.3.7 Presentation Transcript

    • PRML復々習レーン 2.3.6 – 2.3.7 2012-06-17 Yoshihiko Suhara @sleepy_yoshi 1
    • アウトライン• 2.3.6 ガウス分布に対するベイズ推論• 2.3.7 スチューデントのt分布 2
    • 2.3.6 ガウス分布に対するベイズ推論 3
    • 必須知識 (おさらい)• 尤度関数 𝑁 – 𝐿 𝜃; 𝑿 = 𝑝 𝑿 𝜽 = 𝑛=1 𝑝 𝒙𝑛 𝜽• パラメータの事後分布∝尤度×事前分布 𝑁 𝑝 𝜽 𝑿 ∝ 𝑝 𝑿 𝜽 𝑝 𝜽 = 𝑝 𝒙 𝑛 𝜽 𝑝(𝜽) 𝑛=1 4
    • キモ• ベイズ推定で求めるのはパラメータの分布 – 点推定するのではなく,パラメータの確率密度関 数を求める – 点推定したい場合にはパラメータの事後分布の 最頻値を利用すればよい (MAP推定) 5
    • 2.3.6 のポイント (1/2)• ガウス分布のパラメータの事後分布は以下 のとおり 事後分布 1変量 多変量平均パラメータ(分散既知) ガウス分布 ガウス分布精度パラメータ(平均既知) ガンマ分布 ウィシャート分布分散パラメータ(平均既知) 逆ガンマ分布 逆ウィシャート分布平均,精度パラメータ ガウス―ガンマ分布 ガウス―ウィシャート分布 6
    • 2.3.6 のポイント (2/2)• ガウス分布の各パラメータの事後分布 – (1) 分散既知,平均パラメータの事後分布 – (2) 平均既知,精度(分散)パラメータの事後分布 – (3) 平均と精度パラメータの事後分布 – 上記について一次元版と多変量版 7
    • (1) 分散既知,平均パラメータの事後分布 8
    • 1次元ガウス分布の尤度関数• 分散𝜎 2 は既知とする• N個の観測データから平均𝜇を推定する• N個のデータが与えられたとき尤度関数は 𝑁 𝑁 1 1 2 𝑝 𝑿 𝜇 = 𝑝 𝑥𝑛 𝜇 = 𝑁 exp − 2𝜎 2 𝑥𝑛− 𝜇 𝑛=1 2𝜋𝜎 2 2 𝑛=1 𝜇については二次形式の指数の形⇒ 事前分布にガウス分布を選べば事後分布も同じ関数形式になる 9
    • 平均パラメータの事後分布 2• 事前分布: 𝑝 𝜇 = 𝒩 𝜇 𝜇0 , 𝜎0• パラメータの事後分布: 𝑝 𝜇 𝑿 ∝ 𝑝 𝑿 𝜇 𝑝(𝜇)• 指数部分の平方完成 (演習2.38) を行うと以下を得る. 𝑝 𝜇 𝑿 = 𝒩 𝜇 𝜇 𝑁, 𝜎2 𝑁• ただし, 2 𝜎2 𝑁𝜎0 𝜇𝑁= 2 𝜇 + 2 0 2 2 𝜇 𝑀𝐿 𝑁𝜎0 + 𝜎 𝑁𝜎0 + 𝜎 1 1 𝑁 𝑁 2 = 2 + 𝜎2 1 𝜎𝑁 𝜎0 𝜇 𝑀𝐿 = 𝑁 𝑥𝑛 𝑛=1 10
    • 演習2.38• 指数関数の中身を平方完成して整理 𝑁 1 2 1 2 − 2 𝑥𝑛− 𝜇 − 2 𝜇 − 𝜇0 2𝜎 2𝜎0 𝑛=1 𝑁 𝑁 1 1 1 1 1 2 1 2 =− 𝑥 2 − 2 2𝜇 𝑛 𝑥𝑛+ 𝑁𝜇 2 + 2 𝜇 2 − 2 𝜇𝜇0 + 2 𝜇0 2 𝜎2 𝜎 𝜎2 𝜎0 𝜎0 𝜎0 𝑛=1 𝑛=1 1 𝑁 1 ∑𝑥 𝑛 𝜇0 =− + 2 𝜇2 + 2 + 2 𝜇 + const. 2 𝜎2 𝜎0 𝜎2 𝜎0 2 2 1 𝑏 𝑏 平方完成 𝑘𝑎2 + 𝑏 = 𝑎2 + − 𝑘 2𝑘 2𝑘 2 𝑁𝜇 𝑀𝐿 𝜇0 1 𝑁 1 𝜎 2 + 2 𝜎0 =− + 2 𝜇− + 𝑐𝑜𝑛𝑠𝑡. 2 𝜎2 𝜎0 𝑁 1 𝜎 2+ 𝜎 0 11
    • 事後分布の解釈• 事後分布の平均 – 事前分布の平均𝜇0 と最尤推定解𝜇 𝑀𝐿 の間をとった値 – 𝑁 = 0のとき事前分布の平均,𝑁 → ∞のとき,最尤 推定解• 事後分布の分散 – 観測データ点が増えるにつれ,精度が増加 – 𝑁 = 0のとき事前分布の分散,𝑁 → ∞のとき,分散 𝜎 2 は0に近づく 𝑁 12
    • ガウス分布の平均のベイズ推論 13
    • 逐次的推定としてのベイズ推論 𝑁−1• 𝑝 𝜇 𝑋 ∝ 𝑝 𝜇 𝑛=1 𝑝 𝑥𝑛 𝜇 𝑝 𝑥𝑁 𝜇 N-1個観測した事後分布• ベイズ更新によって求められる推定量が先ほどの Robbins-Monroアルゴリズムによる推論と一致する (演習2.39) ※ 共役事前分布のご利益 14
    • 多次元の場合 15
    • 多次元への拡張• 演習2.40 (→ see @takmin さんの資料) 16
    • (2) 平均既知,精度(分散)パラメータの事後分布 17
    • 精度パラメータの尤度関数 1• 扱いやすいので精度パラメータ 𝜆 ≡ とする 𝜎2• 𝜆についての尤度関数は 𝑁 𝑁 𝑁 𝜆 𝑝 𝑋 𝜆 = 𝒩 𝑥 𝑛 𝜇, 𝜆−1 ∝ 𝜆2 exp − 𝑥𝑛− 𝜇 2 2 𝑛=1 𝑛=1• 事後分布を同じ関数形にするためには事前分布は, – (1) 𝜆のべき乗と – (2) 𝜆の線形関数の指数の積• に比例する必要がある (⇒ ガンマ分布) 18
    • ガンマ分布 1• Gam 𝜆 𝑎, 𝑏 = 𝑏 𝑎 𝜆 𝑎−1 exp −𝑏𝜆 Γ 𝑎 – Γ 𝑎 はガンマ関数 (次頁で紹介) – 𝑎 = 1のとき,パラメータbに従う指数分布となる 19
    • 補足: ガンマ関数とは• ガンマ関数は階乗の一般化 ∞ Γ 𝑥 ≡ 𝑢 𝑥−1 𝑒 −𝑢 d𝑢 0• 𝑥が整数のとき,階乗と一致 Γ 𝑥 = (𝑥 − 1) Γ 𝑥 − 1 = (𝑥 − 1)! (𝑥 ∈ ℕ) Γ 1 =1 20
    • 演習2.41: 正規化の確認∞0 𝐺𝑎𝑚 𝜆 𝑎, 𝑏 d𝜆 = 1 を確認する ∞ 𝑏𝑎 𝜆 𝑎−1 exp −𝑏𝜆 d𝜆 ここで 𝑏𝜆 = 𝑥 とおく Γ 𝑎 0 𝑎−1 𝑑𝜆 1 𝑏𝑎 1 ∞ 𝑥 == exp −𝑥 d𝑥 𝑑𝑥 𝑏 Γ 𝑎 𝑏 0 𝑏 ∞ 𝑏 𝑎−1 1= 𝑥 𝑎−1 exp −𝑥 d𝑥 Γ 𝑎 𝑏 𝑎−1 0 1= Γ 𝑎 =1 Γ 𝑎 21
    • ガンマ分布の平均と分散• ガンマ分布の平均と分散は以下のとおり (演 習2.42) 𝑎 – 平均 𝔼 𝜆 = 𝑏 𝑎 – 分散 var 𝜆 = 𝑏2 𝑎−1 – 最頻値 mode 𝜆 = b 22
    • 演習2.42 (略解)• 平均 – 演習2.41と同じノリで• 分散 – 𝔼 𝜆2 − 𝔼 𝜆 2 で求める• 最頻値 – 極値を求める→微分して0とおく (黒板でフォロー) 23
    • 事後分布• 事前分布Gam 𝜆 𝑎0 , 𝑏0 を尤度関数(2.145)にかけると以 下の事後分布を得る 𝑁 𝑎0 −1 2 𝑁 𝜆 2 𝑝 𝜆 𝑋 ∝ 𝜆 𝜆 exp −𝑏0 𝜆 − 𝑥𝑛− 𝜇 2 𝑛=1• これはパラメータを次のように設定したガンマ分布 Gam 𝜆 𝑎 𝑁 , 𝑏 𝑁 となる 𝑁 – 𝑎 𝑁 = 𝑎0 + 2 1 𝑁 – 𝑏 𝑁 = 𝑏0 + 𝑁 ∑ 𝑛=1 𝑥𝑛− 𝜇 2 = 𝑏0 + 𝜎2 𝑀𝐿 2 2 24
    • 事後分布の解釈 𝑁• (2.150)より,𝑁個のデータを観測すると𝑎を だけ 2 増やす効果がある – 事前分布のパラメータ𝑎0 は2𝑎0 個の「有効な」観測値 が事前にあることを示すと解釈できる 𝑁𝜎 2𝑀𝐿• (2.151)より,𝑁個のデータ点は だけパラメー 2 タ𝑏に影響を及ぼす 2𝑏0 𝑏0 – 事前分布のパラメータ𝑏0 は,その分散が = であ 2𝑎0 𝑎0 るような2𝑎0 個の「有効な」観測値が事前にあることを 示すと解釈できる 25
    • 分散の事後分布• 精度ではなく分散について考えることもできる• 逆ガンマ分布 – この分布についてこれ以上は触れない (終) 26
    • 多次元の場合 27
    • ウィシャート分布• 𝐷次元変数の多変量ガウス分布𝒩 𝒙 𝝁, 𝚲−1 の 場合,平均が既知で精度行列𝚲が未知なら共役 事前分布はウィシャート分布になる 𝜈−𝐷−1 1 𝒲 𝚲 𝑾, 𝜈 = 𝐵 𝚲 2 exp − Tr 𝑾−1 𝚲 2• 𝑾は𝐷 × 𝐷の尺度行列,Tr(⋅)はトレースを表す. 正規化定数𝐵は −1 𝐷 𝜈 −2 𝜈𝐷 𝐷 𝐷−1 𝜈+1− 𝑖 𝐵 𝑾, 𝜈 = 𝑾 22 𝜋 4 Γ 2 𝑖=1 28
    • ウィシャート分布が共役事前分布であることの確認• 演習2.48 (→ see @takmin さんの資料) 29
    • 逆ウィシャート分布• 精度行列ではなく,分散行列上の共役事前 分布 – ここではこれ以上は触れない. 30
    • (3) 平均と精度パラメータの事後分布 31
    • 平均と精度パラメータの尤度関数• 平均と精度が未知の場合,尤度関数は 𝑁 1 𝜆 2 𝜆 2 𝑝 𝑿 𝜇, 𝜆 = exp − 𝑥𝑛− 𝜇 2𝜋 2 𝑛=1 𝑁 𝑁 𝑁 1 𝜆𝜇2 𝜆 ∝ 𝜆 2 exp − exp 𝜆𝜇 𝑥𝑛− 𝑥2 𝑛 2 2 𝑛=1 𝑛=1• 尤度関数と同じ𝜇と𝜆への関数依存性を備え た事前分布𝑝(𝜇, 𝜆)が求めたい 32
    • 平均と精度パラメータの事前分布• よって以下を得る 2 𝛽 1 𝜆𝜇 𝑝 𝜇, 𝜆 ∝ 𝜆2 exp − exp 𝑐𝜆𝜇 − 𝑑𝜆 2 2 𝛽𝜆 𝑐 𝛽 𝑐2= exp − 𝜇− 𝜆2 exp − 𝑑− 𝜆 2 𝛽 2𝛽 – ここで𝑐, 𝑑, 𝛽は定数 33
    • ガウス―ガンマ分布• 正規―ガンマ分布とも呼ばれる 𝑝 𝜇, 𝜆 = 𝒩 𝜇 𝜇0 , 𝛽𝜆 −1 Gam(𝜆|𝑎, 𝑏)• 𝜆が共有されているため,独立なガウス分布 とガンマ分布の積ではないことに注意 34
    • 多次元の場合 35
    • ガウス―ウィシャート分布• 平均と精度が両方とも未知の場合の共役事 前分布 𝑝 𝝁, 𝚲 𝝁0 , 𝛽, 𝑾, 𝜈 = 𝒩 𝝁 𝝁0 , 𝛽𝚲 −1 𝒲 𝚲 𝑾, 𝜈• 正規―ウィシャート分布とも呼ばれる 36
    • 2.3.6のまとめ• 以下の各分布がガウス分布における各パラ メータの事後分布と共役事前分布であること を (部分的に) 示した 事後分布 1変量 多変量平均パラメータ(分散既知) ガウス分布 ガウス分布精度パラメータ(平均既知) ガンマ分布 ウィシャート分布分散パラメータ(平均既知) 逆ガンマ分布 逆ウィシャート分布平均,精度パラメータ ガウス―ガンマ分布 ガウス―ウィシャート分布 37
    • 小休止 38
    • 2.3.7 スチューデントのt分布 39
    • 2.3.7 のポイント• スチューデントのt分布の導出• スチューデントのt分布の定性的な意味づけ – 頑健性 – 自由度パラメータの意味 40
    • スチューデントのt分布• ぱっと見,ガウス分布ぽい• 何に使われる? – 平均の差の検定とか• なんでスチューデント? 41
    • Student = William S. Gosset (1876-1937)• イギリスの統計学者,醸造技術者 – ギネス社に勤務ギネスでは企業秘密の問題で社員が論文を出すことを禁止していたので、ゴセットは Student というペンネームで論文を発表した。彼のもっとも有名な業績はスチューデントのt分布と呼ばれる。1908年の「平均値の誤差の確率分布(The probable error ofa mean)」 をはじめ、ほとんどの論文がピアソンの主宰するBiometrika 誌に発表された。(Wikipediaより抜粋) 42
    • t分布の導出 (1/2)• ガウス分布において,ガンマ分布を精度の事前分布と し,精度を積分消去する (演習2.46) と,𝑥の周辺分布 は, ∞ 𝑝 𝑥 𝜇, 𝑎, 𝑏 = 𝒩 𝑥 𝜇, 𝜏 −1 Gam 𝜏 𝑎, 𝑏 d𝜏 0 ∞ 𝑎 𝑒 −𝑏𝜏 𝑎−1 1 𝑏 𝜏 𝜏 2 𝜏 2 = exp − 𝑥− 𝜇 d𝜏 0 Γ 𝑎 2𝜋 2 1 1 −𝑎− 𝑏𝑎 1 2 𝑥− 𝜇 2 2 1 = 𝑏+ Γ 𝑎+ Γ 𝑎 2𝜋 2 2 43
    • t分布の導出 (2/2) 𝑎• 慣例により,𝜈 = 2𝑎 と 𝜆 = のパラメータを 𝑏 新たに定義すると分布𝑝 𝑥 𝜇, 𝑎, 𝑏 は 𝜈 1 1 𝜈 1 Γ + 𝜆 2 𝜆 𝑥− 𝜇 2 − 2 −2 2 2St 𝑥 𝜇, 𝜆, 𝜈 = 𝜈 1+ Γ 𝜋𝜈 𝜈 2 これはスチューデントのt分布と呼ばれる 44
    • 演習2.46 (1/2) ∞ 𝑎 𝑒 −𝑏𝜏 𝑎−1 1 𝑏 𝜏 𝜏 2 𝜏 2𝑝 𝑥 𝜇, 𝑎, 𝑏 = exp − 𝑥− 𝜇 d𝜏 0 Γ 𝑎 2𝜋 2 1 ∞ 𝑏𝑎 1 2 1 𝑎−2 𝑥− 𝜇 2 = 𝜏 exp −𝜏 𝑏+ d𝜏 Γ 𝑎 2𝜋 0 2 𝑥−𝜇 2 ここで 𝑧 = 𝜏Δ, Δ = 𝑏 + というテクい置換をする 2 1 ∞ 𝑏𝑎 1 2 1 −𝑎−2 1 𝑎−2 = Δ 𝑧 exp −𝑧 d𝑧 Γ 𝑎 2𝜋 0 1 𝑏𝑎 1 2 1 −𝑎−2 1 = Δ Γ 𝑎+ Γ 𝑎 2𝜋 2 45
    • 演習2.46 (2/2) 𝑥−𝜇 2 𝜈 𝜈あとは Δ = 𝑏 + , 𝑎 = , 𝑏 = を代入すると 2 2 𝜆 (中略) 𝜈 1 1 𝜈 1 Γ + 𝜆 2 𝜆 𝑥− 𝜇 2 − 2 −2 2 2 = 𝜈 1+ Γ 𝜋𝜈 𝜈 2 46
    • t分布のパラメータ • 精度 𝜆 • 自由度 𝜈• 自由度 𝜈 = 1 でコーシー分布• 自由度 𝜈 → ∞ で平均𝜇 精度が𝜆のガウス分布 (演習2.47) 47
    • 演習2.47 (1/4) 𝜈 1 1 𝜈 1 Γ 2+2 𝜆 2 𝜆 𝑥− 𝜇 2 −2−2lim 𝜈 1+𝜈→∞ Γ 𝜋𝜈 𝜈 がガウス分布になることを証明 2 (A) (B) 2つの道具を使って証明する 48
    • 演習2.47 (2/4) Γ 𝑛+𝑥(A) ガンマ関数の定義より lim =1 𝑛→∞ Γ 𝑛 𝑛 𝑥 𝜈 1 1 𝜈 1 1 1 Γ 2+2 𝜆 2 Γ 2+2 𝜆 2 𝜆 2 lim 𝜈 = lim 1 =1⋅ 𝜈→∞ Γ 𝜋𝜈 𝜈→∞ 𝜈 𝜈 2 2𝜋 2𝜋 2 Γ 2 2 (A) 49
    • 演習2.47 (3/4) 1 𝑥 (B) 自然対数の定義より lim 1 + = 𝑒 𝑥→∞ 𝑥 𝜈 1 2 −2−2 𝜆 𝑥− 𝜇 lim 1 + 𝜈→∞ 𝜈 𝜆 𝑥−𝜇 2 𝜈 1 𝜈 − − 𝜈 2 2 𝜆 𝑥− 𝜇 2 𝜆 𝑥−𝜇 2= lim 1+ 𝜈→∞ 𝜈 𝜆 𝑥−𝜇 2 𝜆 𝑥−𝜇 2 𝜈 − 2 − 2𝜈 𝜆 𝑥− 𝜇 2 𝜆 𝑥−𝜇 2= lim 1+ 𝜈→∞ 𝜈 1 − 𝜆 𝑥−𝜇 2= 𝑒 2 50 (B)
    • 演習2.47 (4/4)• (A)と(B)を組み合わせて 𝜈 1 1 𝜈 1 Γ 2+2 𝜆 2 𝜆 𝑥− 𝜇 2 −2−2 lim 𝜈 1+ 𝜈→∞ Γ 𝜋𝜈 𝜈 2 1 𝜆 2 𝜆 2 = exp − 𝑥− 𝜇 2𝜋 2 51
    • Γ 𝑛+𝑥 補足: lim = 1の証明 𝑛→∞ Γ 𝑛 𝑛 𝑥ガンマ関数の定義より 𝑛−1 ! 𝑛𝑥 Γ 𝑥 = lim 𝑛→∞ 𝑥 𝑥+1 𝑥 + 2 ⋯ (𝑥 + 𝑛 − 1) 1 𝑥 𝑥+1 𝑥 + 2 ⋯ (𝑥 + 𝑛 − 1) = lim Γ 𝑥 𝑛→∞ 𝑛−1 ! 𝑛𝑥 Γ 𝑥 𝑥 𝑥+1 𝑥 + 2 ⋯ (𝑥 + 𝑛 − 1) 1 = lim 𝑛→∞ 𝑛−1 ! 𝑛𝑥 Γ 𝑥+ 𝑛 1 = lim 𝑛→∞ Γ 𝑛 𝑛 𝑥 52
    • t分布の頑健性• (2.158)よりt分布は平均は同じで,精度が異なるようなガウス 分布を無限個足し合わせたものであることがわかる – ガウス分布の無限混合分布と解釈できる – ガウス分布よりも「すそ」が長い ⇒ 頑健性を持つ (外れ値に強い) t分布 t分布 vs. ガウス分布 53
    • t分布の最尤推定解• 解析的には求まらない – EMアルゴリズムを利用 (→12章) 54
    • 多変量スチューデントt分布 (1/2)• 多変量の場合, ∞ −1 𝜈 𝜈 St 𝒙 𝝁, 𝚲, 𝜈 = 𝒩 𝒙 𝝁, 𝜂𝚲 Gam 𝜂 , d𝜂 0 2 2• 積分を計算する (演習2.48) と 𝐷 𝜈 1 𝐷 𝜈 Γ + Λ2 ∆2 − − 2 2 2 2 St 𝒙 𝝁, 𝚲, 𝜈 = 𝜈 𝐷 1+ 𝜈 Γ 𝜋𝜈 2 2• を得る. – ただし𝐷は𝒙の次元数,∆2 = 𝒙 − 𝝁 𝑇 𝚲(𝒙 − 𝝁) 55
    • 多変量スチューデントt分布 (2/2)• 多変量スチューデントt分布は次の性質を満 たす (演習2.49)• 𝔼 𝒙 = 𝝁 (𝜈 > 1のとき) 𝜈• cov 𝒙 = 𝚲−1 (𝜈 > 2のとき) 𝜈−2• mode 𝒙 = 𝝁 56
    • スチューデントt分布まとめ• 平均は同じで,精度が異なるようなガウス分布を 無限個足し合わせたもの – ガウス分布よりも外れ値に強い• 自由度 𝜈=1 でコーシー分布• 自由度 𝜈→∞ で平均𝜇 精度が𝜆のガウス分布• パラメータ推定はEMアルゴリズムによる数値解 法が必要 57
    • 参考文献• PRML復習レーン 2.3.6 by @takmin さん – http://www.slideshare.net/takmin/chapter236/ 58
    • おしまいThank you @takmin さん!! 59