PRML_titech 2.3.1 - 2.3.7

PRML titech 2.3.1 - 2.3.7
榊原隆文(@saka bar)
November 21, 2014
1 / 65

自己紹介
! 榊原隆文(twitter:@saka bar さかばー)
! すずかけ台の奥村研に所属
! 専門は自然言語処理
! テキスト集合からの知識獲得
! 好きなもの
! 唐揚げ
! 凌駕
! Haskell
! IIDX DP
! 漢直(漢字直接入力)
! 紹介スライド
http://www.slideshare.net/takafumisakakibara75/tutcode
2 / 65

このスライドの特徴
! スライド作成のためにLATEX のBeamer パッケージを利用
! PowerPoint を使いたくない
! git でバージョン管理
! このスライドはタグのv2.0 と対応
! ソースをgithub で公開
! https:
//github.com/sakabar/prml_titech_2-3-1_2-3-7
! PDF をSlideShare で公開
! http://www.slideshare.net/takafumisakakibara75/
slide-41820194
3 / 65

もくじ
2.3.1 条件付きガウス分布
2.3.2 周辺ガウス分布
2.3.3 ガウス変数に対するベイズの定理
2.3.4 ガウス分布の最尤推定
2.3.5 逐次推定
2.3.6 ガウス分布に対するベイズ推論
2.3.7 スチューデントのt 分布
4 / 65

2.3.1 節と2.3.2 節の目的
! 2 つの変数集合の同時分布p(xa, xb) がガウス分布に従うとき
の、ガウス分布に関する以下の性質を示す
1. 条件付き分布p(xa|xb), p(xb|xa) もガウス分布になる
2. 変数集合の周辺分布p(xa), p(xb) もガウス分布になる
5 / 65

変数の定義
! 多変量ガウス分布の条件付き分布を考える
x ∼ N(x|μ,Σ) (1)
「∼」はある分布に従う、ということ
! このD 次元ベクトルx を2 つの互いに素な部分集合xa と
xb に分割する
! 次式のように、xa はx の最初のM 個の要素で、xb は残り
のD −M 個の要素で構成されるとしても一般性は失わない
x =
!
xa
xb
"
(2)
μ =
!
μa
μb
"
(3)
! 共分散行列も同様に与えられる
Σ =
!
Σaa Σab
Σba Σbb
"
(4)
6 / 65

精度行列
! 精度行列Λ を導入する
Λ ≡ Σ−1 (5)
! ベクトルx の分割に対応する、分割された形式の精度行列を
導入する
Λ =
!
Λaa Λab
Λba Λbb
"
(6)
7 / 65

条件付きガウス分布
! 条件付きガウス分布p(xa|xb) もガウス分布に従うことを示す
! ガウス分布の式の形に変形できればよい
1
N(x|μ,Σ) =
(2π)D/2
1
|Σ|1/2 exp
#
−
1
2
(x − μ)TΣ−1(x − μ)
$
(7)
! 条件付きガウス分布は、次式のとおりである
p(xa|xb) =
p(xa, xb)
p(xb)
(8)
! xb を観測済の値で固定する
! 正規化係数を求めるのは後回し
! まずガウス分布の同時分布p(xa, xb) の指数部に注目する
8 / 65

条件付き分布の表現
! ガウス分布の指数部分を展開する
1
−
(x − μ)TΣ−1(x 2
− μ) = −
1
2
(xa − μa)TΛ−1
aa (xa − μa)
−
1
2
(xa − μa)TΛ−1
ab (xb − μb)
−
1
2
(xb − μb)TΛ−1
ba (xa − μa)
−
1
2
(xb − μb)TΛ−1
bb (xb − μb)
(9)
! xa の関数として見ると、これも二次形式になっている
9 / 65

条件付きガウス分布の平均
! 次に平均μa|b を求める
! xa についての線形の項をすべて考えると、
xTa {Λaaμa − Λab(xb) − μb} (14)
を得る
! この式のxa の係数はΣ−1
a|bμa|b と等しくなるので、
μa|b = Σa|b{Λaaμa − Λab(xb − μb)} (15)
= μa − Λ−1
aa Λab(xb − μb) (16)
12 / 65

精度行列を使わないで求める
次の関係!
Σaa Σab
Σba Σbb
"−1
=
!
Λaa Λab
Λba Λbb
"
(17)
に対して、分割された行列の逆行列に関する次の公式(演習2.24)
を利用
!
A B
C D
"−1
=
!
M −MBD−1
−D−1CM D−1 +D−1CMBD−1
"
(18)
ただし、
M = (A −BD−1C)−1 (19)
M−1 をD に関するシューア補行列と呼ぶ
13 / 65

計算結果
! Λaa とΛab は次のようになる
Λaa = (Σaa − ΣabΣ−1
bb Σba)−1 (20)
Λab = −(Σaa − ΣabΣ−1
bb Σba)−1ΣabΣ−1
bb (21)
! これらを
Σa|b = Λaa (22)
μa|b = μa − Λ−1
aa Λab(xb − μb) (23)
の右辺に代入して、精度行列を消去する
14 / 65

精度行列を利用した表現と利用しない表現の比較
! 得られた2 つの表現は次の通りである
μa|b = μa + ΣabΣ−1
bb (xb − μb)
= μa − Λ−1
aa Λab(xb − μb)
Σa|b = Σaa − ΣabΣ−1
bb Σba
= Λ−1
aa
! 条件付き分布p(xa|xb) は共分散行列よりも精度行列を使っ
て表現する方が簡潔
15 / 65

2.3.2 周辺ガウス分布
! 同時分布p(xa, xb) がガウス分布であれば、条件付き分布
p(xa|xb) もガウス分布になることを示した。
! この周辺分布
p(xa) =
%
p(xa, xb)dxb (24)
がガウス分布になることを示す
! ここでも同時分布の指数部分の二次形式に注目し、周辺分布
p(xa) の平均と共分散を特定することで効率的に計算できる
16 / 65

計算の流れ(アバウト)
! xb に関係ない項をC2 とおきxb に関係した項に注目%
p(xa, xb)dxb
=
%
1
C1
exp
&
(xb − μ1)TΛ(xb − μ1) + C2
'
dxb
=
1
C1
exp{C2}
%
exp
&
(xb − μ1)TΛ(xb − μ1)
'
dxb
! 下線部はガウス分布の積分なので積分結果は正規化係数の逆
数である(積分結果をC3 とおく)
=
1
C1
exp{C2}C3
=
1
C1
exp{(xa − μ2)TΛ(xa − μ2) + C4}C3
=
C3
C1
exp{C4}exp{(xa − μ2)TΛ(xa − μ2)}
! 指数部がガウス分布の形になる
17 / 65

計算
! 指数部のxb に関係した項を処理してから、積分を容易にす
るために平方完成する
! xb を含む項を取り出すと
−
1
2
(x − μ)TΣ−1(x − μ)
= −
1
2
xTbΛbbxb + xTb
m
= −
1
2
(xb − Λ−1
bb m)TΛbb(xb − Λ−1
bb m) +
1
2
mTΛ−1
bb m
ただし、
m = Λbbμb − Λba(xa − μa)
18 / 65

xb の指数部
! 指数部の式は次のとおり
−
1
2
(xb − Λ−1
bb m) +
1
2
mTΛ−1
bb m (25)
! 右辺第1 項はガウス分布の標準的な二次形式
! 残りの項はxb に依存しない
! xb に関係しない部分を無視して考え、後で正規化係数を求め
てつじつまを合わせる
19 / 65

途中計算
! この二次形式の指数を取り、xb で積分する
%
exp
#
−
1
2
(xb − Λ−1
bb m)
$
dxb (26)
! この積分は正規化されていないガウス分布なので、正規化係
数の逆数になる。
! ガウス分布の正規化係数は平均とは独立で、共分散行列のみ
に依存するため、この積分も共分散行列のみに依存する
! 残ったxa に関する項を変形する
20 / 65

結論
! 周辺分布p(xa) の平均と共分散は次のようになる
E[xa] = μa (27)
cov[xa] = Σaa (28)
! 分割された共分散行列について簡潔に表現される
! 条件付き分布のときと対照的
21 / 65

2.3.3 ガウス分布の周辺分布と条件付き分布
! あるガウス周辺分布p(x) と、平均がx の線形関数で共分散
はx と独立であるようなガウス条件付き分布p(y|x) が与え
られたとする
! このとき、周辺分布p(y) と条件付き分布p(x|y) を求める問
題を考える
! この問題は以後の章でよく現れるので、ここで一般的な結果
を求めておく
22 / 65

変数の定義
! 周辺分布と条件付き分布を
p(x) = N(x|μ,Λ−1) (29)
p(y|x) = N(y|Ax + b,L−1) (30)
とする。
! 最初に、x とy の同時分布の表現を見る
z =
!
x
y
"
(31)
とおく
23 / 65

同時分布の対数
! そして、同時分布の対数を考える
! ここで対数を考えるのは、いちいち「指数に注目」という手
間を省くためだと考えられる
ln p(z) = lnp(x) + lnp(y|x)
= −
1
2
(x − μ)TΛ(x − μ)
1
−
2
(y − Ax − b)TL(y − Ax − b) + const
(32)
! このガウス分布の精度行列を求めるために、式(32) の2 次の
項についても考察する
24 / 65

2 次の項と精度行列
! 2 次の項は次のように書ける
1
xT(1
−
Λ + ATLA)x 2
−
2
yTLy +
1
2
yTLAx +
1
2
xTATLy
= −
1
2
!
x
y
"T !
Λ + ATLA −ATL
−LA L
"!
x
y
"
= −
1
2
zTRz(33)
! よって、z 上のガウス分布の精度行列は
R =
!
Λ + ATLA −ATL
−LA L
"
(34)
になる
25 / 65

共分散行列
! 共分散行列は、行列の逆行列に関する公式(18) を適用して精
度の逆行列を求めることで求られる(演習2.29)
cov[z] = R−1 =
!
Λ−1 Λ−1AT
AΛ−1 L−1 + AΛ−1AT
"
(35)
26 / 65

z 上のガウス分布の平均
! 同様に、z 上のガウス分布の平均は、(32) の線形の項を調べ
ることで、
xTΛμ − xTATLb + yTLb =
!
x
y
"T !
Λμ − ATLb
Lb
"
(36)
で与えられる
! 多変量ガウス分布の二次形式部分を平方完成して得た以前の
結果より、z の平均は
E[z] = R−1
!
Λμ − ATLb
Lb
"
(37)
を得る。式(35) より、
E[z] =
!
μ
Aμ + b
"
(38)
を得る(演習2.30)
27 / 65

x を周辺化した周辺分布p(y)
! ガウス確率ベクトルの要素の部分集合上の周辺分布を、分割
された共分散行列で表したときの結果を利用する
! 周辺分布p(y) の平均と共分散は
E[y] = Aμ + b (39)
cov[y] = L−1 + AΛ−1AT (40)
で与えられることがわかる
28 / 65

条件付き分布p(x|y)
! 同様に、以前の結果を利用する
E[x|y] = (Λ + ATLA)−1{ATL(y − b) + Λμ}(41)
cov[x|y] = (Λ + ATLA)−1 (42)
! この条件付き分布は、ベイズの定理の例としても見ることが
できる
! p(x) はx 上の事前分布と解釈できる
! 変数y が観測されれば、条件付き分布p(x|y) を用いて、x 上
での事後分布を表せる
! また、周辺分布と条件付き分布を求めれば、同時確率
p(z) = p(x)p(y|x) はp(x|y)p(y) の形でも表現できる
29 / 65

2.3.4 ガウス分布の最尤推定
! ある多変量ガウス分布から、観測値{xn} が独立に得られた
と仮定したデータ集合
X = (x1, ..., xn)T (43)
がある時その分布のパラメータは最尤推定法で推定できる
! 尤度関数は、
ln p(X|μ,Σ)
= −
ND
2
ln(2π) −
N
2
ln |Σ|−
1
2
(N
n=1
(xn − μ)TΣ−1(xn − μ)
! これを整理すると、尤度関数は次の2 つの量によってのみ依
存していることが分かる
(N
n=1
xn,
(N
n=1
xnxTn
(44)
! これらをガウス分布の十分統計量という
! 十分統計量が分かると、その分布の形が一意に定まる
30 / 65

最尤推定解
! 最尤推定解は次のとおり
μML =
1
N
(N
n=1
xn (45)
ΣML =
1
N
(N
n=1
(xn − μML)(xn − μML)T (46)
31 / 65

最尤推定解の期待値
! 真の分布の下での最尤推定解の期待値を評価すると、次の結
果を得る(演習2.35)
E[μML] = μ (47)
E[ΣML] =
N − 1
N
Σ (48)
! 平均についての最尤推定量の期待値は真の平均に等しい
! 共分散の最尤推定量の期待値は真の値より小さいが、これは
別の推定量)Σ
)Σ
=
1
N − 1
(N
(xn − μML)(xn − μML)T (49)
n=1
を定義することで補正することができる
32 / 65

2.3.5 逐次推定
! 逐次的な方法では、データ点を一度に1 つずつ処理しては、
それを廃棄する
! オンラインな応用分野や、すべてのデータ点を一度に一括処
理することが不可能な大規模データ集合を扱う場合に重要
! まずは、平均の最尤推定量μML について考える
33 / 65

平均の最尤推定量の逐次推定
ML を変形すると、次のようになる
! μ(N)
μ(N)
ML =
1
N
(N
n=1
xn
=
1
N
xN +
1
N
N(−1
n=1
xn
=
1
N
xN +
N − 1
N
μ(N−1)
ML
= μ(N−1)
ML +
1
N
(xN − μ(N−1)
ML ) (50)
34 / 65

逐次推定
! この結果は次のように分かりやすく解釈できる
μ(N)
ML =
1
N
(N
n=1
xn (51)
= μ(N−1)
ML +
1
N
(xN − μ(N−1)
ML ) (52)
! N − 1 個のデータを観測した時点で、μ の推定値はμ(N−1)
となっている。
ML ! ここで、データ点xN を観測すると、1/N に比例する小さな
量だけ「誤差信号」(xN − μ(N−1)
) の方へ、古い推定量を移
ML 動させて推定量μ(N)
ML を修正する
! N が増えるにつれて、後続のデータ点からの影響はより小さ
くなる
35 / 65

汎用的な逐次学習の定式化
! 先の例では、全体をまとめてバッチ処理する式と逐次推定す
る式が等しいので、明らかに同じ解が得られる
! しかしこの方法で逐次アルゴリズムを導出することが、いつ
もできるわけではない
! Robbins-Monro アルゴリズムを導入する
36 / 65

準備
! 同時分布p(z, θ) に従う確率変数θ とz の対を考える
! θ が与えられたときのz の条件付き期待値によって、決定論
的な関数f(θ) を定義する
f(θ) ≡ E[z|θ] =
%
zp(z|θ)dz (53)
! このように定義された関数を回帰関数と呼ぶ
! ここでの目標は、f(θ∗) = 0 の根θ∗ を求めること
37 / 65

仮定
! 次のような仮定を置く
E[(z − f)2|θ] < ∞ (54)
θ(N) = θ(N−1) − aN−1z(θ(N−1)) (55)
! ただし、z(θ(N)) はθ が値θ(N) を取るときに観測されるz
の値
! 係数{aN} は以下の条件を満たす正数の系列
lim
N→∞
aN = 0 (56)
! この過程が極限値に収束できるように、解の逐次的な修正量
を減らすことを保証
∞(
N=1
aN = ∞ (57)
! アルゴリズムが根以外に速すぎる収束をしないことを保証
∞(
N=1
a2
N < ∞ (58)
38 / 65
! 蓄積されたノイズの分散を有限に抑え、収束を阻害しないこ

Robbins-Monro アルゴリズム
! 定義より、最尤推定解θML は負の対数尤度関数の停留点で
あるため、
−
∂
∂θ
*
1
N
(N
n=1
ln p(xn|θ)
+,,,,,
θML
= 0 (59)
! 微分と総和の演算を交換し、N →∞の極限を考えると次の
式を得る
− lim
N→∞
1
N
(N
n=1
∂
∂θ
ln p(xn|θ) = Ex
-
−
∂
∂θ
ln p(x|θ)
.
(60)
39 / 65

Robbins-Monro 手続きの適用
! 最尤推定解を求めることは、回帰関数の根を求めることに相
当することがわかる
! ゆえに、次の形でRobbins-Monro 手続きを適用できる
θ(N) = θ(N−1) − aN−1
∂
∂θ(N−1) [−ln p(xN|θ(N−1))] (61)
40 / 65

ガウス分布への適用
! パラメータθ(N) はガウス分布の平均の推定量μ(N)
ML であり、
確率変数z は
z = −
∂
∂μML
ln p(x|μML,σ2) = −
1
σ2 (x − μML) (62)
! 式(62) を式(61) に代入し、係数aN をaN = σ2/N となるよ
うに選ぶと、式(50) の1 変数の形式のものが得られる
41 / 65

2.3.6 ガウス分布に対するベイズ推論
! 今までは最尤推定の枠組みのガウス分布パラメータμ とΣ
の点推定量を得た
! 次に、事前分布を導入してベイズ主義的に扱う
! まずは1 変数のガウス確率関数x について考える
! 分散が既知のとき
! 平均が既知のとき
! 平均も分散も未知のとき
42 / 65

分散が既知のときの事前分布
! 分散σ2 は既知とし、与えられたN 個の観測値集合
x = {x1, ...,xN} から、平均μ を推定する
! μ が与えられたときに観測データが生じる確率である尤度関
数はμ の関数と見なせて、
p(X|μ) =
N/
n=1
p(xn|μ)
=
1
(2πσ2)N/2 exp
*
−
1
2σ2
(N
n=1
(xn − μ)2
+
! 尤度関数を見ると、μ についての二次形式の指数の形を取っ
ている
! 事前分布p(μ) にガウス分布を選べば、この尤度関数の共役
事前分布となる
43 / 65

事後分布
! 事前分布を次のようにする
p(μ) = N(μ|μ0,σ2
0) (63)
! すると事後分布は
p(μ|X) =
p(X|μ)p(μ)
p(X)
∝ p(X|μ)p(μ) (64)
となる
44 / 65

事後分布の平均と分散
! 事後分布の指数部分は、
exp
#
−
1
2σ2
0
(μ − μ0)2
$
exp
*
−
1
2σ2
(N
n=1
(μ − xn)2
+
= exp
*
−
1
2
!
1
σ2
0
+
N
σ2
"
μ2 +
0
μ0
σ2
0
+
1
σ2
(N
n=1
xn
1
μ + C0
+
! 平方完成と正規化によって平均μN, 分布σ2N
のガウス分布の
形にすることができる。ただし、
μN =
σ2
0 + σ2 μ0 +
Nσ2
Nσ2
0
0 + σ2 μML (65)
Nσ2
1
σ2N
=
1
σ2
0
+
N
σ2 (66)
μML =
1
N
(N
n=1
xn (67)
45 / 65

平均と分散の性質
μN =
σ2
0 + σ2 μ0 +
Nσ2
Nσ2
0
0 + σ2 μML (68)
Nσ2
1
σ2N
=
1
σ2
0
+
N
σ2 (69)
! N → 0 なら、予想通り式(68) は事前分布の平均
! N →∞なら、事後分布の最尤推定解となる
! 事後分布の精度は事前分布の精度に各観測データ点からの
データ精度への影響分を加えたものになる
! データ点が増えるにつれ、精度が確実に増加する
46 / 65

事後分布のもう一つの見方
! ガウス分布の逐次推定では、N 個のデータ点を観測した後の
平均はN 番目のデータ点xN の影響とN − 1 個のデータ点
を観測した後の平均とでも表現できた
! このことをガウス分布の平均の推論の場合について示す
p(μ|X) ∝
2
p(μ)
N/−1
n=1
p(xn|μ)
3
4 56 7
p(xN|μ) (70)
N − 1 個のデータ点を観測した後の事後分布
! この項を事前分布とし、データ点xN についての尤度関数を
ベイズの定理によって結合すれば、この式全体はN 個の
データ点を観測した後の事後分布とみなせる
47 / 65

分散が既知の場合:N が増えたときの事後分布の変化
N = 0
N = 10
N = 2
N = 1
5
0
−1 0 1
48 / 65

平均が既知の場合
! 簡単のため、精度λ ≡ 1/σ2 で操作する
! 尤度は次のようになる
p(X|λ) =
N/
n=1
N(xn|μ, λ−1)
= λN/2 exp
*
−
λ
2
(N
n=1
(xn − μ)2
+
(71)
! この式から、精度の共役事前分布は、λ のベキ乗と、λ の線
形関数の指数の積に比例させる
! ガンマ分布
49 / 65

ガンマ分布
! ガンマ分布の定義
Gam(λ|a, b) =
1
Γ(a)
baλa−1 exp(−bλ) (72)
! ここで、Γ(a) は式(72) が正しく正規化されることを保証
! ガンマ分布の平均と分散は
E[λ] =
a
b
(73)
var[λ] =
a
b2 (74)
λ
a = 0.1
b = 0.1
0 1 2
2
1
0
λ
a = 1
b = 1
0 1 2
2
1
0
λ
a = 4
b = 6
0 1 2
2
1
0
50 / 65

事後分布
! 事前分布Gam(λ|a0, b0) に尤度関数(71) をかけると、事後
分布
p(λ|X) ∝ λa0−1λN/2 exp
*
−b0λ −
λ
2
(N
n=1
(xn − μ)2
+
(75)
が得られる
! 正しい係数は後から簡単に求められるため、事前分布や尤度
関数で正規化係数を維持更新する必要はない
! これはパラメータを次のように設定したときの、ガンマ分布
Gam(λ|aN, bN) であることが分かる
aN = a0 +
N
2
(76)
bN = b0 +
N
2
σ2
ML (77)
51 / 65

事前分布のパラメータの解釈
aN = a0 +
N
2
bN = b0 +
N
2
σ2
ML
! a0 は、2a0 個の「有効な」観測値が事前にあると解釈できる
! b0 は、その分散がb0/a0 であるような、2a0 個の「有効な」
観測値が事前にあると解釈できる
52 / 65

逆ガンマ分布
! 今までは精度について考えて、ガンマ分布を導入した
! 一方、分散そのものについて考えることもできる
! 逆ガンマ分布
! ここでは触れない
53 / 65

平均と分散が未知の場合
! 平均と分散が未知の場合には、共役事前分布を求めるために
尤度関数のμ とλ への依存関係について考える
p(X|μ, λ) =
N/
n=1
!
λ
2π
"1/2
exp
#
−
λ
2
(xn − μ)2
$
∝
-
λ1/2 exp
!
−
λμ2
2
".N
exp
*
λμ
(N
n=1
xn −
λ
2
(N
n=1
x2
n
+
(78)
54 / 65

事後分布
! ここでは、尤度関数と同じμ とλ への関数依存性を備えた事
前分布p(μ, λ) を求めたいので、分布は次の形式になる
p(μ, λ) ∝
-
λ1/2 exp
!
−
λμ2
2
".β
exp {cλμ − dλ}
= exp
#
−
βλ
2
(μ − cβ)2
$
λβ/2
4 56 7
p(μ|λ):ガウス分布
exp
#
−
!
d −
c2
2β
"
λ
$
4 56 7
p(λ):ガンマ分布
(79)
! よって、定数μ0 = c/β, a = (1+β)/2, およびb = d − c2/2β
を新たに定義すると、正規化した事前分布は次の形を取る
p(μ, λ) = N(μ|μ0, (βλ)−1)Gam(λ|a, b) (80)
! この分布を正規-ガンマ分布やガウス-ガンマ分布と呼ぶ
55 / 65

正規-ガンマ分布の特徴
p(μ, λ) = N(μ|μ0, (βλ)−1)Gam(λ|a, b)
! この分布は、独立なμ 上のガウス事前分布とλ 上のガンマ事
前分布の単純な積ではない
! μ の分布の精度はλ の線形関数になっているため
! たとえμ とλ が独立な事前分布を選んでも、事後分布ではμ
の分布の精度とλ との間に関連が生じる
56 / 65

多次元変数の場合
! これまで1 次元変数の場合を考えたが、次にD 次元変数の多
変量ガウス分布の場合を考える
! 分散が既知のとき
! 平均が既知のとき
! 平均も分散も未知のとき
! 分散を既知とすれば、平均μ の共役事前分布は、またガウス
分布になる
p(X|μ) =
N/
n=1
p(xn|μ)
∝
1
|Σ|N/2 exp
*
(N
n=1
−
1
2
(xn − μ)TΣ−1(xn − μ)
+
57 / 65

平均が既知の場合
! 平均が既知で、精度行列Λ が未知なら、共役事前分布は次式
のウィシャート分布となる
W(Λ|W, ν) = B|Λ|(ν−D−1)/2 exp
!
−
1
2
Tr(W−1Λ)
"
(81)
B(W, ν) = |W|−ν/2
0
2νD/2πD(D−1)/4
D/
i=1
Γ
!
ν + 1 − i
2
"1−1
(82)
! ここでも、精度行列上ではなく、共分散行列上の共役事前分
布を定義できる
! 逆ウィシャート分布(ここでは触れない)
58 / 65

平均と精度の両方が未知の場合
! 平均と精度の両方が未知なら、1 変数の場合と同様に考える
ことで次の共役事前分布が得られる
p(μ,Λ|μ0,β,W, ν) = N(μ|μ0, (βΛ)−1)W(λ|W, ν) (83)
! 正規-ウィシャート分布またはガウス-ウィシャート分布と
呼ぶ
59 / 65

2.3.7 スチューデントのt 分布
! これまでに、ガウス分布の精度パラメータの共役事前分布が
ガンマ分布となることを見てきた
! 1 変数のガウス分布N(x|μ, τ−1) において、ガンマ分布
Gam(τ |a, b) を精度の事前分布とし、そこから精度を積分消
去し、z = τ [b + (x − μ)2/2] の変数の置換を用いると、x の
周辺分布は次式となる
p(x|μ, a, b)
=
%
∞
0 N(x|μ, τ−1)Gam(τ |a, b)dτ (84)
=
ba
Γ(a)
!
1
2π
"1/2 -
b +
(x − μ)2
2
.−a−1/2
Γ(a + 1/2) (85)
60 / 65

スチューデントのt 分布
! 慣例により、ν = 2a とλ = a/b のパラメータを新たに定義す
ると、スチューデントのt 分布が得られる
St(x|μ, λ, ν) =
Γ(ν/2 + 1/2)
Γ(ν/2)
!
λ
πν
"1/2 -
1 +
λ(x − μ)2
ν
.−ν/2−1/2
(86)
! パラメータλ はt 分布の精度とも呼ばれるが、必ずしも分散
の逆数とは限らない
! パラメータν = 1ではコーシー分布、ν →∞では平均がμ で
精度がλ のガウス分布になる
! 式(84) より、スチューデントのt 分布は、平均は同じだが精
度は異なるようなガウス分布を無限個足し合わせたものであ
ることがわかる
! ガウス分布の無限混合分布(詳細は2.3.9 節)
61 / 65

スチューデントのt 分布
ν →∞
ν = 1.0
ν = 0.1
0.5
0.4
0.3
0.2
0.1
0
−5 0 5
62 / 65

頑健性と回帰問題
! スチューデントのt 分布はガウス分布より一般に「すそ」が
長く、頑健性を持つ
! 外れ値となっている少数のデータ点があっても、ガウス分布
よりは影響されにくい
0.5
0.4
0.3
0.2
0.1
−5 0 5 10
(a)
0
0.5
0.4
0.3
0.2
0.1
−5 0 5 10
(b)
0
63 / 65

多変量のスチューデントt 分布
! 1 変数の場合と同じように、積分を計算すると
St(x|μ,Λ, ν) =
Γ(D/2 + ν/2)
Γ(ν/2)
|Λ|1/2
(πν)D/2
-
1 +
Δ2
ν
.−D/2−ν/2
(89)
Δ2 = (x − μ)TΛ(x − μ) (90)
を得る
! これはスチューデントt 分布の多変量型で、1 変数の結果に
対応した、次の性質を満たす
E[x] = μ, ν>1 のとき(91)
ν
cov[x] =
(ν − 2)
Λ−1, ν>2 のとき(92)
mode[x] = μ (93)
65 / 65

PRML_titech 2.3.1 - 2.3.7

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to PRML_titech 2.3.1 - 2.3.7

Similar to PRML_titech 2.3.1 - 2.3.7 (20)

PRML_titech 2.3.1 - 2.3.7