Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
PRML titech 2.3.1 - 2.3.7 
榊原隆文(@saka bar) 
November 21, 2014 
1 / 65
自己紹介 
! 榊原隆文(twitter:@saka bar さかばー) 
! すずかけ台の奥村研に所属 
! 専門は自然言語処理 
! テキスト集合からの知識獲得 
! 好きなもの 
! 唐揚げ 
! 凌駕 
! Haskell 
! IID...
このスライドの特徴 
! スライド作成のためにLATEX のBeamer パッケージを利用 
! PowerPoint を使いたくない 
! git でバージョン管理 
! このスライドはタグのv2.0 と対応 
! ソースをgithub で公...
もくじ 
2.3.1 条件付きガウス分布 
2.3.2 周辺ガウス分布 
2.3.3 ガウス変数に対するベイズの定理 
2.3.4 ガウス分布の最尤推定 
2.3.5 逐次推定 
2.3.6 ガウス分布に対するベイズ推論 
2.3.7 スチュー...
2.3.1 節と2.3.2 節の目的 
! 2 つの変数集合の同時分布p(xa, xb) がガウス分布に従うとき 
の、ガウス分布に関する以下の性質を示す 
1. 条件付き分布p(xa|xb), p(xb|xa) もガウス分布になる 
2. 変...
変数の定義 
! 多変量ガウス分布の条件付き分布を考える 
x ∼ N(x|μ,Σ) (1) 
「∼」はある分布に従う、ということ 
! このD 次元ベクトルx を2 つの互いに素な部分集合xa と 
xb に分割する 
! 次式のように、xa...
精度行列 
! 精度行列Λ を導入する 
Λ ≡ Σ−1 (5) 
! ベクトルx の分割に対応する、分割された形式の精度行列を 
導入する 
Λ = 
! 
Λaa Λab 
Λba Λbb 
" 
(6) 
7 / 65
条件付きガウス分布 
! 条件付きガウス分布p(xa|xb) もガウス分布に従うことを示す 
! ガウス分布の式の形に変形できればよい 
1 
N(x|μ,Σ) = 
(2π)D/2 
1 
|Σ|1/2 exp 
# 
− 
1 
2 
(x...
条件付き分布の表現 
! ガウス分布の指数部分を展開する 
1 
− 
(x − μ)TΣ−1(x 2 
− μ) = − 
1 
2 
(xa − μa)TΛ−1 
aa (xa − μa) 
− 
1 
2 
(xa − μa)TΛ−1 
...
平方完成 
! うまく変数μa|b,Σa|を定めると、式(9) の右辺は、式の右辺の形にするこb (10) 
とができる 
! 式(9) の左辺の形に直すことで、ガウス分布の指数部の形に 
する 
1 
− 
(2 
xa−μa|b)TΣ−1 ...
条件付きガウス分布の分散 
! 考えている条件付き分布はガウス分布に従うので、 
p(xa|xb) ∼ N(x|μa|b,Σa|b) (11) 
と表せる 
! まずは分散Σa|b を求める 
! xb を定数とみなして、式(9) からxa に...
条件付きガウス分布の平均 
! 次に平均μa|b を求める 
! xa についての線形の項をすべて考えると、 
xTa {Λaaμa − Λab(xb) − μb} (14) 
を得る 
! この式のxa の係数はΣ−1 
a|bμa|b と等...
精度行列を使わないで求める 
次の関係! 
Σaa Σab 
Σba Σbb 
"−1 
= 
! 
Λaa Λab 
Λba Λbb 
" 
(17) 
に対して、分割された行列の逆行列に関する次の公式(演習2.24) 
を利用 
! 
A ...
計算結果 
! Λaa とΛab は次のようになる 
Λaa = (Σaa − ΣabΣ−1 
bb Σba)−1 (20) 
Λab = −(Σaa − ΣabΣ−1 
bb Σba)−1ΣabΣ−1 
bb (21) 
! これらを 
Σa...
精度行列を利用した表現と利用しない表現の比較 
! 得られた2 つの表現は次の通りである 
μa|b = μa + ΣabΣ−1 
bb (xb − μb) 
= μa − Λ−1 
aa Λab(xb − μb) 
Σa|b = Σaa − ...
2.3.2 周辺ガウス分布 
! 同時分布p(xa, xb) がガウス分布であれば、条件付き分布 
p(xa|xb) もガウス分布になることを示した。 
! この周辺分布 
p(xa) = 
% 
p(xa, xb)dxb (24) 
がガウス...
計算の流れ(アバウト) 
! xb に関係ない項をC2 とおきxb に関係した項に注目% 
p(xa, xb)dxb 
= 
% 
1 
C1 
exp 
& 
(xb − μ1)TΛ(xb − μ1) + C2 
' 
dxb 
= 
1 
...
計算 
! 指数部のxb に関係した項を処理してから、積分を容易にす 
るために平方完成する 
! xb を含む項を取り出すと 
− 
1 
2 
(x − μ)TΣ−1(x − μ) 
= − 
1 
2 
xTbΛbbxb + xTb 
m...
xb の指数部 
! 指数部の式は次のとおり 
− 
1 
2 
(xb − Λ−1 
bb m)TΛbb(xb − Λ−1 
bb m) + 
1 
2 
mTΛ−1 
bb m (25) 
! 右辺第1 項はガウス分布の標準的な二次形式 
...
途中計算 
! この二次形式の指数を取り、xb で積分する 
% 
exp 
# 
− 
1 
2 
(xb − Λ−1 
bb m)TΛbb(xb − Λ−1 
bb m) 
$ 
dxb (26) 
! この積分は正規化されていないガウス分...
結論 
! 周辺分布p(xa) の平均と共分散は次のようになる 
E[xa] = μa (27) 
cov[xa] = Σaa (28) 
! 分割された共分散行列について簡潔に表現される 
! 条件付き分布のときと対照的 
21 / 65
2.3.3 ガウス分布の周辺分布と条件付き分布 
! あるガウス周辺分布p(x) と、平均がx の線形関数で共分散 
はx と独立であるようなガウス条件付き分布p(y|x) が与え 
られたとする 
! このとき、周辺分布p(y) と条件付き分...
変数の定義 
! 周辺分布と条件付き分布を 
p(x) = N(x|μ,Λ−1) (29) 
p(y|x) = N(y|Ax + b,L−1) (30) 
とする。 
! 最初に、x とy の同時分布の表現を見る 
z = 
! 
x 
y 
...
同時分布の対数 
! そして、同時分布の対数を考える 
! ここで対数を考えるのは、いちいち「指数に注目」という手 
間を省くためだと考えられる 
ln p(z) = lnp(x) + lnp(y|x) 
= − 
1 
2 
(x − μ)T...
2 次の項と精度行列 
! 2 次の項は次のように書ける 
1 
xT(1 
− 
Λ + ATLA)x 2 
− 
2 
yTLy + 
1 
2 
yTLAx + 
1 
2 
xTATLy 
= − 
1 
2 
! 
x 
y 
"T ...
共分散行列 
! 共分散行列は、行列の逆行列に関する公式(18) を適用して精 
度の逆行列を求めることで求られる(演習2.29) 
cov[z] = R−1 = 
! 
Λ−1 Λ−1AT 
AΛ−1 L−1 + AΛ−1AT 
" 
(35...
z 上のガウス分布の平均 
! 同様に、z 上のガウス分布の平均は、(32) の線形の項を調べ 
ることで、 
xTΛμ − xTATLb + yTLb = 
! 
x 
y 
"T ! 
Λμ − ATLb 
Lb 
" 
(36) 
で与え...
x を周辺化した周辺分布p(y) 
! ガウス確率ベクトルの要素の部分集合上の周辺分布を、分割 
された共分散行列で表したときの結果を利用する 
! 周辺分布p(y) の平均と共分散は 
E[y] = Aμ + b (39) 
cov[y] =...
条件付き分布p(x|y) 
! 同様に、以前の結果を利用する 
E[x|y] = (Λ + ATLA)−1{ATL(y − b) + Λμ}(41) 
cov[x|y] = (Λ + ATLA)−1 (42) 
! この条件付き分布は、ベイズの...
2.3.4 ガウス分布の最尤推定 
! ある多変量ガウス分布から、観測値{xn} が独立に得られた 
と仮定したデータ集合 
X = (x1, ..., xn)T (43) 
がある時その分布のパラメータは最尤推定法で推定できる 
! 尤度関数...
最尤推定解 
! 最尤推定解は次のとおり 
μML = 
1 
N 
(N 
n=1 
xn (45) 
ΣML = 
1 
N 
(N 
n=1 
(xn − μML)(xn − μML)T (46) 
31 / 65
最尤推定解の期待値 
! 真の分布の下での最尤推定解の期待値を評価すると、次の結 
果を得る(演習2.35) 
E[μML] = μ (47) 
E[ΣML] = 
N − 1 
N 
Σ (48) 
! 平均についての最尤推定量の期待値は真の...
2.3.5 逐次推定 
! 逐次的な方法では、データ点を一度に1 つずつ処理しては、 
それを廃棄する 
! オンラインな応用分野や、すべてのデータ点を一度に一括処 
理することが不可能な大規模データ集合を扱う場合に重要 
! まずは、平均の最...
平均の最尤推定量の逐次推定 
ML を変形すると、次のようになる 
! μ(N) 
μ(N) 
ML = 
1 
N 
(N 
n=1 
xn 
= 
1 
N 
xN + 
1 
N 
N(−1 
n=1 
xn 
= 
1 
N 
xN +...
逐次推定 
! この結果は次のように分かりやすく解釈できる 
μ(N) 
ML = 
1 
N 
(N 
n=1 
xn (51) 
= μ(N−1) 
ML + 
1 
N 
(xN − μ(N−1) 
ML ) (52) 
! N − 1 ...
汎用的な逐次学習の定式化 
! 先の例では、全体をまとめてバッチ処理する式と逐次推定す 
る式が等しいので、明らかに同じ解が得られる 
! しかしこの方法で逐次アルゴリズムを導出することが、いつ 
もできるわけではない 
! Robbins-M...
準備 
! 同時分布p(z, θ) に従う確率変数θ とz の対を考える 
! θ が与えられたときのz の条件付き期待値によって、決定論 
的な関数f(θ) を定義する 
f(θ) ≡ E[z|θ] = 
% 
zp(z|θ)dz (53) ...
仮定 
! 次のような仮定を置く 
E[(z − f)2|θ] < ∞ (54) 
θ(N) = θ(N−1) − aN−1z(θ(N−1)) (55) 
! ただし、z(θ(N)) はθ が値θ(N) を取るときに観測されるz 
の値 
! ...
Robbins-Monro アルゴリズム 
! 定義より、最尤推定解θML は負の対数尤度関数の停留点で 
あるため、 
− 
∂ 
∂θ 
* 
1 
N 
(N 
n=1 
ln p(xn|θ) 
+,,,,, 
θML 
= 0 (59)...
Robbins-Monro 手続きの適用 
! 最尤推定解を求めることは、回帰関数の根を求めることに相 
当することがわかる 
! ゆえに、次の形でRobbins-Monro 手続きを適用できる 
θ(N) = θ(N−1) − aN−1 
∂...
ガウス分布への適用 
! パラメータθ(N) はガウス分布の平均の推定量μ(N) 
ML であり、 
確率変数z は 
z = − 
∂ 
∂μML 
ln p(x|μML,σ2) = − 
1 
σ2 (x − μML) (62) 
! 式(...
2.3.6 ガウス分布に対するベイズ推論 
! 今までは最尤推定の枠組みのガウス分布パラメータμ とΣ 
の点推定量を得た 
! 次に、事前分布を導入してベイズ主義的に扱う 
! まずは1 変数のガウス確率関数x について考える 
! 分散が既...
分散が既知のときの事前分布 
! 分散σ2 は既知とし、与えられたN 個の観測値集合 
x = {x1, ...,xN} から、平均μ を推定する 
! μ が与えられたときに観測データが生じる確率である尤度関 
数はμ の関数と見なせて、 
...
事後分布 
! 事前分布を次のようにする 
p(μ) = N(μ|μ0,σ2 
0) (63) 
! すると事後分布は 
p(μ|X) = 
p(X|μ)p(μ) 
p(X) 
∝ p(X|μ)p(μ) (64) 
となる 
44 / 65
事後分布の平均と分散 
! 事後分布の指数部分は、 
exp 
# 
− 
1 
2σ2 
0 
(μ − μ0)2 
$ 
exp 
* 
− 
1 
2σ2 
(N 
n=1 
(μ − xn)2 
+ 
= exp 
* 
− 
1 
2...
平均と分散の性質 
μN = 
σ2 
0 + σ2 μ0 + 
Nσ2 
Nσ2 
0 
0 + σ2 μML (68) 
Nσ2 
1 
σ2N 
= 
1 
σ2 
0 
+ 
N 
σ2 (69) 
! N → 0 なら、予想通り式(6...
事後分布のもう一つの見方 
! ガウス分布の逐次推定では、N 個のデータ点を観測した後の 
平均はN 番目のデータ点xN の影響とN − 1 個のデータ点 
を観測した後の平均とでも表現できた 
! このことをガウス分布の平均の推論の場合につい...
分散が既知の場合:N が増えたときの事後分布の変化 
N = 0 
N = 10 
N = 2 
N = 1 
5 
0 
−1 0 1 
48 / 65
平均が既知の場合 
! 簡単のため、精度λ ≡ 1/σ2 で操作する 
! 尤度は次のようになる 
p(X|λ) = 
N/ 
n=1 
N(xn|μ, λ−1) 
= λN/2 exp 
* 
− 
λ 
2 
(N 
n=1 
(xn − ...
ガンマ分布 
! ガンマ分布の定義 
Gam(λ|a, b) = 
1 
Γ(a) 
baλa−1 exp(−bλ) (72) 
! ここで、Γ(a) は式(72) が正しく正規化されることを保証 
! ガンマ分布の平均と分散は 
E[λ] =...
事後分布 
! 事前分布Gam(λ|a0, b0) に尤度関数(71) をかけると、事後 
分布 
p(λ|X) ∝ λa0−1λN/2 exp 
* 
−b0λ − 
λ 
2 
(N 
n=1 
(xn − μ)2 
+ 
(75) 
が得...
事前分布のパラメータの解釈 
aN = a0 + 
N 
2 
bN = b0 + 
N 
2 
σ2 
ML 
! a0 は、2a0 個の「有効な」観測値が事前にあると解釈できる 
! b0 は、その分散がb0/a0 であるような、2a0 個...
逆ガンマ分布 
! 今までは精度について考えて、ガンマ分布を導入した 
! 一方、分散そのものについて考えることもできる 
! 逆ガンマ分布 
! ここでは触れない 
53 / 65
平均と分散が未知の場合 
! 平均と分散が未知の場合には、共役事前分布を求めるために 
尤度関数のμ とλ への依存関係について考える 
p(X|μ, λ) = 
N/ 
n=1 
! 
λ 
2π 
"1/2 
exp 
# 
− 
λ 
2...
事後分布 
! ここでは、尤度関数と同じμ とλ への関数依存性を備えた事 
前分布p(μ, λ) を求めたいので、分布は次の形式になる 
p(μ, λ) ∝ 
- 
λ1/2 exp 
! 
− 
λμ2 
2 
".β 
exp {cλμ ...
正規-ガンマ分布の特徴 
p(μ, λ) = N(μ|μ0, (βλ)−1)Gam(λ|a, b) 
! この分布は、独立なμ 上のガウス事前分布とλ 上のガンマ事 
前分布の単純な積ではない 
! μ の分布の精度はλ の線形関数になっている...
多次元変数の場合 
! これまで1 次元変数の場合を考えたが、次にD 次元変数の多 
変量ガウス分布の場合を考える 
! 分散が既知のとき 
! 平均が既知のとき 
! 平均も分散も未知のとき 
! 分散を既知とすれば、平均μ の共役事前分布は...
平均が既知の場合 
! 平均が既知で、精度行列Λ が未知なら、共役事前分布は次式 
のウィシャート分布となる 
W(Λ|W, ν) = B|Λ|(ν−D−1)/2 exp 
! 
− 
1 
2 
Tr(W−1Λ) 
" 
(81) 
B(W,...
平均と精度の両方が未知の場合 
! 平均と精度の両方が未知なら、1 変数の場合と同様に考える 
ことで次の共役事前分布が得られる 
p(μ,Λ|μ0,β,W, ν) = N(μ|μ0, (βΛ)−1)W(λ|W, ν) (83) 
! 正規-ウ...
2.3.7 スチューデントのt 分布 
! これまでに、ガウス分布の精度パラメータの共役事前分布が 
ガンマ分布となることを見てきた 
! 1 変数のガウス分布N(x|μ, τ−1) において、ガンマ分布 
Gam(τ |a, b) を精度の事...
スチューデントのt 分布 
! 慣例により、ν = 2a とλ = a/b のパラメータを新たに定義す 
ると、スチューデントのt 分布が得られる 
St(x|μ, λ, ν) = 
Γ(ν/2 + 1/2) 
Γ(ν/2) 
! 
λ 
πν...
スチューデントのt 分布 
ν →∞ 
ν = 1.0 
ν = 0.1 
0.5 
0.4 
0.3 
0.2 
0.1 
0 
−5 0 5 
62 / 65
頑健性と回帰問題 
! スチューデントのt 分布はガウス分布より一般に「すそ」が 
長く、頑健性を持つ 
! 外れ値となっている少数のデータ点があっても、ガウス分布 
よりは影響されにくい 
0.5 
0.4 
0.3 
0.2 
0.1 
−...
多変量のスチューデントt 分布 
! 式(84) に戻って、パラメータをν = 2a, λ = a/b, および 
η = τ b/a と置き換えると、t 分布は次の形に書ける 
St(x|μ, λ, ν) = 
% 
∞ 
0 N(x|μ, ...
多変量のスチューデントt 分布 
! 1 変数の場合と同じように、積分を計算すると 
St(x|μ,Λ, ν) = 
Γ(D/2 + ν/2) 
Γ(ν/2) 
|Λ|1/2 
(πν)D/2 
- 
1 + 
Δ2 
ν 
.−D/2−ν/2...
Upcoming SlideShare
Loading in …5
×

PRML_titech 2.3.1 - 2.3.7

711 views

Published on

(in Japanese) 2014/11/21 PRML勉強会の資料です。(version 2.0)「パターン認識と機械学習」の上巻2.3.1節から2.3.7節を担当します。githubで公開していますので、誤字などがありましたらpull requestをお願いします。(https://github.com/sakabar/prml_titech_2-3-1_2-3-7)

Published in: Science
  • Be the first to comment

PRML_titech 2.3.1 - 2.3.7

  1. 1. PRML titech 2.3.1 - 2.3.7 榊原隆文(@saka bar) November 21, 2014 1 / 65
  2. 2. 自己紹介 ! 榊原隆文(twitter:@saka bar さかばー) ! すずかけ台の奥村研に所属 ! 専門は自然言語処理 ! テキスト集合からの知識獲得 ! 好きなもの ! 唐揚げ ! 凌駕 ! Haskell ! IIDX DP ! 漢直(漢字直接入力) ! 紹介スライド http://www.slideshare.net/takafumisakakibara75/tutcode 2 / 65
  3. 3. このスライドの特徴 ! スライド作成のためにLATEX のBeamer パッケージを利用 ! PowerPoint を使いたくない ! git でバージョン管理 ! このスライドはタグのv2.0 と対応 ! ソースをgithub で公開 ! https: //github.com/sakabar/prml_titech_2-3-1_2-3-7 ! PDF をSlideShare で公開 ! http://www.slideshare.net/takafumisakakibara75/ slide-41820194 3 / 65
  4. 4. もくじ 2.3.1 条件付きガウス分布 2.3.2 周辺ガウス分布 2.3.3 ガウス変数に対するベイズの定理 2.3.4 ガウス分布の最尤推定 2.3.5 逐次推定 2.3.6 ガウス分布に対するベイズ推論 2.3.7 スチューデントのt 分布 4 / 65
  5. 5. 2.3.1 節と2.3.2 節の目的 ! 2 つの変数集合の同時分布p(xa, xb) がガウス分布に従うとき の、ガウス分布に関する以下の性質を示す 1. 条件付き分布p(xa|xb), p(xb|xa) もガウス分布になる 2. 変数集合の周辺分布p(xa), p(xb) もガウス分布になる 5 / 65
  6. 6. 変数の定義 ! 多変量ガウス分布の条件付き分布を考える x ∼ N(x|μ,Σ) (1) 「∼」はある分布に従う、ということ ! このD 次元ベクトルx を2 つの互いに素な部分集合xa と xb に分割する ! 次式のように、xa はx の最初のM 個の要素で、xb は残り のD −M 個の要素で構成されるとしても一般性は失わない x = ! xa xb " (2) μ = ! μa μb " (3) ! 共分散行列も同様に与えられる Σ = ! Σaa Σab Σba Σbb " (4) 6 / 65
  7. 7. 精度行列 ! 精度行列Λ を導入する Λ ≡ Σ−1 (5) ! ベクトルx の分割に対応する、分割された形式の精度行列を 導入する Λ = ! Λaa Λab Λba Λbb " (6) 7 / 65
  8. 8. 条件付きガウス分布 ! 条件付きガウス分布p(xa|xb) もガウス分布に従うことを示す ! ガウス分布の式の形に変形できればよい 1 N(x|μ,Σ) = (2π)D/2 1 |Σ|1/2 exp # − 1 2 (x − μ)TΣ−1(x − μ) $ (7) ! 条件付きガウス分布は、次式のとおりである p(xa|xb) = p(xa, xb) p(xb) (8) ! xb を観測済の値で固定する ! 正規化係数を求めるのは後回し ! まずガウス分布の同時分布p(xa, xb) の指数部に注目する 8 / 65
  9. 9. 条件付き分布の表現 ! ガウス分布の指数部分を展開する 1 − (x − μ)TΣ−1(x 2 − μ) = − 1 2 (xa − μa)TΛ−1 aa (xa − μa) − 1 2 (xa − μa)TΛ−1 ab (xb − μb) − 1 2 (xb − μb)TΛ−1 ba (xa − μa) − 1 2 (xb − μb)TΛ−1 bb (xb − μb) (9) ! xa の関数として見ると、これも二次形式になっている 9 / 65
  10. 10. 平方完成 ! うまく変数μa|b,Σa|を定めると、式(9) の右辺は、式の右辺の形にするこb (10) とができる ! 式(9) の左辺の形に直すことで、ガウス分布の指数部の形に する 1 − (2 xa−μa|b)TΣ−1 a|b(xa−μa|b) = − 1 2 xTa Σ−1 a|bxa+xTa Σ−1 a|bμa|b+const (10) ! 式(10) の右辺から左辺への変形を平方完成と呼ぶ ! 与えられたガウス分布中の指数項を定める二次形式を平方完 成するためには、分布の平均と分散を求める必要がある ! x の2 次の項と1 次の項の係数を比較することで、Σ とμ を 求めることができる 10 / 65
  11. 11. 条件付きガウス分布の分散 ! 考えている条件付き分布はガウス分布に従うので、 p(xa|xb) ∼ N(x|μa|b,Σa|b) (11) と表せる ! まずは分散Σa|b を求める ! xb を定数とみなして、式(9) からxa についての2 次の項を 全て取り出すと、 − 1 2 xTa Λaaxa (12) を得る。これより、 Σa|b = Λ−1 aa (13) が得られる 11 / 65
  12. 12. 条件付きガウス分布の平均 ! 次に平均μa|b を求める ! xa についての線形の項をすべて考えると、 xTa {Λaaμa − Λab(xb) − μb} (14) を得る ! この式のxa の係数はΣ−1 a|bμa|b と等しくなるので、 μa|b = Σa|b{Λaaμa − Λab(xb − μb)} (15) = μa − Λ−1 aa Λab(xb − μb) (16) 12 / 65
  13. 13. 精度行列を使わないで求める 次の関係! Σaa Σab Σba Σbb "−1 = ! Λaa Λab Λba Λbb " (17) に対して、分割された行列の逆行列に関する次の公式(演習2.24) を利用 ! A B C D "−1 = ! M −MBD−1 −D−1CM D−1 +D−1CMBD−1 " (18) ただし、 M = (A −BD−1C)−1 (19) M−1 をD に関するシューア補行列と呼ぶ 13 / 65
  14. 14. 計算結果 ! Λaa とΛab は次のようになる Λaa = (Σaa − ΣabΣ−1 bb Σba)−1 (20) Λab = −(Σaa − ΣabΣ−1 bb Σba)−1ΣabΣ−1 bb (21) ! これらを Σa|b = Λaa (22) μa|b = μa − Λ−1 aa Λab(xb − μb) (23) の右辺に代入して、精度行列を消去する 14 / 65
  15. 15. 精度行列を利用した表現と利用しない表現の比較 ! 得られた2 つの表現は次の通りである μa|b = μa + ΣabΣ−1 bb (xb − μb) = μa − Λ−1 aa Λab(xb − μb) Σa|b = Σaa − ΣabΣ−1 bb Σba = Λ−1 aa ! 条件付き分布p(xa|xb) は共分散行列よりも精度行列を使っ て表現する方が簡潔 15 / 65
  16. 16. 2.3.2 周辺ガウス分布 ! 同時分布p(xa, xb) がガウス分布であれば、条件付き分布 p(xa|xb) もガウス分布になることを示した。 ! この周辺分布 p(xa) = % p(xa, xb)dxb (24) がガウス分布になることを示す ! ここでも同時分布の指数部分の二次形式に注目し、周辺分布 p(xa) の平均と共分散を特定することで効率的に計算できる 16 / 65
  17. 17. 計算の流れ(アバウト) ! xb に関係ない項をC2 とおきxb に関係した項に注目% p(xa, xb)dxb = % 1 C1 exp & (xb − μ1)TΛ(xb − μ1) + C2 ' dxb = 1 C1 exp{C2} % exp & (xb − μ1)TΛ(xb − μ1) ' dxb ! 下線部はガウス分布の積分なので積分結果は正規化係数の逆 数である(積分結果をC3 とおく) = 1 C1 exp{C2}C3 = 1 C1 exp{(xa − μ2)TΛ(xa − μ2) + C4}C3 = C3 C1 exp{C4}exp{(xa − μ2)TΛ(xa − μ2)} ! 指数部がガウス分布の形になる 17 / 65
  18. 18. 計算 ! 指数部のxb に関係した項を処理してから、積分を容易にす るために平方完成する ! xb を含む項を取り出すと − 1 2 (x − μ)TΣ−1(x − μ) = − 1 2 xTbΛbbxb + xTb m = − 1 2 (xb − Λ−1 bb m)TΛbb(xb − Λ−1 bb m) + 1 2 mTΛ−1 bb m ただし、 m = Λbbμb − Λba(xa − μa) 18 / 65
  19. 19. xb の指数部 ! 指数部の式は次のとおり − 1 2 (xb − Λ−1 bb m)TΛbb(xb − Λ−1 bb m) + 1 2 mTΛ−1 bb m (25) ! 右辺第1 項はガウス分布の標準的な二次形式 ! 残りの項はxb に依存しない ! xb に関係しない部分を無視して考え、後で正規化係数を求め てつじつまを合わせる 19 / 65
  20. 20. 途中計算 ! この二次形式の指数を取り、xb で積分する % exp # − 1 2 (xb − Λ−1 bb m)TΛbb(xb − Λ−1 bb m) $ dxb (26) ! この積分は正規化されていないガウス分布なので、正規化係 数の逆数になる。 ! ガウス分布の正規化係数は平均とは独立で、共分散行列のみ に依存するため、この積分も共分散行列のみに依存する ! 残ったxa に関する項を変形する 20 / 65
  21. 21. 結論 ! 周辺分布p(xa) の平均と共分散は次のようになる E[xa] = μa (27) cov[xa] = Σaa (28) ! 分割された共分散行列について簡潔に表現される ! 条件付き分布のときと対照的 21 / 65
  22. 22. 2.3.3 ガウス分布の周辺分布と条件付き分布 ! あるガウス周辺分布p(x) と、平均がx の線形関数で共分散 はx と独立であるようなガウス条件付き分布p(y|x) が与え られたとする ! このとき、周辺分布p(y) と条件付き分布p(x|y) を求める問 題を考える ! この問題は以後の章でよく現れるので、ここで一般的な結果 を求めておく 22 / 65
  23. 23. 変数の定義 ! 周辺分布と条件付き分布を p(x) = N(x|μ,Λ−1) (29) p(y|x) = N(y|Ax + b,L−1) (30) とする。 ! 最初に、x とy の同時分布の表現を見る z = ! x y " (31) とおく 23 / 65
  24. 24. 同時分布の対数 ! そして、同時分布の対数を考える ! ここで対数を考えるのは、いちいち「指数に注目」という手 間を省くためだと考えられる ln p(z) = lnp(x) + lnp(y|x) = − 1 2 (x − μ)TΛ(x − μ) 1 − 2 (y − Ax − b)TL(y − Ax − b) + const (32) ! このガウス分布の精度行列を求めるために、式(32) の2 次の 項についても考察する 24 / 65
  25. 25. 2 次の項と精度行列 ! 2 次の項は次のように書ける 1 xT(1 − Λ + ATLA)x 2 − 2 yTLy + 1 2 yTLAx + 1 2 xTATLy = − 1 2 ! x y "T ! Λ + ATLA −ATL −LA L "! x y " = − 1 2 zTRz(33) ! よって、z 上のガウス分布の精度行列は R = ! Λ + ATLA −ATL −LA L " (34) になる 25 / 65
  26. 26. 共分散行列 ! 共分散行列は、行列の逆行列に関する公式(18) を適用して精 度の逆行列を求めることで求られる(演習2.29) cov[z] = R−1 = ! Λ−1 Λ−1AT AΛ−1 L−1 + AΛ−1AT " (35) 26 / 65
  27. 27. z 上のガウス分布の平均 ! 同様に、z 上のガウス分布の平均は、(32) の線形の項を調べ ることで、 xTΛμ − xTATLb + yTLb = ! x y "T ! Λμ − ATLb Lb " (36) で与えられる ! 多変量ガウス分布の二次形式部分を平方完成して得た以前の 結果より、z の平均は E[z] = R−1 ! Λμ − ATLb Lb " (37) を得る。式(35) より、 E[z] = ! μ Aμ + b " (38) を得る(演習2.30) 27 / 65
  28. 28. x を周辺化した周辺分布p(y) ! ガウス確率ベクトルの要素の部分集合上の周辺分布を、分割 された共分散行列で表したときの結果を利用する ! 周辺分布p(y) の平均と共分散は E[y] = Aμ + b (39) cov[y] = L−1 + AΛ−1AT (40) で与えられることがわかる 28 / 65
  29. 29. 条件付き分布p(x|y) ! 同様に、以前の結果を利用する E[x|y] = (Λ + ATLA)−1{ATL(y − b) + Λμ}(41) cov[x|y] = (Λ + ATLA)−1 (42) ! この条件付き分布は、ベイズの定理の例としても見ることが できる ! p(x) はx 上の事前分布と解釈できる ! 変数y が観測されれば、条件付き分布p(x|y) を用いて、x 上 での事後分布を表せる ! また、周辺分布と条件付き分布を求めれば、同時確率 p(z) = p(x)p(y|x) はp(x|y)p(y) の形でも表現できる 29 / 65
  30. 30. 2.3.4 ガウス分布の最尤推定 ! ある多変量ガウス分布から、観測値{xn} が独立に得られた と仮定したデータ集合 X = (x1, ..., xn)T (43) がある時その分布のパラメータは最尤推定法で推定できる ! 尤度関数は、 ln p(X|μ,Σ) = − ND 2 ln(2π) − N 2 ln |Σ|− 1 2 (N n=1 (xn − μ)TΣ−1(xn − μ) ! これを整理すると、尤度関数は次の2 つの量によってのみ依 存していることが分かる (N n=1 xn, (N n=1 xnxTn (44) ! これらをガウス分布の十分統計量という ! 十分統計量が分かると、その分布の形が一意に定まる 30 / 65
  31. 31. 最尤推定解 ! 最尤推定解は次のとおり μML = 1 N (N n=1 xn (45) ΣML = 1 N (N n=1 (xn − μML)(xn − μML)T (46) 31 / 65
  32. 32. 最尤推定解の期待値 ! 真の分布の下での最尤推定解の期待値を評価すると、次の結 果を得る(演習2.35) E[μML] = μ (47) E[ΣML] = N − 1 N Σ (48) ! 平均についての最尤推定量の期待値は真の平均に等しい ! 共分散の最尤推定量の期待値は真の値より小さいが、これは 別の推定量)Σ )Σ = 1 N − 1 (N (xn − μML)(xn − μML)T (49) n=1 を定義することで補正することができる 32 / 65
  33. 33. 2.3.5 逐次推定 ! 逐次的な方法では、データ点を一度に1 つずつ処理しては、 それを廃棄する ! オンラインな応用分野や、すべてのデータ点を一度に一括処 理することが不可能な大規模データ集合を扱う場合に重要 ! まずは、平均の最尤推定量μML について考える 33 / 65
  34. 34. 平均の最尤推定量の逐次推定 ML を変形すると、次のようになる ! μ(N) μ(N) ML = 1 N (N n=1 xn = 1 N xN + 1 N N(−1 n=1 xn = 1 N xN + N − 1 N μ(N−1) ML = μ(N−1) ML + 1 N (xN − μ(N−1) ML ) (50) 34 / 65
  35. 35. 逐次推定 ! この結果は次のように分かりやすく解釈できる μ(N) ML = 1 N (N n=1 xn (51) = μ(N−1) ML + 1 N (xN − μ(N−1) ML ) (52) ! N − 1 個のデータを観測した時点で、μ の推定値はμ(N−1) となっている。 ML ! ここで、データ点xN を観測すると、1/N に比例する小さな 量だけ「誤差信号」(xN − μ(N−1) ) の方へ、古い推定量を移 ML 動させて推定量μ(N) ML を修正する ! N が増えるにつれて、後続のデータ点からの影響はより小さ くなる 35 / 65
  36. 36. 汎用的な逐次学習の定式化 ! 先の例では、全体をまとめてバッチ処理する式と逐次推定す る式が等しいので、明らかに同じ解が得られる ! しかしこの方法で逐次アルゴリズムを導出することが、いつ もできるわけではない ! Robbins-Monro アルゴリズムを導入する 36 / 65
  37. 37. 準備 ! 同時分布p(z, θ) に従う確率変数θ とz の対を考える ! θ が与えられたときのz の条件付き期待値によって、決定論 的な関数f(θ) を定義する f(θ) ≡ E[z|θ] = % zp(z|θ)dz (53) ! このように定義された関数を回帰関数と呼ぶ ! ここでの目標は、f(θ∗) = 0 の根θ∗ を求めること 37 / 65
  38. 38. 仮定 ! 次のような仮定を置く E[(z − f)2|θ] < ∞ (54) θ(N) = θ(N−1) − aN−1z(θ(N−1)) (55) ! ただし、z(θ(N)) はθ が値θ(N) を取るときに観測されるz の値 ! 係数{aN} は以下の条件を満たす正数の系列 lim N→∞ aN = 0 (56) ! この過程が極限値に収束できるように、解の逐次的な修正量 を減らすことを保証 ∞( N=1 aN = ∞ (57) ! アルゴリズムが根以外に速すぎる収束をしないことを保証 ∞( N=1 a2 N < ∞ (58) 38 / 65 ! 蓄積されたノイズの分散を有限に抑え、収束を阻害しないこ
  39. 39. Robbins-Monro アルゴリズム ! 定義より、最尤推定解θML は負の対数尤度関数の停留点で あるため、 − ∂ ∂θ * 1 N (N n=1 ln p(xn|θ) +,,,,, θML = 0 (59) ! 微分と総和の演算を交換し、N →∞の極限を考えると次の 式を得る − lim N→∞ 1 N (N n=1 ∂ ∂θ ln p(xn|θ) = Ex - − ∂ ∂θ ln p(x|θ) . (60) 39 / 65
  40. 40. Robbins-Monro 手続きの適用 ! 最尤推定解を求めることは、回帰関数の根を求めることに相 当することがわかる ! ゆえに、次の形でRobbins-Monro 手続きを適用できる θ(N) = θ(N−1) − aN−1 ∂ ∂θ(N−1) [−ln p(xN|θ(N−1))] (61) 40 / 65
  41. 41. ガウス分布への適用 ! パラメータθ(N) はガウス分布の平均の推定量μ(N) ML であり、 確率変数z は z = − ∂ ∂μML ln p(x|μML,σ2) = − 1 σ2 (x − μML) (62) ! 式(62) を式(61) に代入し、係数aN をaN = σ2/N となるよ うに選ぶと、式(50) の1 変数の形式のものが得られる 41 / 65
  42. 42. 2.3.6 ガウス分布に対するベイズ推論 ! 今までは最尤推定の枠組みのガウス分布パラメータμ とΣ の点推定量を得た ! 次に、事前分布を導入してベイズ主義的に扱う ! まずは1 変数のガウス確率関数x について考える ! 分散が既知のとき ! 平均が既知のとき ! 平均も分散も未知のとき 42 / 65
  43. 43. 分散が既知のときの事前分布 ! 分散σ2 は既知とし、与えられたN 個の観測値集合 x = {x1, ...,xN} から、平均μ を推定する ! μ が与えられたときに観測データが生じる確率である尤度関 数はμ の関数と見なせて、 p(X|μ) = N/ n=1 p(xn|μ) = 1 (2πσ2)N/2 exp * − 1 2σ2 (N n=1 (xn − μ)2 + ! 尤度関数を見ると、μ についての二次形式の指数の形を取っ ている ! 事前分布p(μ) にガウス分布を選べば、この尤度関数の共役 事前分布となる 43 / 65
  44. 44. 事後分布 ! 事前分布を次のようにする p(μ) = N(μ|μ0,σ2 0) (63) ! すると事後分布は p(μ|X) = p(X|μ)p(μ) p(X) ∝ p(X|μ)p(μ) (64) となる 44 / 65
  45. 45. 事後分布の平均と分散 ! 事後分布の指数部分は、 exp # − 1 2σ2 0 (μ − μ0)2 $ exp * − 1 2σ2 (N n=1 (μ − xn)2 + = exp * − 1 2 ! 1 σ2 0 + N σ2 " μ2 + 0 μ0 σ2 0 + 1 σ2 (N n=1 xn 1 μ + C0 + ! 平方完成と正規化によって平均μN, 分布σ2N のガウス分布の 形にすることができる。ただし、 μN = σ2 0 + σ2 μ0 + Nσ2 Nσ2 0 0 + σ2 μML (65) Nσ2 1 σ2N = 1 σ2 0 + N σ2 (66) μML = 1 N (N n=1 xn (67) 45 / 65
  46. 46. 平均と分散の性質 μN = σ2 0 + σ2 μ0 + Nσ2 Nσ2 0 0 + σ2 μML (68) Nσ2 1 σ2N = 1 σ2 0 + N σ2 (69) ! N → 0 なら、予想通り式(68) は事前分布の平均 ! N →∞なら、事後分布の最尤推定解となる ! 事後分布の精度は事前分布の精度に各観測データ点からの データ精度への影響分を加えたものになる ! データ点が増えるにつれ、精度が確実に増加する 46 / 65
  47. 47. 事後分布のもう一つの見方 ! ガウス分布の逐次推定では、N 個のデータ点を観測した後の 平均はN 番目のデータ点xN の影響とN − 1 個のデータ点 を観測した後の平均とでも表現できた ! このことをガウス分布の平均の推論の場合について示す p(μ|X) ∝ 2 p(μ) N/−1 n=1 p(xn|μ) 3 4 56 7 p(xN|μ) (70) N − 1 個のデータ点を観測した後の事後分布 ! この項を事前分布とし、データ点xN についての尤度関数を ベイズの定理によって結合すれば、この式全体はN 個の データ点を観測した後の事後分布とみなせる 47 / 65
  48. 48. 分散が既知の場合:N が増えたときの事後分布の変化 N = 0 N = 10 N = 2 N = 1 5 0 −1 0 1 48 / 65
  49. 49. 平均が既知の場合 ! 簡単のため、精度λ ≡ 1/σ2 で操作する ! 尤度は次のようになる p(X|λ) = N/ n=1 N(xn|μ, λ−1) = λN/2 exp * − λ 2 (N n=1 (xn − μ)2 + (71) ! この式から、精度の共役事前分布は、λ のベキ乗と、λ の線 形関数の指数の積に比例させる ! ガンマ分布 49 / 65
  50. 50. ガンマ分布 ! ガンマ分布の定義 Gam(λ|a, b) = 1 Γ(a) baλa−1 exp(−bλ) (72) ! ここで、Γ(a) は式(72) が正しく正規化されることを保証 ! ガンマ分布の平均と分散は E[λ] = a b (73) var[λ] = a b2 (74) λ a = 0.1 b = 0.1 0 1 2 2 1 0 λ a = 1 b = 1 0 1 2 2 1 0 λ a = 4 b = 6 0 1 2 2 1 0 50 / 65
  51. 51. 事後分布 ! 事前分布Gam(λ|a0, b0) に尤度関数(71) をかけると、事後 分布 p(λ|X) ∝ λa0−1λN/2 exp * −b0λ − λ 2 (N n=1 (xn − μ)2 + (75) が得られる ! 正しい係数は後から簡単に求められるため、事前分布や尤度 関数で正規化係数を維持更新する必要はない ! これはパラメータを次のように設定したときの、ガンマ分布 Gam(λ|aN, bN) であることが分かる aN = a0 + N 2 (76) bN = b0 + N 2 σ2 ML (77) 51 / 65
  52. 52. 事前分布のパラメータの解釈 aN = a0 + N 2 bN = b0 + N 2 σ2 ML ! a0 は、2a0 個の「有効な」観測値が事前にあると解釈できる ! b0 は、その分散がb0/a0 であるような、2a0 個の「有効な」 観測値が事前にあると解釈できる 52 / 65
  53. 53. 逆ガンマ分布 ! 今までは精度について考えて、ガンマ分布を導入した ! 一方、分散そのものについて考えることもできる ! 逆ガンマ分布 ! ここでは触れない 53 / 65
  54. 54. 平均と分散が未知の場合 ! 平均と分散が未知の場合には、共役事前分布を求めるために 尤度関数のμ とλ への依存関係について考える p(X|μ, λ) = N/ n=1 ! λ 2π "1/2 exp # − λ 2 (xn − μ)2 $ ∝ - λ1/2 exp ! − λμ2 2 ".N exp * λμ (N n=1 xn − λ 2 (N n=1 x2 n + (78) 54 / 65
  55. 55. 事後分布 ! ここでは、尤度関数と同じμ とλ への関数依存性を備えた事 前分布p(μ, λ) を求めたいので、分布は次の形式になる p(μ, λ) ∝ - λ1/2 exp ! − λμ2 2 ".β exp {cλμ − dλ} = exp # − βλ 2 (μ − cβ)2 $ λβ/2 4 56 7 p(μ|λ):ガウス分布 exp # − ! d − c2 2β " λ $ 4 56 7 p(λ):ガンマ分布 (79) ! よって、定数μ0 = c/β, a = (1+β)/2, およびb = d − c2/2β を新たに定義すると、正規化した事前分布は次の形を取る p(μ, λ) = N(μ|μ0, (βλ)−1)Gam(λ|a, b) (80) ! この分布を正規-ガンマ分布やガウス-ガンマ分布と呼ぶ 55 / 65
  56. 56. 正規-ガンマ分布の特徴 p(μ, λ) = N(μ|μ0, (βλ)−1)Gam(λ|a, b) ! この分布は、独立なμ 上のガウス事前分布とλ 上のガンマ事 前分布の単純な積ではない ! μ の分布の精度はλ の線形関数になっているため ! たとえμ とλ が独立な事前分布を選んでも、事後分布ではμ の分布の精度とλ との間に関連が生じる 56 / 65
  57. 57. 多次元変数の場合 ! これまで1 次元変数の場合を考えたが、次にD 次元変数の多 変量ガウス分布の場合を考える ! 分散が既知のとき ! 平均が既知のとき ! 平均も分散も未知のとき ! 分散を既知とすれば、平均μ の共役事前分布は、またガウス 分布になる p(X|μ) = N/ n=1 p(xn|μ) ∝ 1 |Σ|N/2 exp * (N n=1 − 1 2 (xn − μ)TΣ−1(xn − μ) + 57 / 65
  58. 58. 平均が既知の場合 ! 平均が既知で、精度行列Λ が未知なら、共役事前分布は次式 のウィシャート分布となる W(Λ|W, ν) = B|Λ|(ν−D−1)/2 exp ! − 1 2 Tr(W−1Λ) " (81) B(W, ν) = |W|−ν/2 0 2νD/2πD(D−1)/4 D/ i=1 Γ ! ν + 1 − i 2 "1−1 (82) ! ここでも、精度行列上ではなく、共分散行列上の共役事前分 布を定義できる ! 逆ウィシャート分布(ここでは触れない) 58 / 65
  59. 59. 平均と精度の両方が未知の場合 ! 平均と精度の両方が未知なら、1 変数の場合と同様に考える ことで次の共役事前分布が得られる p(μ,Λ|μ0,β,W, ν) = N(μ|μ0, (βΛ)−1)W(λ|W, ν) (83) ! 正規-ウィシャート分布またはガウス-ウィシャート分布と 呼ぶ 59 / 65
  60. 60. 2.3.7 スチューデントのt 分布 ! これまでに、ガウス分布の精度パラメータの共役事前分布が ガンマ分布となることを見てきた ! 1 変数のガウス分布N(x|μ, τ−1) において、ガンマ分布 Gam(τ |a, b) を精度の事前分布とし、そこから精度を積分消 去し、z = τ [b + (x − μ)2/2] の変数の置換を用いると、x の 周辺分布は次式となる p(x|μ, a, b) = % ∞ 0 N(x|μ, τ−1)Gam(τ |a, b)dτ (84) = ba Γ(a) ! 1 2π "1/2 - b + (x − μ)2 2 .−a−1/2 Γ(a + 1/2) (85) 60 / 65
  61. 61. スチューデントのt 分布 ! 慣例により、ν = 2a とλ = a/b のパラメータを新たに定義す ると、スチューデントのt 分布が得られる St(x|μ, λ, ν) = Γ(ν/2 + 1/2) Γ(ν/2) ! λ πν "1/2 - 1 + λ(x − μ)2 ν .−ν/2−1/2 (86) ! パラメータλ はt 分布の精度とも呼ばれるが、必ずしも分散 の逆数とは限らない ! パラメータν = 1ではコーシー分布、ν →∞では平均がμ で 精度がλ のガウス分布になる ! 式(84) より、スチューデントのt 分布は、平均は同じだが精 度は異なるようなガウス分布を無限個足し合わせたものであ ることがわかる ! ガウス分布の無限混合分布(詳細は2.3.9 節) 61 / 65
  62. 62. スチューデントのt 分布 ν →∞ ν = 1.0 ν = 0.1 0.5 0.4 0.3 0.2 0.1 0 −5 0 5 62 / 65
  63. 63. 頑健性と回帰問題 ! スチューデントのt 分布はガウス分布より一般に「すそ」が 長く、頑健性を持つ ! 外れ値となっている少数のデータ点があっても、ガウス分布 よりは影響されにくい 0.5 0.4 0.3 0.2 0.1 −5 0 5 10 (a) 0 0.5 0.4 0.3 0.2 0.1 −5 0 5 10 (b) 0 63 / 65
  64. 64. 多変量のスチューデントt 分布 ! 式(84) に戻って、パラメータをν = 2a, λ = a/b, および η = τ b/a と置き換えると、t 分布は次の形に書ける St(x|μ, λ, ν) = % ∞ 0 N(x|μ, (ηλ)−1)Gam(η|ν/2, ν/2)dη (87) ! これは多変量ガウス分布の場合に一般化でき、多変量ス チューデントt 分布に相当するものが次式で得られる St(x|μ,Λ, ν) = % ∞ 0 N(x|μ, (ηΛ)−1)Gam(η|ν/2, ν/2)dη (88) 64 / 65
  65. 65. 多変量のスチューデントt 分布 ! 1 変数の場合と同じように、積分を計算すると St(x|μ,Λ, ν) = Γ(D/2 + ν/2) Γ(ν/2) |Λ|1/2 (πν)D/2 - 1 + Δ2 ν .−D/2−ν/2 (89) Δ2 = (x − μ)TΛ(x − μ) (90) を得る ! これはスチューデントt 分布の多変量型で、1 変数の結果に 対応した、次の性質を満たす E[x] = μ, ν>1 のとき(91) ν cov[x] = (ν − 2) Λ−1, ν>2 のとき(92) mode[x] = μ (93) 65 / 65

×