パターン認識と機械学習(PRML)第2章 確率分布2.3 ガウス分布山下長義Twitter ID: @nagayoshi3Blog: http://d.hatena.ne.jp/nagayoshi3/1
2.3 ガウス分布2ここで使われている技法を用いてガウス分布を扱うことに慣れておけば,後のもっと複雑なモデルを理解するのに役立つので,ぜひ熟読されたい(p.77) .
1変数の場合
多変数の場合μはD次元の平均ベクトル,∑はD×D共分散行列,|∑|は∑の行列式3
中心極限定理確率変数の平均は,足しあわされる変数が増えるに従って徐々にガウス分布に従うようになる.例)一様分布に従うN個の確率変数の平均4
ガウス分布の幾何的な形状ガウス分布は,指数部分に現れる二次形式(2.44)を通してxに依存する.この二次形式の値がx空間中で定数となる面で,ガウス分布の密度は一定になる.また,任意の反対称な要素は指数から消える.i=1,…,Dについて共分散行列に対する固有ベクトルの方程式を考える.ここで,共分散行列∑は実対称行列なので,次のように互いに正規直交するようなものを選ぶことが可能である.(ヤコビ行列式の二乗を1にするために正規直交するように選ぶ.)5
これらの固有ベクトルを用いて,と表せる.(2.44)に代入とここで(2. 50) となる.yiはもとのxi の座標系を平行移動し,回転した正規直交ベクトルUiで定義された新しい座標系と解釈できる.となる.           にまとめると,(2.52)6となる。UはuiTをi行に持つ直交行列となる.
xからyの座標系に写すために,ヤコビ行列Jを用いる.その要素は,(2.53)で与えられる.ただし,Uijは行列UTの要素である.ヤコビ行列の行列式の2乗は,                                (2.54)なので,|J|=1 となる.7
共分散行列の行列式|∑|も固有値の積で書けるのでとなる.よってyi座標系では,多変量ガウス分布はD個の独立は1変数ガウス分布の積になる.8図2.7 分布の密度が一定である楕円体の面を赤い曲線で示す.共分散行列の固有値λ_1(軸方向の縮尺)に対応する固有ベクトルu_iで楕円の軸は定義されている.
ガウス分布のモーメントを求め,それに基づいてパラメータを解釈する.指数部分はzの偶関数であり対称であるため消える.μはガウス分布の平均と解釈できる.9
パラメータ行列Σによりガウス分布の下でのXの共分散が決まるため,このパラメータを共分散行列と呼ぶ.二次元空間のガウス分布の確率密度が一定になる等高線を示したもの.それぞれの共分散行列が,(a)一般のもの (b)対角行列 (c)単位行列10
2.3.1 条件付きガウス分布条件付きガウス分布の平均と分散を求める.最初に条件付き分布の場合を考える.Xをガウス分布N(x|μ,Σ)に従うD次元ベクトルとし,互いに素な部分集合XaとXbに分割する.これに対応する平均と共分散行列も同様に与える.(2.65)(2.66)(2.67)共分散の対称性から,       である。また,Λ ≡Σ-1 (2.68)とし,これを精度行列とする.(2.69)同様に,       である。11
ガウス分布の指数部分の二次形式を利用すると効率よく解が得られる.指数部分の二次形式は(2.65),(2.66),(2.69)を利用すると,この式をx aの関数と見ると,二次形式になっているので,対応する条件付き分布p(xa|xb)もガウス分布になる.12
13よって,N(x|μ,Σ)の指数部分が(2.71)のように書ける.(2.71)式のxの係数
任意の二次形式の係数とを比較することで μ と Σが求まる.
(2.70)のxaの2次の項と(2.71)のxの2次の項とを比較して(2.73)を得る.14
(2.70)の線形項(         の関係を利用する)と (2.71)の線形項とを比較して,(2.75)これらの式から,ガウス分布の条件分布の平均は,xの線形関数で,共分散はxとは独立であることが分かる.15
分割された行列の逆行列に関する公式と,次の定義とを用いて,を得る.これらの式から,条件付き分布       の平均と分散について次式を得る.16
2.3.2 周辺ガウス分布2つの変数集合の同時分布がガウス分布に従うなら,どちらの変数集合の周辺分布も同様にガウス分布になることを示すため,以下のようにXbを積分消去する.17
X_bを積分消去する 1. (2.70)におけるXbを含む項ただし,mは,右辺第1項は標準的なガウス分布の二次形式部分に相当するので,この二次形式の指数を取り,Xbで積分すると,以下のようになる.この積分は正規化されていないガウス分布である.平均とは独立で共分散行列の行列式にのみ依存するため,平均がどのような値であっても一定(正規化係数の逆数)となり,Xbを積分消去することができる.18
2. 右辺の最後の項これを再び(2.71)と比較する2次の項の係数を比較すると,周辺分布p(xa)の共分散は,19
20同様に,平均はxの線形項の係数を比較するととなり,精度行列とシューア補行列を用いて,を得る.周辺分布p(xa)の平均と共分散は,分割された共分散行列について非常に簡潔に表現されることがわかった.(2.92)(2.93)
212つの変数集合の同時分布がガウス分布に従うなら,一方の変数集合が与えられたときの,もう一方の条件付き分布もガウス分布に従う(赤) .どちらの変数集合の周辺分布も同様にガウス分布になる(青).右の図は2変数のガウス分布p(x_a,x_b)の等高線.周辺分布p(x_a)(青)とx_a=0.7での条件付き分布p(x_a|x_b)(赤)
2.3.3 ガウス変数に対するベイズの定理22ガウス周辺分布p(x)平均がXの線形関数で,共分散はXと独立であるようなガウス条件付き分布p(y|x)が与えられているとする. このとき,周辺分布p(y)と条件付き分布p(x|y)を求める.23xとyの同時分布を求める.次のようにzを定義する.同時分布の対数を考えると,(2.102)これはzの要素の二次関数なので,p(z)もガウス分布となる.x,yの2次の項を取り出すと,
よって,z上のガウス分布の精度行列は(2.71)の2次の項と比較して,(2.104)になる.(2.104)共分散行列は,シューアの補行列(2.76)を用いて以下のようになる.(2.105)24
同様に,z上のガウス分布の平均は,線形項を調べることで与えられる.多変量ガウス分布の二次部分を平方完成して得た以前の結果(2.71)より,zの平均は,                    (2.107)を得る。(2.105)を用いると,                    (2.108)を得る.25
Xを周辺化した周辺分布p(x)の平均と分散を求める.ガウス確率ベクトルの要素の部分集合上の周辺分布が,分割された共分散行列で表すと簡潔になった(平均と分散は,(2.92)と(2.93)であたえられた)ことから,(2.105)と(2.108)を用いると,周辺分布の平均と分散は,以下のようになる.(2.109)(2.110)26
条件付き分布p(x|y)を求める.(2.75),(2.73)より分割された精度行列によって条件付き分布を表現できたことから,これらの結果を,(2.105)と(2.108)に適用すると,条件付き分布p(x|y)の平均と分散は以下の式になる.平均 (2.75)分散 (2.73)27
2.3.4 ガウス分布の最尤推定28ある多変量ガウス分布から,観測値{xn}が独立に取れたデータ集合X=(x1,…,xN)Tがある時,パラメータを最尤推定法で求める.
対数尤度関数は,なので,対数尤度μとΣそれぞれの導関数を0とおくと,最尤推定による平均と,分散が得られる.(2.121)
29この真の分布の下での期待値を評価すると次の結果を得る.共分散の最尤推定量は真の値より小さく,不偏推定にはならないので,以下のように補正する.
2.3.5逐次推定逐次的な方法では,データ点を一度に1つずつ処理してはそれを破棄する.これは,オンラインな応用分野や,すべての点を一度に一括処理することが不可欠な大規模データ集合を扱う場合に重要である.平均の最尤推定量μMLについての結果(2.121)の場合について考える.N個の観測値に基づいて推定した結果をμML(N)で表し,最後のデータ点XNがどれくらい影響したかを調べる.30(2.121)
  を得る.この結果は,N-1個のデータ点を観測した時点で,μの推定値は μML(N-1)となっている.ここで,データ点をXN観測すると,1/Nに比例する小さな量だけ,「誤差信号」(XN-μML(N-1))の方へ,古い推定量を移動させて,推定量μML(N)を修正している.31
しかし,この方法で逐次アルゴリズムを導出することが,いつもできるわけではない.そこで,より汎用的な逐次学習の定式が必要となる.Robbins-Monroアルゴリズム同時分布p(z,θ)に従う確率変数θとzの対を考える.θが与えられたときのzの条件付き期待値によって決定関数 f(θ)を定義する.ここでは,f(θ*)=0の根θ*を求めるためにRobbins-Monroアルゴリズムを用いる.32
まずzの条件付き分散は,次のように有限であると仮定する.さらに,図2.10のようにθ>θ*ではf(θ)>0を, θ<θ*ではf(θ)<0を仮定する.n-1個のデータを観測したあとの推定値を θ(N-1)このパラメータの下でのn個目のzの観測値はz(θ(N-1))とする.このときn回目のパラメータを次式で更新する.33
ただし,z(θ(N))は,θがθ(N)を取るときに観測されるzの値で,係数{aN}は以下の条件を満たす正数の系列である.このとき,(2.129)で与えられる推定系列が,目標の根に確率1で収束することを示すことができる.34
Robbins-Monroアルゴリズムを用いて,一般的な最尤推定問題は,どのように逐次的に解けるかについて考える.最尤推定解θMLは,負の対数尤度関数の停留点であるため,微分と総和の演算を交換し,N->∞の極限を考えると,35
最尤推定解を求めることは,回帰関数の根を求めることに相当するので,以下のようにRobbins-Monro手続きを適用できる.36
具体例としてガウス分布の平均の逐次推定について考える.この場合,パラメータθ(N)は,ガウス分布の平均の推定量μML(N)であり,確率変数zはで与えられる.よって図2.11のように,zの分布は,平均が-(μ-μML)/σ2のガウス分布となる.37
2.3.6 ガウス分布に対するベイズ推論ここではパラメータの事前分布を導入して,ガウス分布のベイズ主義的な扱い方を導く.分散σ2は既知とし,平均μ の分布をベイズ的に推定する.μ が与えられたときに生じる確率である尤度関数はとなる.38
この尤度関数を見ると, μ についての二次形式の指数の形を取っている.よって,事前分布p(μ)にガウス分布を選べば,この尤度関数の共役事前分布となる.  なぜなら,これを用いた時の事後分布は,μについての2次関数の指数を2つ掛けた形式になるため,これもまたガウス分布となるからである.そこで,事前分布を次のように取ると,事後分布は以下のように表すことができる.39
指数部分を平方完成する簡単な変形によって,事後分布は次のように表せることが示される.  平均  分散である.40(サンプル平均)
事後分布の平均 μ¥事後分布の分散 有限のNについても,事前分布の分散で無限大を取ると,事後分布の平均は最尤推定の結果に一致するが,事後分布の分散は,σ2N=σ2 / Nとなる.以上の議論は平均が未知の多次元ガウス分布にもそのまま一般化できる.41
カギ括弧内の項は(正規化係数を除く),N-1個のデータ点を観測したあとの事後分布にちょうど一致する.この項を事前分布とし,データ点xNについての尤度関数をベイズの定理によって結合すれば,この式全体はN個のデータ点を観測した後の事後分布とみなすことができる.ベイズ推論を,逐次推定の視点で捉えることは非常に汎用的で,観測データが独立同分布に従うと仮定したどんな問題にも適用できる.42
平均を既知として分散を推定する.Λについての尤度関数は次式になる.この式から,精度の共役事前分布は, λ のべき乗と λの線形関数の指数の積に比例しなければならない.この条件には,ガンマ分布があてはまる.以上より、事前分布 Gam(λ|a0,b0) に尤度関数を掛ければ,事後分布が得られる.43
これは,パラメータを次のように設定したときの,ガンマ分布 Gam(λ | aN, bN) であることがわかる.ただし,σML2は分散の最尤推定量である.これらより,N 個のデータ点を観測すると係数 a はN/2増やす効果がある.(事前分布のパラメータ a0は  2a0の「有効な」観測点が事前にあることを示すと解釈できる.)

パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布