確率的主成分分析

確率的主成分分析
PRML 12.2
2015.08.25 PCA勉強会
Mika Yoshimura

PCA(最小二乗法)
xn
!xn =Uzn + x
→UはJを最小化する固有ベクトル
zn =UT
(xn − x)
The
op'mal
linear
reconstruc'on
J =
1
N
xn − !xn
2
n=1
N
∑
https://liorpachter.wordpress.com/tag/probabilistic-pca/

確率的PCA
x = y(z;w)+ε潜在変数モデル：
→潜在変数zの事前分布+ノイズεの分布から
データ空間のxを生成する
等方性の
Gaussian noise
y(z;w)
N(0,σ 2
I)
xn
部分空間上の
潜在データ点
x = Wz +µ +ε
•  W : D*M行列, 部分空間を張る
•  z : M次元の潜在変数
•  μ : D次元ベクトル
•  ε : D次元の平均0,共分散σ^2I の
ガウス分布に従うノイズ変数

確率モデルとしてのPCA
•  潜在変数zの事前分布と条件付き確率
x = Wz +µ +ε
p(z) = (2π)−M /2
exp −
1
2
zT
z
"
#
$
%
&
'
=N(z | 0, I)
p(x | z) = (2πσ 2
)−D/2
exp −
1
2σ 2
x −Wz −µ
2"
#
$
%
&
'
= N(x |Wz +µ,σ 2
I)
p(x) = p(x | z)p(z)dx = (2π)−D/2
C
−1/2
exp −
1
2
(x −µ)T
C−1
(x −µ)
"
#
$
%
&
'
∫ = N(x | µ,C)
C =σ 2
I +WWT
•  W : D*M行列, 線形部分空間を張る
•  z : M次元の潜在変数
•  μ : D次元ベクトル
•  ε : D次元の平均0,共分散σ^2I の
ガウス分布に従うノイズ変数
→ p(x)を求めるには、Cの逆行列が必要
C−1
=σ −2
I −σ −2
WM−1
WT
M = WT
W +σ 2
I
逆行列の恒等式によると
→M*M次元の計算になる！

事後分布と尤度関数
•  事後分布

•  尤度関数
p(z | x) = p(x | z)p(z) / p(x)
p(z | x) = (2π)−M /2
σ −2
M
1/2
exp −
1
2
x − M−1
WT
(x −µ){ }
T
(σ −2
M) x − M−1
WT
(x −µ){ }
"
#$
%
&'
= N(z | M−1
WT
(x −µ),σ 2
M−1
)
L = ln p(xn |W,µ,σ 2
){ }= −
N
2n=1
N
∑ Dln(2π)+ ln C +tr(C−1
S){ }
S =
1
N
(x −µ)(x −µ)T
n=1
N
∑ →xの標本共分散行列
N(z |(I +σ −2
WT
W)−1
WT
σ −2
I(x −µ),(I +σ −2
WT
W)−1
)
= N(z | M−1
WT
(x −µ),σ 2
M−1
)
PRML
演習12.8 →
M = WT
W +σ 2
I
C =σ 2
I +WWT

最尤法を使う
µML =
1
N
xn
n=1
N
∑
∂L
∂W
= N(C−1
SC−1
W −C−1
W) WML =UM (ΛM −σ 2
I)1/2
R
※Tipping and Bishop(1999b) による閉形式の厳密解
Um ：D*M行列。共分散行列Sの固有ベクトルの部分集合
Λm：M*M対角行列。固有値λiを要素にもつ
R：任意のM*M直交行列。M次元の潜在変数空間の回転行列
尤度関数の最大値は、上記M個の固有ベクトルを固有値の上位M個に属するものに
なるように選ぶことで得られる。（その他のすべての停留点は鞍点となる）
→Λmは、共分散行列Sの固有値上位λ1,…λm
σ 2
ML =
1
D − M
λi
i=M+1
D
∑ →切り捨てられた次元に関連する分散の平均
SC−1
W = W

次元削減と再構成
•  PCA
•  確率的PCA
•  最適化
– 確率的PCAの式では、直交射影が歪む
– 再構成式の修正
– 期待値を使わなくても良いらしい
!xn =UM zn +µzn =UM
T
(xn −µ)
<z_n> : 事後分布p(z¦x)から求めた期待値
!xn = WML zn +µ
!zn = WML
T
(xn −µ) !xn = WML (WML
T
WML )−1
!zn +µ
!xn = WML (WML
T
WML )−1
M zn +µ
Mixtures of probabilistic principal component analysers , Neural Computation 11(2), pp 443‒482. MIT Press.
zn = M−1
WML
T
(xn −µ)
WML = WML (WML
T
WML )−1
M

ノイズ項の効果 (D=2,M=1)
等方性の
Gaussian noise
y(z;w)
N(0,σ 2
I)
xn
部分空間上の
潜在データ点
最尤推定した
モデル
主成分空間に
射影された
データ点
最小二乗法で得られた直線
(ノイズパラメータあり)
最小二乗法で得られた直線
(ノイズパラメータなし)

EMアルゴリズム
•  利点
– 高次元空間では計算量的に有利
– 見通しよく欠損データを扱える
•  完全データの対数尤度関数
•  EステップとMステップはいつもの
ln p(X, Z | µ,W,σ 2
) = ln p(xn | zn )+ ln p(zn ){ }
n=1
N
∑
Ε p(X, Z | µ,W,σ 2
)"
#
$
% Wnew σ 2
new

ベイズ的な扱い
•  各パラメータの事前分布を与える
•  ベイズ的パラメータ推定を適用する
•  利点
– 自動次元数選択ができる
•  しかし
– 厳密なベイズ推定は実行不可能(周辺化無理)
– 部分ベイスや変分ベイズで近似的に実行する

確率的PCAの利点まとめ
•  要約すると
– EMアルゴリズムが使える
– ベイズ的取り扱いの基礎を与える
•  何がいいのか
– 共分散行列を計算しなくていい(EM)
– オンライン化できる(EM)
– データ集合内の欠損値を扱える(EM)
– 確率的PCAの混合モデルを定式化できる(EM)
– 次元数を自動的に見出せる(ベイズ)
– などなど

確率的主成分分析

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 確率的主成分分析

Similar to 確率的主成分分析 (20)

確率的主成分分析