More Related Content
Similar to PRML輪読#12 (20)
PRML輪読#12
- 6. 12.1.1 分散最⼤化による定式化
6
• 𝒖 𝟏に射影することを考える(𝑢$が知りたい)
– 𝑢$を単位ベクトルとする(スカラーは無意味)
– 正射影ベクトルは
(𝒖 𝟏,𝒙 𝒏)
𝒖 𝟏
* 𝒖 𝟏 **(𝒖 𝟏, 𝒙 𝒏)は内積
であるから,
• 平均: 𝒖 𝟏
𝑻
𝒙-
• 分散: 𝒖 𝟏
𝑻
𝑺 𝒖 𝟏 **𝑺は共分散⾏列
– 𝒖 𝟏 = 1の制約のもとで分散 𝒖 𝟏
𝑻
𝑺 𝒖 𝟏を
ラグランジュで最⼤化
– これを解くと,
𝒖 𝟏が𝑺の固有ベクトル
– 分散は,固有値に対応
- 9. 12.1.2 誤差最⼩化による定式化
• ラグランジュでJを最⼩化するz49と𝑏;を求める
• i=1,2,,,,M, j=M+1,,,,D
– 以上の結果と(12.9)より,(12.10)に関して以下のように表される
– 𝒙 𝒏<から𝒙 𝒏への変位を表すベクトルは,主部分空間に直⾏する空間にあたる({𝒖𝒊},
i=M+1, M+2,,,Dの空間であるから,i=1,2,,,Mで構成される主部分空間のベクトルと
は直⾏する)
– 𝒖 𝟏 = 1の元でJを最⼩化(ラグランジュ)
– 歪みjに関して,固有値が⼩さいものをD-M個選んだものとなる
9
- 11. 12.1.3 主成分分析の応⽤
• 正規化
– 主成分分析を⽤いることで,異なる変数を無相関化できる
*Lは対⾓要素𝜆9を持つD*Dの対⾓⾏列,Uは列ベクトルが𝒖𝒊で与えられるD*Dの直⾏⾏
列
– 以下の式で変換
– ⽩⾊化,球状化などと呼ばれる
• データの可視化
11
白色化
- 12. 12.1.4 ⾼次元データに対する主成分分析
• データ点が少ない場合, N < M(<-D)となってしまうと次元削減する意味が
ない
• 通常のアルゴリズムだと,𝑂(𝐷@
)の計算量がかかる
– Xをn番⽬の⾏が 𝑥4 − 𝑥̅ 7で与えられるN*D次元の⾏列とすると,共分散⾏列は
𝑆 = 𝑁E$ 𝑋7 𝑋となり,対応する固有ベクトルは,
N*N⾏列の𝑁E$ 𝑋7 𝑋に対する固有⽅程式になっているので,計算量は𝑂(𝑁@)
12
- 13. 12.2 確率的主成分分析
• 確率的な潜在変数モデルの最尤解として表現
– 制限付きのガウス分布に従う
– ベイズ的な扱いができる(ex:EMアルゴリズム)
– ⽣成モデルとして利⽤できる
– 分類問題にも適⽤できる
• 潜在変数空間から観測データ空間への写像を考える
1. 潜在変数zの事前分布を明⽰的に導⼊ 𝑃 𝒛 = 𝑁(𝒛|𝟎, 𝑰)
2. 観測変数xについての条件付き分布 𝑃 𝒙|𝒛 = 𝑁(𝑾𝒛 + 𝝁, 𝝈 𝟐 𝑰)からxをサンプリング(こ
の時ノイズを加える)
3. パラメタ𝑾, 𝝁, 𝝈などを周辺確率の最尤推定で求める 𝑃 𝑥 = ∫ 𝑃 𝑥 𝑧 𝑝 𝑧 𝑑𝑧
13
- 14. 12.2.1 最尤法による主成分分析
• データ点の集合𝑋 = {𝑥4}が与えられた時,対数尤度関数は,
– これをラグランジュで解いていく(基本的にはとても複雑)
• CがRには依存してない=>回転不変性
– 確率的主成分分析は,データの中の主要な相関関係を捉えつつ,⾃由度の数(独⽴なパ
ラメタの数)を⾃動で調整してくれる
14
- 16. 12.2.3 ベイズ的主成分分析
• 今までは主部分空間の次元Mを決めていた
– ベイズ的な扱いでMを定めることができるはず
– モデルをベイズ的な取り扱いで選択=>モデルのパラメタを周辺化することが難しい
– エビデンス近似に基づいた⼿法 =>関連度⾃動決定(AED: 7.2.2項)
1. Wの列ベクトルの精度パラメタ𝛼9による事後分布を考える
2. 𝛼9の値を周辺尤度関数の反復的な最⼤化により⾒出す
3. 結果的に疎な解が得られ,主部分空間で有効な次元は有限な𝛼9の個数で決定する
16
- 22. 12.4 ⾮線形潜在変数モデル
• 今までの話
– 連続潜在変数のモデルのうちて最も単純なモデルである線形ガウス分布に基づくモデル
に注⽬していて、実⽤的,解析が⽐較的容易,データへのフィッティングも簡単
• 本節の話
– ⾮線形もしくは⾮ガウス(またはその両⽅)にモデルを拡張する
– ⾮線形性と⾮ガウス性は互いに関係していて,それは⾮線形の変数変形を⾏うとガウス
分布から⼀般の確率密度関数が得られるからである
22
- 25. 12.4.3 ⾮線形多様体のモデル化
1. 区分線近似を⽤いた多様体の表現
– K-meansでクラスタリングしたのちにグループごとに主成分分析
2. 確率的主成分分析を混合 + EM
3. ベイズ的主成分分析 + 変分推論
4. 線形モデル ->⾮線形モデルに射影
– 主成分曲線,局⾯,超局⾯
5. 可視化
– 多次元尺度構成法
– ⾮計量多次元尺度構成法
6. ノンパラメトリックな次元削減と可視化
– 局所線形埋め込み(LLE)
– 等⻑特徴写像(isomap)
7. 潜在特性モデル
8. 密度ネットワーク
9. ⾮線形関数の制限 + 潜在変数の分布を適切に選択
25
- 26. 参考・引⽤資料
• パターン認識と機械学習 下
– C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕
治 (監訳), 村⽥ 昇 (監訳)
• PRML§12-連続潜在変数 (Keisuke OTAKI, SlideShare)
– https://www.slideshare.net/taki0313/prml12
• 具体例で学ぶ数学正規直交基底(定義、求め⽅、性質)
– http://mathwords.net/seikityokkoukitei
26