Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

PRML輪読#12

1,257 views

Published on

東京大学松尾研究室におけるPRML輪読資料です。

Published in: Education
  • Be the first to comment

PRML輪読#12

  1. 1. PRML輪読会 2017 第12章 連続潜在変数 東京⼤学⼤学院⼯学系研究科 技術経営戦略学専攻 松尾研究室 M1 ⽥村浩⼀郎
  2. 2. 「第12章 連続潜在変数」の概要 • ⼀部または全部の潜在変数が連続である場合を考える – 多くのデータ集合において,元々データが⼊っていた空間よりもはるかに低い次元の多 様体にデータ点がまとまっている – 例:⼿書き数字 • 画像(縦px*横pxの次元)からなるデータの集合において変化するのは垂直⽅向,平⾏移動,回 転の3つの⾃由度しかない(実際にはもう少しいくつかの⾃由度の要素があるが) • 8章からなる潜在変数のお話の最後 2
  3. 3. 構成 12.1主成分分析 12.2 確率的主成分分析 12.3 カーネル主成分分析 12.4 ⾮線形潜在変数モデル 3 線形ガウスモデルを利⽤ ⾮ガウス分布に拡張
  4. 4. 12.1 主成分分析 • 主成分分析は,次元削減,⾮可逆データ圧縮,特徴抽出,データの可視化な どに⽤いられる – 主成分分析は以下のように定義できる(2つは等価) 1. 主部分空間(低次元の線形空間)の上への,データ点の直⾏射影 2. 射影のコスト関数(元々のデータ点と射影した点の間の2乗距離の平均値で定義され る)の期待値を最⼩化するような線形空間 4
  5. 5. 12.1.1 分散最⼤化による定式化 • 主成分分析は,次元削減,⾮可逆データ圧縮,特徴抽出,データの可視化な どに⽤いられる – 主成分分析は以下のように定義できる(2つは等価) 1. 主部分空間(低次元の線形空間)の上への,データ点の直⾏射影 2. 射影のコスト関数(元々のデータ点と射影した点の間の2乗距離の平均値で定義され る)の期待値を最⼩化するような線形空間 5 2次元空間に存在していたデータを 1次元空間に直行射影する
  6. 6. 12.1.1 分散最⼤化による定式化 6 • 𝒖 𝟏に射影することを考える(𝑢$が知りたい) – 𝑢$を単位ベクトルとする(スカラーは無意味) – 正射影ベクトルは (𝒖 𝟏,𝒙 𝒏) 𝒖 𝟏 * 𝒖 𝟏 **(𝒖 𝟏, 𝒙 𝒏)は内積 であるから, • 平均: 𝒖 𝟏 𝑻 𝒙- • 分散: 𝒖 𝟏 𝑻 𝑺 𝒖 𝟏 **𝑺は共分散⾏列 – 𝒖 𝟏 = 1の制約のもとで分散 𝒖 𝟏 𝑻 𝑺 𝒖 𝟏を ラグランジュで最⼤化 – これを解くと, 𝒖 𝟏が𝑺の固有ベクトル – 分散は,固有値に対応
  7. 7. 12.1.2 誤差最⼩化による定式化 • 主成分分析は,次元削減,⾮可逆データ圧縮,特徴抽出,データの可視化な どに⽤いられる – 主成分分析は以下のように定義できる(2つは等価) 1. 主部分空間(低次元の線形空間)の上への,データ点の直⾏射影 2. 射影のコスト関数(元々のデータ点と射影した点の間の2乗距離の平均値で定義され る)の期待値を最⼩化するような線形空間 7 これらを最小化
  8. 8. 12.1.2 誤差最⼩化による定式化 • D次元の基底ベクトル{𝒖𝒊}からなる完全正規直⾏系を導⼊ • 正規直⾏ってなんだっけって⼈はこっそり以下をクリック(http://mathwords.net/seikityokkoukitei) – 各データ点は,基底ベクトルの線形結合で表される – 正規直⾏であるから, 𝒙 𝒏と 𝒖𝒋の内積を取ると,𝛼45 = 𝑥4 7 𝒖𝒋 – M(<D)次元の空間で𝒙 𝒏を近似表現する.そしてその近似による誤差Jを最⼩化する 8
  9. 9. 12.1.2 誤差最⼩化による定式化 • ラグランジュでJを最⼩化するz49と𝑏;を求める • i=1,2,,,,M, j=M+1,,,,D – 以上の結果と(12.9)より,(12.10)に関して以下のように表される – 𝒙 𝒏<から𝒙 𝒏への変位を表すベクトルは,主部分空間に直⾏する空間にあたる({𝒖𝒊}, i=M+1, M+2,,,Dの空間であるから,i=1,2,,,Mで構成される主部分空間のベクトルと は直⾏する) – 𝒖 𝟏 = 1の元でJを最⼩化(ラグランジュ) – 歪みjに関して,固有値が⼩さいものをD-M個選んだものとなる 9
  10. 10. 12.1.3 主成分分析の応⽤ • 圧縮 – (12.12)と(12.13)を(12.10)に代⼊して, – 以上の近似式はデータ集合の圧縮を⽰している(D->M) 10
  11. 11. 12.1.3 主成分分析の応⽤ • 正規化 – 主成分分析を⽤いることで,異なる変数を無相関化できる *Lは対⾓要素𝜆9を持つD*Dの対⾓⾏列,Uは列ベクトルが𝒖𝒊で与えられるD*Dの直⾏⾏ 列 – 以下の式で変換 – ⽩⾊化,球状化などと呼ばれる • データの可視化 11 白色化
  12. 12. 12.1.4 ⾼次元データに対する主成分分析 • データ点が少ない場合, N < M(<-D)となってしまうと次元削減する意味が ない • 通常のアルゴリズムだと,𝑂(𝐷@ )の計算量がかかる – Xをn番⽬の⾏が 𝑥4 − 𝑥̅ 7で与えられるN*D次元の⾏列とすると,共分散⾏列は 𝑆 = 𝑁E$ 𝑋7 𝑋となり,対応する固有ベクトルは, N*N⾏列の𝑁E$ 𝑋7 𝑋に対する固有⽅程式になっているので,計算量は𝑂(𝑁@) 12
  13. 13. 12.2 確率的主成分分析 • 確率的な潜在変数モデルの最尤解として表現 – 制限付きのガウス分布に従う – ベイズ的な扱いができる(ex:EMアルゴリズム) – ⽣成モデルとして利⽤できる – 分類問題にも適⽤できる • 潜在変数空間から観測データ空間への写像を考える 1. 潜在変数zの事前分布を明⽰的に導⼊ 𝑃 𝒛 = 𝑁(𝒛|𝟎, 𝑰) 2. 観測変数xについての条件付き分布 𝑃 𝒙|𝒛 = 𝑁(𝑾𝒛 + 𝝁, 𝝈 𝟐 𝑰)からxをサンプリング(こ の時ノイズを加える) 3. パラメタ𝑾, 𝝁, 𝝈などを周辺確率の最尤推定で求める 𝑃 𝑥 = ∫ 𝑃 𝑥 𝑧 𝑝 𝑧 𝑑𝑧 13
  14. 14. 12.2.1 最尤法による主成分分析 • データ点の集合𝑋 = {𝑥4}が与えられた時,対数尤度関数は, – これをラグランジュで解いていく(基本的にはとても複雑) • CがRには依存してない=>回転不変性 – 確率的主成分分析は,データの中の主要な相関関係を捉えつつ,⾃由度の数(独⽴なパ ラメタの数)を⾃動で調整してくれる 14
  15. 15. 12.2.2 EMアルゴリズムによる主成分分析 • 厳密な閉形式の形で最尤パラメタを得ることができるが,⾼次元空間におい てはEMアルゴリズムを⽤いていくのが計算コストが⼩さく良い • Eステップ – 古いパラメタで期待値を計算 • Mステップ – 統計量に関する最⼤化を⾏う 15
  16. 16. 12.2.3 ベイズ的主成分分析 • 今までは主部分空間の次元Mを決めていた – ベイズ的な扱いでMを定めることができるはず – モデルをベイズ的な取り扱いで選択=>モデルのパラメタを周辺化することが難しい – エビデンス近似に基づいた⼿法 =>関連度⾃動決定(AED: 7.2.2項) 1. Wの列ベクトルの精度パラメタ𝛼9による事後分布を考える 2. 𝛼9の値を周辺尤度関数の反復的な最⼤化により⾒出す 3. 結果的に疎な解が得られ,主部分空間で有効な次元は有限な𝛼9の個数で決定する 16
  17. 17. 12.2.3 ベイズ的主成分分析 • 通常の確率的主成分分析との⽐較.ベイズモデルが過剰な⾃由度を抑制して いる 17
  18. 18. 12.2.3 ベイズ的主成分分析 • ベイズ主成分分析に対するギブスサンプリング – データ集合はD=4, 潜在変数空間はM=3で,データ集合は⼀⽅向に⾼い分散を持ち,後 はノイズからなる確率的主成分分析モデルから⽣成されたもの 18
  19. 19. 12.2.4 因⼦分析 • 因⼦分析は,確率的主成分分析と違って,共分散⾏列が対⾓ではあるが,等 ⽅ではない共分散に基づく – 観測変数の座標ごとに独⽴な分散を⾏列Ψ(変数ごとに独⽴なノイズの分散を表す独⾃ 性)で表現し,変数間の共分散を⾏列Wの列ベクトルに取り込む – 閉じた解にならないので,EMアルゴリズムを⽤いて反復的にとく 19
  20. 20. 12.3 カーネル主成分分析 • カーネル置換を主成分分析に適⽤(kPCA)=>⾮線形への⼀般化 – 特徴空間におけるM*Mサンプル共分散⾏列は 固有値ベクトルの展開は 特徴量空間で明⽰的に計算することなる固有値問題を解く – ベクトル𝒗𝒊は𝜙 𝑥4 の線形結合で表される これを⽤いて,固有ベクトルの⽅程式に戻して考えると, 20
  21. 21. 12.3 カーネル主成分分析 • カーネル置換を主成分分析に適⽤(kPCA)=>⾮線形への⼀般化 – カーネル関数𝑘 𝑥4, 𝑥 = 𝜙 𝑥4 7 𝜙 𝑥 で表現 ⾏列表⽰すると 両辺に現れるKは取り除いてよく,(12.76)を⽤いて点xの固有ベクトルiの上への射影は, – 確かに,カーネル関数だけを通して表せている 21
  22. 22. 12.4 ⾮線形潜在変数モデル • 今までの話 – 連続潜在変数のモデルのうちて最も単純なモデルである線形ガウス分布に基づくモデル に注⽬していて、実⽤的,解析が⽐較的容易,データへのフィッティングも簡単 • 本節の話 – ⾮線形もしくは⾮ガウス(またはその両⽅)にモデルを拡張する – ⾮線形性と⾮ガウス性は互いに関係していて,それは⾮線形の変数変形を⾏うとガウス 分布から⼀般の確率密度関数が得られるからである 22
  23. 23. 12.4.1 独⽴成分分析 • 潜在変数と観測変数の関係が線形で,潜在変数の分布が⾮ガウスであるモデ ルを考える • 独⽴成分分析(ICA) – 潜在変数の分布が に分解されていると考える(ex:未知⾳源分離) – (12.36)で与えられる⾏列Cは回転させても不変 23
  24. 24. 12.4.2 ⾃⼰連想ニューラルネットワーク • D個の⼊出⼒ユニット,M個の隠れユニットの多層パーセプトロン – Auto encoder – 隠れ層が⼀層ならPCAと同じこと – 層が深くなると,2つの写像の適⽤と⾒ることができる。結果として⾮線形主成分分析 を⾏っている 24
  25. 25. 12.4.3 ⾮線形多様体のモデル化 1. 区分線近似を⽤いた多様体の表現 – K-meansでクラスタリングしたのちにグループごとに主成分分析 2. 確率的主成分分析を混合 + EM 3. ベイズ的主成分分析 + 変分推論 4. 線形モデル ->⾮線形モデルに射影 – 主成分曲線,局⾯,超局⾯ 5. 可視化 – 多次元尺度構成法 – ⾮計量多次元尺度構成法 6. ノンパラメトリックな次元削減と可視化 – 局所線形埋め込み(LLE) – 等⻑特徴写像(isomap) 7. 潜在特性モデル 8. 密度ネットワーク 9. ⾮線形関数の制限 + 潜在変数の分布を適切に選択 25
  26. 26. 参考・引⽤資料 • パターン認識と機械学習 下 – C.M. ビショップ (著), 元⽥ 浩 (監訳), 栗⽥ 多喜夫 (監訳), 樋⼝ 知之 (監訳), 松本 裕 治 (監訳), 村⽥ 昇 (監訳) • PRML§12-連続潜在変数 (Keisuke OTAKI, SlideShare) – https://www.slideshare.net/taki0313/prml12 • 具体例で学ぶ数学正規直交基底(定義、求め⽅、性質) – http://mathwords.net/seikityokkoukitei 26

×