SlideShare a Scribd company logo
1 of 49
Download to read offline
PRML読書会@KMC

   12章 連続潜在変数




   @taki0313

   2011/05/22




PRMl読書会@KMC-12章:連続潜在変数
お品書き
♣ 12.1 主成分分析(PCA)

♣ 12.2 確率的主成分分析(PPCA)

♣ 12.3 カーネル主成分分析(kPCA)

♣ 12.4 非線形潜在変数モデル

              どうみても主成分分析の章です,ありがt(ry




PRMl読書会@KMC-12章:連続潜在変数
背景とか,そういう感じのこと
- 主成分分析自体の背景
  – データは完全に自由なわけではない
    低次元の多様体の周辺に存在する

- この章は8章から始まってる潜在変数関係の話の最後です

- 線形ガウスモデル(8.1.4)を利用する
  – 主成分分析(PCA)などの定式化が導かれる




PRMl読書会@KMC-12章:連続潜在変数         3/21
§12.1 主成分分析
- 主成分分析(PCA; Principal Component Analysis) / KL変換
  – 機械学習系の研究テーマの柱の1つ
  – 第4回IBISML研究会では...
     確率的主成分分析における自動次元選択について
       複数情報源に対する主成分分析




PRMl読書会@KMC-12章:連続潜在変数                              4/21
§12.1 主成分分析
- 主成分分析(PCA; Principal Component Analysis) / KL変換
  – 機械学習系の研究テーマの柱の1つ
  – 第4回IBISML研究会では...
     確率的主成分分析における自動次元選択について
       複数情報源に対する主成分分析

     主部分空間とよばれる低次元の線形空間への写像(直交射影)
                               u1
         x2
                xn
                                    - 元の空間 2次元(平面) - D=2
                     xn



                                    - 部分空間 1次元(直線) - M=1
                          x1




PRMl読書会@KMC-12章:連続潜在変数                                     4/21
§12.1.1 分散最大化による定式化
                               u1
         x2                         - 元の空間 2次元(平面) - D=2
                xn


                     xn
                                    - 部分空間 1次元(直線) - M=1

                          x1
                                    - D>Mで,●→●の射影

- データをu1方向へ射影する: xn → (u1, xn )




PRMl読書会@KMC-12章:連続潜在変数                                     5/21
§12.1.1 分散最大化による定式化
                               u1
         x2                         - 元の空間 2次元(平面) - D=2
                xn


                     xn
                                    - 部分空間 1次元(直線) - M=1

                          x1
                                    - D>Mで,●→●の射影

- データをu1方向へ射影する: xn → (u1, xn )
                      1
                         ∑N
   平均 (u1, x ) = (u1, N ∑ xn )
           ¯              n=1
                           n
   分散 (u1, Su1), S = N n=1(xn − x )(xn − x )T
                       1
                                ¯        ¯




PRMl読書会@KMC-12章:連続潜在変数                                     5/21
§12.1.1 分散最大化による定式化
                               u1
         x2                         - 元の空間 2次元(平面) - D=2
                xn


                     xn
                                    - 部分空間 1次元(直線) - M=1

                          x1
                                    - D>Mで,●→●の射影

- データをu1方向へ射影する: xn → (u1, xn )
                      1
                         ∑N
   平均 (u1, x ) = (u1, N ∑ xn )
           ¯              n=1
                           n
   分散 (u1, Su1), S = N n=1(xn − x )(xn − x )T
                       1
                                ¯        ¯
- 分散の最大化 - 条件は(u1, u1) = 1: 向きだけ
   Su1 = λ1u1 - Sの固有値λ1と固有ベクトルu1
   分散最大化のためにはλ1は大きい方を選ぶ


PRMl読書会@KMC-12章:連続潜在変数                                     5/21
§12.1.2 誤差最小化による定式化
                                             ∑D
- 正規直交基底 {ui }, i = 1, 2, ... D より, xn =      i=1 αni ui
                          ∑D
   (xn , uj ) = αnj → xn = i=1(xn , ui )ui




PRMl読書会@KMC-12章:連続潜在変数                                     6/21
§12.1.2 誤差最小化による定式化
                                                 ∑D
- 正規直交基底 {ui }, i = 1, 2, ... D より, xn =           i=1 αni ui
                          ∑D
   (xn , uj ) = αnj → xn = i=1(xn , ui )ui
- 次元を削減するためにD次元のうち,M < D次元だけを使う
                   ∑M              ∑D
   xn → xn = i=1 zni ui + i=M+1 bi ui
           ˜
                      ∑
   歪み度 J = N        1
                        ||xn − x ||2 → minimize
                                  ¯
   zni = (xn , ui ) i = 1, ... , M, bi = (¯ , ui ) i = 1, ... , M
                                          x




PRMl読書会@KMC-12章:連続潜在変数                                              6/21
§12.1.2 誤差最小化による定式化
                                                  ∑D
- 正規直交基底 {ui }, i = 1, 2, ... D より, xn =             i=1 αni ui
                          ∑D
   (xn , uj ) = αnj → xn = i=1(xn , ui )ui
- 次元を削減するためにD次元のうち,M < D次元だけを使う
                     ∑M              ∑D
     xn → xn = i=1 zni ui + i=M+1 bi ui
             ˜
                        ∑
     歪み度 J = N        1
                          ||xn − x ||2 → minimize
                                    ¯
     zni = (xn , ui ) i = 1, ... , M, bi = (¯ , ui ) i = 1, ... , M
                                            x
             ∑D
- xn − xn = i=M+1(xn − x , ui )ui なので
         ˜                       ¯
             ∑N ∑D
     J = N n=1 i=M+1{(xn , ui ) − (¯ , ui )}2 を最小化する
           1
                                          x
           ∑D
     J = i=M+1(ui , Sui ) 変形した
     §12.1.1の逆を行う → 小さい固有値の方からD-M個
- 小さい固有値の部分は近似しちゃってもいいよ!


PRMl読書会@KMC-12章:連続潜在変数                                                6/21
§12.1.1-2 は似たようなことを言ってる
- 上手く近似するために,大きい方から選ぼう

- 近似しても影響ないように,小さい方を切ろう




                  Mean      λ1 = 3.4 · 105   λ2 = 2.8 · 105   λ3 = 2.4 · 105   λ4 = 1.6 · 105




                 Original      M =1            M = 10           M = 50           M = 250




PRMl読書会@KMC-12章:連続潜在変数                                                                          6/21
§12.1.3 主成分分析の応用
- 誤差最小化の時の式をこねこね
           ∑M                                  ∑D
   xn = x + i=1((xn , ui ) − (¯ , ui ))ui ← x = i=1(¯ , ui )ui
   ˜    ¯                     x             ¯       x
     データの圧縮法を表現している (D→M)




PRMl読書会@KMC-12章:連続潜在変数                                           7/21
§12.1.3 主成分分析の応用
- 誤差最小化の時の式をこねこね
           ∑M                                  ∑D
   xn = x + i=1((xn , ui ) − (¯ , ui ))ui ← x = i=1(¯ , ui )ui
   ˜    ¯                     x             ¯       x
     データの圧縮法を表現している (D→M)

- 簡単な標準化(正規化?) - 平均0,分散1にする
- PCAはより完全な(本格的な)正規化が可能 - 平均0,共分散Iにする
    白色化(whitening) / 球状化(sphereing)
           1
          −2 T
    yn = L U (xn − x )
                   ¯




PRMl読書会@KMC-12章:連続潜在変数                                           7/21
§12.1.4 高次元データに対する主成分分析
- データ数NのD次元データをM次元に射影する (M < D)
- (?)N点は高々N − 1次元の線形の部分空間を定義するから...
    N − 1 < Mはダメ(意味がないらしい)
    対応する固有値が0になることに対応するらしい(足りない分)
    固有ベクトルとか求めてO(D 3)




PRMl読書会@KMC-12章:連続潜在変数                8/21
§12.1.4 高次元データに対する主成分分析
- データ数NのD次元データをM次元に射影する (M < D)
- (?)N点は高々N − 1次元の線形の部分空間を定義するから...
     N − 1 < Mはダメ(意味がないらしい)
     対応する固有値が0になることに対応するらしい(足りない分)
     固有ベクトルとか求めてO(D 3)
        (                              )
- X = (x1 − x ) (x2 − x ) ... (xN − x ) : NxD行列
    T         ¯       ¯             ¯
          1
     S = NXTX
        1
     → N X T Xui = λi ui , i = 1, 2, ...
        1
     → N XX T (Xui ) = λ(Xui ), vi = Xui とする
        1
     → N XX T vi = λi vi
- 元の共分散行列と同じ固有値λi を持ち,D → N, O(N 3)



PRMl読書会@KMC-12章:連続潜在変数                            8/21
§12.1.3-4. 応用とか
- 可視化への応用
         100                              2                     2
          90
          80
          70                              0                     0

          60
          50
                                         −2                    −2
          40
                2            4   6            −2       0   2        −2   0   2




                1.5
                    1
                0.5
                    0
               −0.5
                −1
               −1.5
                −2
                        −5           0             5




PRMl読書会@KMC-12章:連続潜在変数                                                           8/21
§12.2 確率的主成分分析(1)
- 主成分分析 x ベイズ = 確率的主成分分析(PPCA)
     制約付きのガウス分布に基づく
     確率的取り扱いをするので,ベイズの定理/EM法が使える
     生成モデルとして利用できる
     その他にもいいこといっぱい(?)

- データ→主成分を探す ⇀ 裏に隠れ変数がある→データ
             ↽
     p(z) = N (z | 0, I )
     p(x|z) = N (x | Wz + µ, σ 2I )
     §8.1.4: 線形ガウスモデルの例(全部ガウス!)
                          ∫
     周辺確率 p(x) = p(x|z)p(z)dz




PRMl読書会@KMC-12章:連続潜在変数                9/21
§12.2 確率的主成分分析(2)
- 生成モデル的な扱い
 1. 潜在変数の値ˆ を一つ選ぶ
           z
 2. z で条件付けしつつ,観測変数xをサンプリングする
    ˆ
 3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ
                                                  w
                             x2                        x2
                                  p(x|z)

                                  µ                         µ
                                           z|w|



                                  }
                                                                p(x)
             p(z)



                    z    z                        x1                   x1


     ○ - N (x|W z + µ, σ 2I ), ○ p(x)の等高線
                ˆ


PRMl読書会@KMC-12章:連続潜在変数                                                      10/21
§12.2 確率的主成分分析(2)
- 生成モデル的な扱い
 1. 潜在変数の値ˆ を一つ選ぶ
           z
 2. z で条件付けしつつ,観測変数xをサンプリングする
    ˆ
 3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ
- 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?)
     p(z) = N (z | 0, I ), p(x|z) = N (x | Wz + µ, σ 2I )
            ∫
     p(x) = p(x|z)p(z)dz, これらをごにょごにょして処理する
- ガウス分布同士の積なので - E[x] = µ, Cov[x] = WW T + σ 2I
- 生成モデルから考えて x = Wz + µ + ϵ → 計算でも同じ

- p291. 直感的には... → 意味不明


PRMl読書会@KMC-12章:連続潜在変数                                      10/21
§12.2 確率的主成分分析(2)
- 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?)
     p(z) = N (z | 0, I )
     p(x|z) = N (x | Wz + µ, σ 2I )
            ∫
     p(x) = p(x|z)p(z)dz = N (x | µ, C )
     E[x] = µ
     Cov[x] = WW T + σ 2I
                         ˜
- W は直交行列Rに関して回転不変(冗長) - W = WR
    ˜ ˜
    W W T = WW T ,
- 逆行列 C −1 = σ −2I − σ −2WM −1W T , M = W T W + σ 2I
- 事後分布p(z | x) = N (z | M −1W T (x − µ), σ 2M −1)




PRMl読書会@KMC-12章:連続潜在変数                                 10/21
§12.2.1 最尤法による主成分分析
- 例によってデータの集合X = {x1, ... , xN } + 最尤法
                         ∑
                         N
ln p(X | µ, W , σ 2) =         ln p(xn | W , µ, σ 2)
                         i=1

                                              1∑
                                                       D
                        ND         N
                    = −    ln(2π) − ln |C | −       (xn − µ)C −1(xn − µ)T
                         2         2          2 n=1

- µでの微分=0より,µ = x になる - 今までのガウス分布の推定と同じ
                          ¯
                             N
     ln p(X | µ, W , σ 2) = − {D ln(2π) + ln |C | + Tr (C −1S)}
                             2
- σ, W についてはもっと複雑



PRMl読書会@KMC-12章:連続潜在変数                                               11/21
§12.2.1 最尤法による主成分分析
- WML = UM (LM − σ 2I )1/2R
   Rは直交行列,UM はDxM行列-列ベクトルがSの固有ベクトル
   LM 対応する固有値の対角行列
   M個の固有ベクトルを上位M個取ってくると(尤度)最大化される
   このときW が通常の主成分分析の主部分空間を成す


                                       (√           )
                                          λ1 − σ 1
                                                 2u

                     (√                        ) (√                          )
     (           )        λ1 − σ 2                    λ1 − σ 1 √ 0
                                                            2u
         u1 u2                       √ 0        =
                            0         λ2 − σ 2           0      λ 2 − σ 2 u2




PRMl読書会@KMC-12章:連続潜在変数                                                           11/21
§12.2.1 最尤法による主成分分析
            1
                 ∑D
-    2
    σML=   i=M+1 λi
          D −M
      下位の切り捨てられた分の分散を表す

- 主成分分析は固有ベクトルの方向に分散λi を与える
   λi − σ 2: 潜在変数空間の分布→Wの空間へ射影する
   σ 2: ノイズ

- お話略




PRMl読書会@KMC-12章:連続潜在変数             11/21
§12.2.1 最尤法による主成分分析
- 共分散行列: C = WW T + σ 2I

- (v , v ) = 1の向きを考える
     (v , v ) = 1の向きには,分散λi = (v , Cv )を与える
     v は主部分空間以外の固有ベクトルの一次結合とする
     (v , U) = 0 → (v , Cv ) = σ 2
            主部分空間に直交する方向でのノイズ

- v = ui を考える - (v , Cv ) = λi − σ 2 + σ 2 = λi




PRMl読書会@KMC-12章:連続潜在変数                            11/21
§12.2.1 最尤法による主成分分析
- 最尤法によるモデルの構築の手法
   共分散行列の固有値と固有ベクトルを利用する→W , σ 2を求める

- 仮にM = Dのとき(圧縮しないとき)
   UM = U, LM = L, C = S

- PCAの定式化とPPCAの定式化は結局同じようなもん
    p(z|x)の方向で圧縮操作を考える
    E[z|x] = M −1WML(x − x ), M = W T W + σ 2I
                  T
                         ¯
    σ 2 → 0のとき(WMLWML)−1WML(x − x )
                    T          T
                                      ¯
    主部分空間への射影になるらしい(演習12.11)

- パラメータ数について



PRMl読書会@KMC-12章:連続潜在変数                           11/21
§12.2.2 EMアルゴリズムによる主成分分析
- EM法の扱い(完全データと不完全データ...)
                            ∑N
    ln p(X , Z |µ, W , σ ) = n=1{ln p(xn |zn ) + ln p(zn )}
                        2

    p(xn |zn )とp(zn )を実際に代入してガリガリ...
    式ぇ...

- Eステップ - 古いパラメータで期待値を計算
    E[zn ] = M −1W T (xn − x )
                            ¯
    E[zn zn ] = σ 2M −1 + E[zn ]E[zn ]T
           T


- Mステップ - 最大化する(C.24 とかいろいろ使うらしい)
            ∑                  ∑
    Wnew = [ (xn − x )E[zn ] ][ E[zn zn ]]−1
                   ¯        T         T

    σML ぇ...
     2




PRMl読書会@KMC-12章:連続潜在変数                                        12/21
§12.2.2 EMアルゴリズムによる主成分分析
- EM法の利点がそのまま適応される - 反復処理
- 実は計算効率が良く,σ 2 → 0のとき,処理が簡単化
                                       (              )
   E[zn zn ]の計算が不要, データ行列X
         T                       ˜ ,Ω = ... E[zn ] ...
   Eステップ: Ω = (Wold Wold )−1Wold X T
                  T          T ˜

   Mステップ: Wnew = X T ΩT (ΩΩT )−1
                  ˜




PRMl読書会@KMC-12章:連続潜在変数                                    13/21
§12.2.2 EMアルゴリズムによる主成分分析
1. 完全データの対数尤度を書き下した
2. 古いパラメータの値で潜在変数の事後分布の期待値を求める
3. 完全データに対する期待対数尤度の最大化→パラメータ

                2   (a)            2   (b)            2   (c)



                0                  0                  0



               −2                 −2                 −2


                    −2    0   2        −2    0   2         −2   0   2


                2   (d)            2   (e)            2   (f)



                0                  0                  0



               −2                 −2                 −2


                    −2    0   2        −2    0   2         −2   0   2




PRMl読書会@KMC-12章:連続潜在変数                                                  13/21
§12.2.2 EMアルゴリズムによる主成分分析
                2   (a)            2   (b)            2   (c)



                0                  0                  0



               −2                 −2                 −2


                    −2    0   2        −2    0   2         −2   0   2


                2   (d)            2   (e)            2   (f)



                0                  0                  0



               −2                 −2                 −2


                    −2    0   2        −2    0   2         −2   0   2




  バネの一端を各データ点に固定し,他点を主部分空間に付ける

  Eステップ: 棒を固定して,ばねの取り付け点をずらしエネルギーの最小化

  Mステップ: ばねを固定し,棒をエネルギー最低の状態に動くようにする



PRMl読書会@KMC-12章:連続潜在変数                                                  13/21
§12.2.3 ベイズ的主成分分析
- 今まではMを決めてた
   可視化ならM=2だし,固有値がはっきり分かれるならそのあたり
- ベイズ的取り扱いをしたのでMが決まるはずだ
   例えば交差確認法
   ベイズ的取り扱いでモデル選択する
- モデルのパラメータµ, W , σ 2を消す → 難しい
- エビデンス近似に基づく手法
   W の列ベクトルにパラメータαi を入れる
   αi の値を周辺尤度関数の最大化で見い出す
   有限のαi の数が有効な主部分空間の次元




PRMl読書会@KMC-12章:連続潜在変数           14/21
§12.2.3 ベイズ的主成分分析
- 通常の確率的主成分分析との比較




  10次元データのうち,3次元が他の7次元より大きい分散を持つ
  左: 普通の確率的主成分分析 + 最尤解
  右: ハイパーパラメータを入れたベイズ的主成分分析

PRMl読書会@KMC-12章:連続潜在変数             14/21
§12.2.3 ベイズ的主成分分析
- ベイズ的主成分分析 + ギブスサンプリング
                     10

                         5

                      0
                     10

                         5

                      0
                     10

                         5

                         0

  D=4→M=3.データはある1方向だけ大きい分散を持つ
  ln αi のプロット.1つだけ有限の小さい値を持つ.


PRMl読書会@KMC-12章:連続潜在変数          14/21
§12.2.4 因子分析
- 観測変数xの条件付き分布の共分散が非等方的で対角的Ψ
- p(x|z) = N (x | Wz + µ, Ψ)
    Ψ: 観測変数の座標毎に独立な分散を表現
    W の列ベクトルに変数間の共分散が入っている
- このときp(x) = N (x|µ, C ), C = WW T + Ψ
- 閉じた解にならないので反復的に解く...
     Eステップ & Mステップ(略)
     個人的に思うこと→EM法をPPCAに導入しておくと
     似た枠組みで因子分析と一緒に扱える(形も似てるし)
     いろんな所にベイズの取り扱いを入れるのは
     それらの分野の道具で無理矢理解くためだということか



PRMl読書会@KMC-12章:連続潜在変数                   15/21
§12.3 カーネル主成分分析
- 主成分分析 x カーネル関数 = カーネル主成分分析(kPCA)
                                        ∑N
- データ{xn }は最初から中心化されてるとする - S = N n=1 xn xn
                                      1            T

                               1
                                 ∑N
- xn を特徴空間へ射影してϕ(xn )とする - C = N n=1 ϕ(xn )ϕ(xn )T

                     x2                      v1
                                     ϕ1




                          x1
                                            ϕ2




PRMl読書会@KMC-12章:連続潜在変数                                 16/21
§12.3 カーネル主成分分析
- C の固有値...を,Sと同じように行っていく
                   1
                     ∑N
    Cvi = λi vi より N n=1 ϕ(xn )(ϕ(xn ), vi ) = λi vi
                                ∑N
    よってλi > 0を仮定して vi = n=1 ain ϕ(xn )
- vi の展開を固有ベクトルの方程式に戻す
      1
        ∑N               T
                           ∑N                   ∑N
     N   n=1 ϕ(xn )ϕ(xn )   n=1 ain ϕ(xn ) = λi  n=1 ain ϕ(xn )

    1
        ∑N                      ∑N                       ∑N
-   N    n=1 ϕ(xn )ϕ(xn )
                            T
                                 n=1 ain ϕ(xn )   = λi    n=1 ain ϕ(xn )

- 両辺にϕ(xl )T を掛け,カーネル関数k(xn , xm ) = (ϕ(xn ), ϕ(xm ))を使う
   1
     ∑K               ∑N                        ∑N
   N  n=1 k(xl , xn )  m=1 aim k(xn , xm ) = λi  n=1 ain k(xl , xn )

- 行列表記らしい: K 2ai = λi NKai


PRMl読書会@KMC-12章:連続潜在変数                                                     16/21
§12.3 カーネル主成分分析
- 行列表記らしい: K 2ai = λi NKai
   ai は次元列ベクトル, 各要素ain .
   Kai = λi Nai の固有方程式を解く ∑       ∑N N
   規格化条件: 1 = (vi , vi ) = n=1 m=1 ain aim (ϕ(xn ), ϕ(xm ))
   = (ai , Kai ) = λi N(ai , ai )
- 点xの固有ベクトルiの上への射影 - カーネル関数で求まる
                         ∑N
   yi (x) = (ϕ(x), vi ) = n=1 ain k(x, xn )

             カーネル主成分分析            NxN行列K の固有値分解

             カーネル法のアイデア             (xi , xj ) → (ϕ(xi ), ϕ(xj ))




PRMl読書会@KMC-12章:連続潜在変数                                              16/21
§12.3 カーネル主成分分析
- 補足: 写像されたデータ集合ϕ(xn )の平均が0ではない
   平均を引く(中心化?)の操作もϕ, kを使って定式化したい

  ˜ n ) = ϕ(xn ) − 1 ∑N ϕ(xl )
- ϕ(x              N  l=1

- K˜ = (ϕ(xn ), ϕ(xm ))...
   nm
        ˜       ˜

  ˜
- K = K − 1N K − K 1N + 1N K 1N
                        1
    1N はすべての要素が N である行列
- 通常の主成分分析(PCA)はk(xn , xm ) = (xn , xm )で再現




PRMl読書会@KMC-12章:連続潜在変数                        16/21
§12.3 カーネル主成分分析




PRMl読書会@KMC-12章:連続潜在変数   16/21
§12.4 非線形潜在変数モデル
- §12.1-12.3 線形ガウス分布に基づくモデル

- §12.4 非ガウス的 or 非線形 or その両方に拡張する

- 非ガウス と 非線形の関係
   ガウス分布 + 非線形の変数変換 → 一般的な分布 らしい

- ここからお話だけだよ




PRMl読書会@KMC-12章:連続潜在変数              17/21
§12.4.1 独立成分分析
- 独立成分分析(ICA; Independent Component Analysis)
                    ∏M
   潜在変数の分布がp(z) = j=1 p(zj )に分解されてる
   e.g. 未知音源分離

- (線形の)主成分分析,因子分析では回転不変性がある
     ˜
     W = WRと回転させても同じ結果になる
     分離とかできないし…




PRMl読書会@KMC-12章:連続潜在変数                          18/21
§12.4.2 自己連想ニューラルネットワーク
- D個の入出力ユニット,M個の隠れユニットの多層パーセプトロン

                           xD     zM   xD


                         inputs        outputs


                            x1    z1   x1



- 自分自身に写像しようとする自己連想写像

- D > Mなので,一般には完全に再現できないから…
               ∑N
    E (w ) = 2 n=1 ||y (xn , w ) − xn ||2を最小化
             1




PRMl読書会@KMC-12章:連続潜在変数                           19/21
§12.4.2 自己連想ニューラルネットワーク
- 隠れユニットが線形の活性化関数を持つとき
   大局的な最適化を持ち,主成分分析と一致する
- 非線形の隠れユニットを使っても一緒
- 追加の隠れ層が使える場合
                              F1                F2

                         xD                          xD




                     inputs                          outputs



                         x1                          x1
                                   non-linear




PRMl読書会@KMC-12章:連続潜在変数                                         19/21
§12.4.2 自己連想ニューラルネットワーク
- 追加の隠れ層が使える場合: 2つの写像F1, F2の適用と見る

- D次元→M次元部分空間への写像 & M次元部分空間→D次元
                    x3             z2                 x3
                              F1
                                                 F2


                                        S

                         x1                 z1             x1


               x2                                x2




- 非線形の主成分分析を行える

- 誤差関数の最小化問題に変わる



PRMl読書会@KMC-12章:連続潜在変数                                          19/21
§12.4.3 非線形多様体のモデル化
- 高次元データはより低次の非線形多様体に対応する
   要するにたくさんの次元の数ほど自由度がない

1. 区分線形近似を組合せた多様体の表現
    各部分で共通のコスト関数の最適化しつつ処理
2. 確率的主成分分析を混合する + EM

3. ベイズ的主成分分析 + 変分推論

4. 線形モデル→非線形モデル
    通常のPCA(線形部分空間)→非線形の曲面上に射影
    主成分曲線,主成分曲面,主成分超曲面… → むずい



PRMl読書会@KMC-12章:連続潜在変数          20/21
§12.4.3 非線形多様体のモデル化
- 可視化手法としてのPCA
   多次元尺度構成法(MDS)
   -- 2個のデータ点間の距離をなるべく保存するように
   距離行列の固有ベクトルを求めることで低次元射影を見出す
   非計量多次元尺度構成法(nonmetric MDS)
   -- 距離行列→類似度行列

- ノンパラメトリックな次元削減と可視化
   局所線形埋め込み(LLE)
   等長特徴写像(isomap)




PRMl読書会@KMC-12章:連続潜在変数           20/21
§12.4.3 非線形多様体のモデル化
- 潜在特性モデル
   潜在変数が連続,観測変数が離散の場合
   上手く周辺化できなくなって,対策が必要らしい
- 密度ネットワーク
   ガウス分布+非線形変換で任意の分布を構成できる性質
   非線形性 ∼ 多層ニューラルネットワーク
   潜在変数の周辺化ができない ∼ サンプリング
- 非線形関数の制限+潜在変数の分布を適切に選択
   学習効率と非線形性を両立する
   GTM 格子状に配置された有限個のデルタ関数で
   定義される潜在変数の分布を用いる.
   非線形写像は線形回帰モデル.


PRMl読書会@KMC-12章:連続潜在変数         20/21
§12.4.3 非線形多様体のモデル化
- PCAによる可視化(左) / GTMによる可視化(右)




- GTMは自己組織化マップ(SOM)の確率化版




PRMl読書会@KMC-12章:連続潜在変数          20/21
まとめ
- §12.1 PCAは主部分空間への写像: データ→部分空間

- §12.2 PPCAによる確率的な扱い
   潜在変数→データ
   尤度,EM法などが応用できる

- §12.3 kPCA - (x, y ) → (ϕ(x), ϕ(y ))

- §12.4 いろいろ話題がありますね(棒

               まだまだ最新の研究がされてます(おわり)




PRMl読書会@KMC-12章:連続潜在変数                   21/21

More Related Content

What's hot

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)Akihiro Nitta
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化についてShohei Miyashita
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム裕樹 奥田
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法Kenichi Hironaka
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11matsuolab
 
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihoodDeep Learning JP
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel LearningMasahiro Suzuki
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13matsuolab
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 

What's hot (20)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
PRML 12-12.1.4 主成分分析 (PCA) / Principal Component Analysis (PCA)
 
頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について頻度論とベイズ論と誤差最小化について
頻度論とベイズ論と誤差最小化について
 
数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム数式を使わずイメージで理解するEMアルゴリズム
数式を使わずイメージで理解するEMアルゴリズム
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
PRML輪読#11
PRML輪読#11PRML輪読#11
PRML輪読#11
 
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
【DL輪読会】Unbiased Gradient Estimation for Marginal Log-likelihood
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning(DL hacks輪読) Deep Kernel Learning
(DL hacks輪読) Deep Kernel Learning
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 

Similar to PRML§12-連続潜在変数

050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)Akira Asano
 
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文doboncho
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデルshow you
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...Y-h Taguchi
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 ClusteringHiroshi Ono
 
ユニバーサルなベイズ測度について
ユニバーサルなベイズ測度についてユニバーサルなベイズ測度について
ユニバーサルなベイズ測度についてJoe Suzuki
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)Akira Asano
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰sleipnir002
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) 2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) Akira Asano
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングMaruyama Tetsutaro
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論sleepy_yoshi
 

Similar to PRML§12-連続潜在変数 (20)

050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)
2021年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2021. 11. 26)
 
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文
対応点を用いないローリングシャッター歪み補正と 映像の安定化~並進から回転へ論文
 
Re revenge chap03-1
Re revenge chap03-1Re revenge chap03-1
Re revenge chap03-1
 
13.2 隠れマルコフモデル
13.2 隠れマルコフモデル13.2 隠れマルコフモデル
13.2 隠れマルコフモデル
 
Integrating different data types by regularized unsupervised multiple kernel...
Integrating different data types by regularized  unsupervised multiple kernel...Integrating different data types by regularized  unsupervised multiple kernel...
Integrating different data types by regularized unsupervised multiple kernel...
 
東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering東京大学工学部計数工学科応用音響学 D2 Clustering
東京大学工学部計数工学科応用音響学 D2 Clustering
 
ユニバーサルなベイズ測度について
ユニバーサルなベイズ測度についてユニバーサルなベイズ測度について
ユニバーサルなベイズ測度について
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)
2020年度秋学期 画像情報処理 第3回 フーリエ変換とサンプリング定理 (2020. 10. 9)
 
パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰パターン認識 05 ロジスティック回帰
パターン認識 05 ロジスティック回帰
 
主成分分析
主成分分析主成分分析
主成分分析
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) 2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
 
PRML 1.6 情報理論
PRML 1.6 情報理論PRML 1.6 情報理論
PRML 1.6 情報理論
 

More from Keisuke OTAKI

KDD読み会(図なし版)
KDD読み会(図なし版)KDD読み会(図なし版)
KDD読み会(図なし版)Keisuke OTAKI
 
Reading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGsReading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGsKeisuke OTAKI
 
一階述語論理のメモ
一階述語論理のメモ一階述語論理のメモ
一階述語論理のメモKeisuke OTAKI
 
Grammatical inference メモ 1
Grammatical inference メモ 1Grammatical inference メモ 1
Grammatical inference メモ 1Keisuke OTAKI
 
ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門Keisuke OTAKI
 
Tensor Decomposition and its Applications
Tensor Decomposition and its ApplicationsTensor Decomposition and its Applications
Tensor Decomposition and its ApplicationsKeisuke OTAKI
 
Foilsを使ってみた。
Foilsを使ってみた。Foilsを使ってみた。
Foilsを使ってみた。Keisuke OTAKI
 
ウェーブレット勉強会
ウェーブレット勉強会ウェーブレット勉強会
ウェーブレット勉強会Keisuke OTAKI
 
Sec16 greedy algorithm no2
Sec16 greedy algorithm no2Sec16 greedy algorithm no2
Sec16 greedy algorithm no2Keisuke OTAKI
 
Sec16 greedy algorithm no1
Sec16 greedy algorithm no1Sec16 greedy algorithm no1
Sec16 greedy algorithm no1Keisuke OTAKI
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programmingKeisuke OTAKI
 

More from Keisuke OTAKI (16)

KDD読み会(図なし版)
KDD読み会(図なし版)KDD読み会(図なし版)
KDD読み会(図なし版)
 
Reading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGsReading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGs
 
一階述語論理のメモ
一階述語論理のメモ一階述語論理のメモ
一階述語論理のメモ
 
Grammatical inference メモ 1
Grammatical inference メモ 1Grammatical inference メモ 1
Grammatical inference メモ 1
 
ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門
 
Tensor Decomposition and its Applications
Tensor Decomposition and its ApplicationsTensor Decomposition and its Applications
Tensor Decomposition and its Applications
 
Ada boost
Ada boostAda boost
Ada boost
 
Em
EmEm
Em
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
Foilsを使ってみた。
Foilsを使ってみた。Foilsを使ってみた。
Foilsを使ってみた。
 
ウェーブレット勉強会
ウェーブレット勉強会ウェーブレット勉強会
ウェーブレット勉強会
 
Prml sec3
Prml sec3Prml sec3
Prml sec3
 
Sec16 greedy algorithm no2
Sec16 greedy algorithm no2Sec16 greedy algorithm no2
Sec16 greedy algorithm no2
 
Sec16 greedy algorithm no1
Sec16 greedy algorithm no1Sec16 greedy algorithm no1
Sec16 greedy algorithm no1
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
Hash Table
Hash TableHash Table
Hash Table
 

Recently uploaded

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (8)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

PRML§12-連続潜在変数

  • 1. PRML読書会@KMC 12章 連続潜在変数 @taki0313 2011/05/22 PRMl読書会@KMC-12章:連続潜在変数
  • 2. お品書き ♣ 12.1 主成分分析(PCA) ♣ 12.2 確率的主成分分析(PPCA) ♣ 12.3 カーネル主成分分析(kPCA) ♣ 12.4 非線形潜在変数モデル どうみても主成分分析の章です,ありがt(ry PRMl読書会@KMC-12章:連続潜在変数
  • 3. 背景とか,そういう感じのこと - 主成分分析自体の背景 – データは完全に自由なわけではない 低次元の多様体の周辺に存在する - この章は8章から始まってる潜在変数関係の話の最後です - 線形ガウスモデル(8.1.4)を利用する – 主成分分析(PCA)などの定式化が導かれる PRMl読書会@KMC-12章:連続潜在変数 3/21
  • 4. §12.1 主成分分析 - 主成分分析(PCA; Principal Component Analysis) / KL変換 – 機械学習系の研究テーマの柱の1つ – 第4回IBISML研究会では... 確率的主成分分析における自動次元選択について 複数情報源に対する主成分分析 PRMl読書会@KMC-12章:連続潜在変数 4/21
  • 5. §12.1 主成分分析 - 主成分分析(PCA; Principal Component Analysis) / KL変換 – 機械学習系の研究テーマの柱の1つ – 第4回IBISML研究会では... 確率的主成分分析における自動次元選択について 複数情報源に対する主成分分析 主部分空間とよばれる低次元の線形空間への写像(直交射影) u1 x2 xn - 元の空間 2次元(平面) - D=2 xn - 部分空間 1次元(直線) - M=1 x1 PRMl読書会@KMC-12章:連続潜在変数 4/21
  • 6. §12.1.1 分散最大化による定式化 u1 x2 - 元の空間 2次元(平面) - D=2 xn xn - 部分空間 1次元(直線) - M=1 x1 - D>Mで,●→●の射影 - データをu1方向へ射影する: xn → (u1, xn ) PRMl読書会@KMC-12章:連続潜在変数 5/21
  • 7. §12.1.1 分散最大化による定式化 u1 x2 - 元の空間 2次元(平面) - D=2 xn xn - 部分空間 1次元(直線) - M=1 x1 - D>Mで,●→●の射影 - データをu1方向へ射影する: xn → (u1, xn ) 1 ∑N 平均 (u1, x ) = (u1, N ∑ xn ) ¯ n=1 n 分散 (u1, Su1), S = N n=1(xn − x )(xn − x )T 1 ¯ ¯ PRMl読書会@KMC-12章:連続潜在変数 5/21
  • 8. §12.1.1 分散最大化による定式化 u1 x2 - 元の空間 2次元(平面) - D=2 xn xn - 部分空間 1次元(直線) - M=1 x1 - D>Mで,●→●の射影 - データをu1方向へ射影する: xn → (u1, xn ) 1 ∑N 平均 (u1, x ) = (u1, N ∑ xn ) ¯ n=1 n 分散 (u1, Su1), S = N n=1(xn − x )(xn − x )T 1 ¯ ¯ - 分散の最大化 - 条件は(u1, u1) = 1: 向きだけ Su1 = λ1u1 - Sの固有値λ1と固有ベクトルu1 分散最大化のためにはλ1は大きい方を選ぶ PRMl読書会@KMC-12章:連続潜在変数 5/21
  • 9. §12.1.2 誤差最小化による定式化 ∑D - 正規直交基底 {ui }, i = 1, 2, ... D より, xn = i=1 αni ui ∑D (xn , uj ) = αnj → xn = i=1(xn , ui )ui PRMl読書会@KMC-12章:連続潜在変数 6/21
  • 10. §12.1.2 誤差最小化による定式化 ∑D - 正規直交基底 {ui }, i = 1, 2, ... D より, xn = i=1 αni ui ∑D (xn , uj ) = αnj → xn = i=1(xn , ui )ui - 次元を削減するためにD次元のうち,M < D次元だけを使う ∑M ∑D xn → xn = i=1 zni ui + i=M+1 bi ui ˜ ∑ 歪み度 J = N 1 ||xn − x ||2 → minimize ¯ zni = (xn , ui ) i = 1, ... , M, bi = (¯ , ui ) i = 1, ... , M x PRMl読書会@KMC-12章:連続潜在変数 6/21
  • 11. §12.1.2 誤差最小化による定式化 ∑D - 正規直交基底 {ui }, i = 1, 2, ... D より, xn = i=1 αni ui ∑D (xn , uj ) = αnj → xn = i=1(xn , ui )ui - 次元を削減するためにD次元のうち,M < D次元だけを使う ∑M ∑D xn → xn = i=1 zni ui + i=M+1 bi ui ˜ ∑ 歪み度 J = N 1 ||xn − x ||2 → minimize ¯ zni = (xn , ui ) i = 1, ... , M, bi = (¯ , ui ) i = 1, ... , M x ∑D - xn − xn = i=M+1(xn − x , ui )ui なので ˜ ¯ ∑N ∑D J = N n=1 i=M+1{(xn , ui ) − (¯ , ui )}2 を最小化する 1 x ∑D J = i=M+1(ui , Sui ) 変形した §12.1.1の逆を行う → 小さい固有値の方からD-M個 - 小さい固有値の部分は近似しちゃってもいいよ! PRMl読書会@KMC-12章:連続潜在変数 6/21
  • 12. §12.1.1-2 は似たようなことを言ってる - 上手く近似するために,大きい方から選ぼう - 近似しても影響ないように,小さい方を切ろう Mean λ1 = 3.4 · 105 λ2 = 2.8 · 105 λ3 = 2.4 · 105 λ4 = 1.6 · 105 Original M =1 M = 10 M = 50 M = 250 PRMl読書会@KMC-12章:連続潜在変数 6/21
  • 13. §12.1.3 主成分分析の応用 - 誤差最小化の時の式をこねこね ∑M ∑D xn = x + i=1((xn , ui ) − (¯ , ui ))ui ← x = i=1(¯ , ui )ui ˜ ¯ x ¯ x データの圧縮法を表現している (D→M) PRMl読書会@KMC-12章:連続潜在変数 7/21
  • 14. §12.1.3 主成分分析の応用 - 誤差最小化の時の式をこねこね ∑M ∑D xn = x + i=1((xn , ui ) − (¯ , ui ))ui ← x = i=1(¯ , ui )ui ˜ ¯ x ¯ x データの圧縮法を表現している (D→M) - 簡単な標準化(正規化?) - 平均0,分散1にする - PCAはより完全な(本格的な)正規化が可能 - 平均0,共分散Iにする 白色化(whitening) / 球状化(sphereing) 1 −2 T yn = L U (xn − x ) ¯ PRMl読書会@KMC-12章:連続潜在変数 7/21
  • 15. §12.1.4 高次元データに対する主成分分析 - データ数NのD次元データをM次元に射影する (M < D) - (?)N点は高々N − 1次元の線形の部分空間を定義するから... N − 1 < Mはダメ(意味がないらしい) 対応する固有値が0になることに対応するらしい(足りない分) 固有ベクトルとか求めてO(D 3) PRMl読書会@KMC-12章:連続潜在変数 8/21
  • 16. §12.1.4 高次元データに対する主成分分析 - データ数NのD次元データをM次元に射影する (M < D) - (?)N点は高々N − 1次元の線形の部分空間を定義するから... N − 1 < Mはダメ(意味がないらしい) 対応する固有値が0になることに対応するらしい(足りない分) 固有ベクトルとか求めてO(D 3) ( ) - X = (x1 − x ) (x2 − x ) ... (xN − x ) : NxD行列 T ¯ ¯ ¯ 1 S = NXTX 1 → N X T Xui = λi ui , i = 1, 2, ... 1 → N XX T (Xui ) = λ(Xui ), vi = Xui とする 1 → N XX T vi = λi vi - 元の共分散行列と同じ固有値λi を持ち,D → N, O(N 3) PRMl読書会@KMC-12章:連続潜在変数 8/21
  • 17. §12.1.3-4. 応用とか - 可視化への応用 100 2 2 90 80 70 0 0 60 50 −2 −2 40 2 4 6 −2 0 2 −2 0 2 1.5 1 0.5 0 −0.5 −1 −1.5 −2 −5 0 5 PRMl読書会@KMC-12章:連続潜在変数 8/21
  • 18. §12.2 確率的主成分分析(1) - 主成分分析 x ベイズ = 確率的主成分分析(PPCA) 制約付きのガウス分布に基づく 確率的取り扱いをするので,ベイズの定理/EM法が使える 生成モデルとして利用できる その他にもいいこといっぱい(?) - データ→主成分を探す ⇀ 裏に隠れ変数がある→データ ↽ p(z) = N (z | 0, I ) p(x|z) = N (x | Wz + µ, σ 2I ) §8.1.4: 線形ガウスモデルの例(全部ガウス!) ∫ 周辺確率 p(x) = p(x|z)p(z)dz PRMl読書会@KMC-12章:連続潜在変数 9/21
  • 19. §12.2 確率的主成分分析(2) - 生成モデル的な扱い 1. 潜在変数の値ˆ を一つ選ぶ z 2. z で条件付けしつつ,観測変数xをサンプリングする ˆ 3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ w x2 x2 p(x|z) µ µ z|w| } p(x) p(z) z z x1 x1 ○ - N (x|W z + µ, σ 2I ), ○ p(x)の等高線 ˆ PRMl読書会@KMC-12章:連続潜在変数 10/21
  • 20. §12.2 確率的主成分分析(2) - 生成モデル的な扱い 1. 潜在変数の値ˆ を一つ選ぶ z 2. z で条件付けしつつ,観測変数xをサンプリングする ˆ 3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ - 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?) p(z) = N (z | 0, I ), p(x|z) = N (x | Wz + µ, σ 2I ) ∫ p(x) = p(x|z)p(z)dz, これらをごにょごにょして処理する - ガウス分布同士の積なので - E[x] = µ, Cov[x] = WW T + σ 2I - 生成モデルから考えて x = Wz + µ + ϵ → 計算でも同じ - p291. 直感的には... → 意味不明 PRMl読書会@KMC-12章:連続潜在変数 10/21
  • 21. §12.2 確率的主成分分析(2) - 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?) p(z) = N (z | 0, I ) p(x|z) = N (x | Wz + µ, σ 2I ) ∫ p(x) = p(x|z)p(z)dz = N (x | µ, C ) E[x] = µ Cov[x] = WW T + σ 2I ˜ - W は直交行列Rに関して回転不変(冗長) - W = WR ˜ ˜ W W T = WW T , - 逆行列 C −1 = σ −2I − σ −2WM −1W T , M = W T W + σ 2I - 事後分布p(z | x) = N (z | M −1W T (x − µ), σ 2M −1) PRMl読書会@KMC-12章:連続潜在変数 10/21
  • 22. §12.2.1 最尤法による主成分分析 - 例によってデータの集合X = {x1, ... , xN } + 最尤法 ∑ N ln p(X | µ, W , σ 2) = ln p(xn | W , µ, σ 2) i=1 1∑ D ND N = − ln(2π) − ln |C | − (xn − µ)C −1(xn − µ)T 2 2 2 n=1 - µでの微分=0より,µ = x になる - 今までのガウス分布の推定と同じ ¯ N ln p(X | µ, W , σ 2) = − {D ln(2π) + ln |C | + Tr (C −1S)} 2 - σ, W についてはもっと複雑 PRMl読書会@KMC-12章:連続潜在変数 11/21
  • 23. §12.2.1 最尤法による主成分分析 - WML = UM (LM − σ 2I )1/2R Rは直交行列,UM はDxM行列-列ベクトルがSの固有ベクトル LM 対応する固有値の対角行列 M個の固有ベクトルを上位M個取ってくると(尤度)最大化される このときW が通常の主成分分析の主部分空間を成す (√ ) λ1 − σ 1 2u (√ ) (√ ) ( ) λ1 − σ 2 λ1 − σ 1 √ 0 2u u1 u2 √ 0 = 0 λ2 − σ 2 0 λ 2 − σ 2 u2 PRMl読書会@KMC-12章:連続潜在変数 11/21
  • 24. §12.2.1 最尤法による主成分分析 1 ∑D - 2 σML= i=M+1 λi D −M 下位の切り捨てられた分の分散を表す - 主成分分析は固有ベクトルの方向に分散λi を与える λi − σ 2: 潜在変数空間の分布→Wの空間へ射影する σ 2: ノイズ - お話略 PRMl読書会@KMC-12章:連続潜在変数 11/21
  • 25. §12.2.1 最尤法による主成分分析 - 共分散行列: C = WW T + σ 2I - (v , v ) = 1の向きを考える (v , v ) = 1の向きには,分散λi = (v , Cv )を与える v は主部分空間以外の固有ベクトルの一次結合とする (v , U) = 0 → (v , Cv ) = σ 2 主部分空間に直交する方向でのノイズ - v = ui を考える - (v , Cv ) = λi − σ 2 + σ 2 = λi PRMl読書会@KMC-12章:連続潜在変数 11/21
  • 26. §12.2.1 最尤法による主成分分析 - 最尤法によるモデルの構築の手法 共分散行列の固有値と固有ベクトルを利用する→W , σ 2を求める - 仮にM = Dのとき(圧縮しないとき) UM = U, LM = L, C = S - PCAの定式化とPPCAの定式化は結局同じようなもん p(z|x)の方向で圧縮操作を考える E[z|x] = M −1WML(x − x ), M = W T W + σ 2I T ¯ σ 2 → 0のとき(WMLWML)−1WML(x − x ) T T ¯ 主部分空間への射影になるらしい(演習12.11) - パラメータ数について PRMl読書会@KMC-12章:連続潜在変数 11/21
  • 27. §12.2.2 EMアルゴリズムによる主成分分析 - EM法の扱い(完全データと不完全データ...) ∑N ln p(X , Z |µ, W , σ ) = n=1{ln p(xn |zn ) + ln p(zn )} 2 p(xn |zn )とp(zn )を実際に代入してガリガリ... 式ぇ... - Eステップ - 古いパラメータで期待値を計算 E[zn ] = M −1W T (xn − x ) ¯ E[zn zn ] = σ 2M −1 + E[zn ]E[zn ]T T - Mステップ - 最大化する(C.24 とかいろいろ使うらしい) ∑ ∑ Wnew = [ (xn − x )E[zn ] ][ E[zn zn ]]−1 ¯ T T σML ぇ... 2 PRMl読書会@KMC-12章:連続潜在変数 12/21
  • 28. §12.2.2 EMアルゴリズムによる主成分分析 - EM法の利点がそのまま適応される - 反復処理 - 実は計算効率が良く,σ 2 → 0のとき,処理が簡単化 ( ) E[zn zn ]の計算が不要, データ行列X T ˜ ,Ω = ... E[zn ] ... Eステップ: Ω = (Wold Wold )−1Wold X T T T ˜ Mステップ: Wnew = X T ΩT (ΩΩT )−1 ˜ PRMl読書会@KMC-12章:連続潜在変数 13/21
  • 29. §12.2.2 EMアルゴリズムによる主成分分析 1. 完全データの対数尤度を書き下した 2. 古いパラメータの値で潜在変数の事後分布の期待値を求める 3. 完全データに対する期待対数尤度の最大化→パラメータ 2 (a) 2 (b) 2 (c) 0 0 0 −2 −2 −2 −2 0 2 −2 0 2 −2 0 2 2 (d) 2 (e) 2 (f) 0 0 0 −2 −2 −2 −2 0 2 −2 0 2 −2 0 2 PRMl読書会@KMC-12章:連続潜在変数 13/21
  • 30. §12.2.2 EMアルゴリズムによる主成分分析 2 (a) 2 (b) 2 (c) 0 0 0 −2 −2 −2 −2 0 2 −2 0 2 −2 0 2 2 (d) 2 (e) 2 (f) 0 0 0 −2 −2 −2 −2 0 2 −2 0 2 −2 0 2 バネの一端を各データ点に固定し,他点を主部分空間に付ける Eステップ: 棒を固定して,ばねの取り付け点をずらしエネルギーの最小化 Mステップ: ばねを固定し,棒をエネルギー最低の状態に動くようにする PRMl読書会@KMC-12章:連続潜在変数 13/21
  • 31. §12.2.3 ベイズ的主成分分析 - 今まではMを決めてた 可視化ならM=2だし,固有値がはっきり分かれるならそのあたり - ベイズ的取り扱いをしたのでMが決まるはずだ 例えば交差確認法 ベイズ的取り扱いでモデル選択する - モデルのパラメータµ, W , σ 2を消す → 難しい - エビデンス近似に基づく手法 W の列ベクトルにパラメータαi を入れる αi の値を周辺尤度関数の最大化で見い出す 有限のαi の数が有効な主部分空間の次元 PRMl読書会@KMC-12章:連続潜在変数 14/21
  • 32. §12.2.3 ベイズ的主成分分析 - 通常の確率的主成分分析との比較 10次元データのうち,3次元が他の7次元より大きい分散を持つ 左: 普通の確率的主成分分析 + 最尤解 右: ハイパーパラメータを入れたベイズ的主成分分析 PRMl読書会@KMC-12章:連続潜在変数 14/21
  • 33. §12.2.3 ベイズ的主成分分析 - ベイズ的主成分分析 + ギブスサンプリング 10 5 0 10 5 0 10 5 0 D=4→M=3.データはある1方向だけ大きい分散を持つ ln αi のプロット.1つだけ有限の小さい値を持つ. PRMl読書会@KMC-12章:連続潜在変数 14/21
  • 34. §12.2.4 因子分析 - 観測変数xの条件付き分布の共分散が非等方的で対角的Ψ - p(x|z) = N (x | Wz + µ, Ψ) Ψ: 観測変数の座標毎に独立な分散を表現 W の列ベクトルに変数間の共分散が入っている - このときp(x) = N (x|µ, C ), C = WW T + Ψ - 閉じた解にならないので反復的に解く... Eステップ & Mステップ(略) 個人的に思うこと→EM法をPPCAに導入しておくと 似た枠組みで因子分析と一緒に扱える(形も似てるし) いろんな所にベイズの取り扱いを入れるのは それらの分野の道具で無理矢理解くためだということか PRMl読書会@KMC-12章:連続潜在変数 15/21
  • 35. §12.3 カーネル主成分分析 - 主成分分析 x カーネル関数 = カーネル主成分分析(kPCA) ∑N - データ{xn }は最初から中心化されてるとする - S = N n=1 xn xn 1 T 1 ∑N - xn を特徴空間へ射影してϕ(xn )とする - C = N n=1 ϕ(xn )ϕ(xn )T x2 v1 ϕ1 x1 ϕ2 PRMl読書会@KMC-12章:連続潜在変数 16/21
  • 36. §12.3 カーネル主成分分析 - C の固有値...を,Sと同じように行っていく 1 ∑N Cvi = λi vi より N n=1 ϕ(xn )(ϕ(xn ), vi ) = λi vi ∑N よってλi > 0を仮定して vi = n=1 ain ϕ(xn ) - vi の展開を固有ベクトルの方程式に戻す 1 ∑N T ∑N ∑N N n=1 ϕ(xn )ϕ(xn ) n=1 ain ϕ(xn ) = λi n=1 ain ϕ(xn ) 1 ∑N ∑N ∑N - N n=1 ϕ(xn )ϕ(xn ) T n=1 ain ϕ(xn ) = λi n=1 ain ϕ(xn ) - 両辺にϕ(xl )T を掛け,カーネル関数k(xn , xm ) = (ϕ(xn ), ϕ(xm ))を使う 1 ∑K ∑N ∑N N n=1 k(xl , xn ) m=1 aim k(xn , xm ) = λi n=1 ain k(xl , xn ) - 行列表記らしい: K 2ai = λi NKai PRMl読書会@KMC-12章:連続潜在変数 16/21
  • 37. §12.3 カーネル主成分分析 - 行列表記らしい: K 2ai = λi NKai ai は次元列ベクトル, 各要素ain . Kai = λi Nai の固有方程式を解く ∑ ∑N N 規格化条件: 1 = (vi , vi ) = n=1 m=1 ain aim (ϕ(xn ), ϕ(xm )) = (ai , Kai ) = λi N(ai , ai ) - 点xの固有ベクトルiの上への射影 - カーネル関数で求まる ∑N yi (x) = (ϕ(x), vi ) = n=1 ain k(x, xn ) カーネル主成分分析 NxN行列K の固有値分解 カーネル法のアイデア (xi , xj ) → (ϕ(xi ), ϕ(xj )) PRMl読書会@KMC-12章:連続潜在変数 16/21
  • 38. §12.3 カーネル主成分分析 - 補足: 写像されたデータ集合ϕ(xn )の平均が0ではない 平均を引く(中心化?)の操作もϕ, kを使って定式化したい ˜ n ) = ϕ(xn ) − 1 ∑N ϕ(xl ) - ϕ(x N l=1 - K˜ = (ϕ(xn ), ϕ(xm ))... nm ˜ ˜ ˜ - K = K − 1N K − K 1N + 1N K 1N 1 1N はすべての要素が N である行列 - 通常の主成分分析(PCA)はk(xn , xm ) = (xn , xm )で再現 PRMl読書会@KMC-12章:連続潜在変数 16/21
  • 40. §12.4 非線形潜在変数モデル - §12.1-12.3 線形ガウス分布に基づくモデル - §12.4 非ガウス的 or 非線形 or その両方に拡張する - 非ガウス と 非線形の関係 ガウス分布 + 非線形の変数変換 → 一般的な分布 らしい - ここからお話だけだよ PRMl読書会@KMC-12章:連続潜在変数 17/21
  • 41. §12.4.1 独立成分分析 - 独立成分分析(ICA; Independent Component Analysis) ∏M 潜在変数の分布がp(z) = j=1 p(zj )に分解されてる e.g. 未知音源分離 - (線形の)主成分分析,因子分析では回転不変性がある ˜ W = WRと回転させても同じ結果になる 分離とかできないし… PRMl読書会@KMC-12章:連続潜在変数 18/21
  • 42. §12.4.2 自己連想ニューラルネットワーク - D個の入出力ユニット,M個の隠れユニットの多層パーセプトロン xD zM xD inputs outputs x1 z1 x1 - 自分自身に写像しようとする自己連想写像 - D > Mなので,一般には完全に再現できないから… ∑N E (w ) = 2 n=1 ||y (xn , w ) − xn ||2を最小化 1 PRMl読書会@KMC-12章:連続潜在変数 19/21
  • 43. §12.4.2 自己連想ニューラルネットワーク - 隠れユニットが線形の活性化関数を持つとき 大局的な最適化を持ち,主成分分析と一致する - 非線形の隠れユニットを使っても一緒 - 追加の隠れ層が使える場合 F1 F2 xD xD inputs outputs x1 x1 non-linear PRMl読書会@KMC-12章:連続潜在変数 19/21
  • 44. §12.4.2 自己連想ニューラルネットワーク - 追加の隠れ層が使える場合: 2つの写像F1, F2の適用と見る - D次元→M次元部分空間への写像 & M次元部分空間→D次元 x3 z2 x3 F1 F2 S x1 z1 x1 x2 x2 - 非線形の主成分分析を行える - 誤差関数の最小化問題に変わる PRMl読書会@KMC-12章:連続潜在変数 19/21
  • 45. §12.4.3 非線形多様体のモデル化 - 高次元データはより低次の非線形多様体に対応する 要するにたくさんの次元の数ほど自由度がない 1. 区分線形近似を組合せた多様体の表現 各部分で共通のコスト関数の最適化しつつ処理 2. 確率的主成分分析を混合する + EM 3. ベイズ的主成分分析 + 変分推論 4. 線形モデル→非線形モデル 通常のPCA(線形部分空間)→非線形の曲面上に射影 主成分曲線,主成分曲面,主成分超曲面… → むずい PRMl読書会@KMC-12章:連続潜在変数 20/21
  • 46. §12.4.3 非線形多様体のモデル化 - 可視化手法としてのPCA 多次元尺度構成法(MDS) -- 2個のデータ点間の距離をなるべく保存するように 距離行列の固有ベクトルを求めることで低次元射影を見出す 非計量多次元尺度構成法(nonmetric MDS) -- 距離行列→類似度行列 - ノンパラメトリックな次元削減と可視化 局所線形埋め込み(LLE) 等長特徴写像(isomap) PRMl読書会@KMC-12章:連続潜在変数 20/21
  • 47. §12.4.3 非線形多様体のモデル化 - 潜在特性モデル 潜在変数が連続,観測変数が離散の場合 上手く周辺化できなくなって,対策が必要らしい - 密度ネットワーク ガウス分布+非線形変換で任意の分布を構成できる性質 非線形性 ∼ 多層ニューラルネットワーク 潜在変数の周辺化ができない ∼ サンプリング - 非線形関数の制限+潜在変数の分布を適切に選択 学習効率と非線形性を両立する GTM 格子状に配置された有限個のデルタ関数で 定義される潜在変数の分布を用いる. 非線形写像は線形回帰モデル. PRMl読書会@KMC-12章:連続潜在変数 20/21
  • 48. §12.4.3 非線形多様体のモデル化 - PCAによる可視化(左) / GTMによる可視化(右) - GTMは自己組織化マップ(SOM)の確率化版 PRMl読書会@KMC-12章:連続潜在変数 20/21
  • 49. まとめ - §12.1 PCAは主部分空間への写像: データ→部分空間 - §12.2 PPCAによる確率的な扱い 潜在変数→データ 尤度,EM法などが応用できる - §12.3 kPCA - (x, y ) → (ϕ(x), ϕ(y )) - §12.4 いろいろ話題がありますね(棒 まだまだ最新の研究がされてます(おわり) PRMl読書会@KMC-12章:連続潜在変数 21/21