Deep Mixturesof Factor Analysers[ICML 2012]Yichuan Tang, Ruslan Salakhutdinov,Geoffrey Hinton(University of Toronto)斎藤 淳哉間...
概要PRMLで解説されている「Factor Analyzer(因子分析)」を拡張した「Mixture of Factor Analyze(混合因子分析)」を多層化した「Deep Mixtures of Factor Analyzer」の提案
因子分析の目的2/16次元削減• 特徴ベクトルの次元が大きいことは一般的に非常にまずい• 直感に反する訳のわからないことが起こったりする(次元の呪い)• 学習データも凄まじくたくさん必要になる• 計算時間もかかる• 統計学では、因子分析はデータ...
Factor Analyzer(FA, 因子分析) 概要目的:次元削減入力:ラベルなし特徴ベクトル集合 𝒙 𝑛 𝑛=1𝑁次元削減後の次元数𝑑出力:高次元正規分布𝑝 𝒙 および高次元正規分布𝑝 𝒙 と低次元正規分布𝑝 𝒛 の関係入力 高次元正規分...
Factor Analyzer(FA, 因子分析) 詳細4/16𝝁𝑾𝒛 𝑾𝑝 𝒙|𝒛𝑥1𝑥2𝑝 𝒙𝑝 𝒛𝒛低次元正規分布𝑝 𝒛(次元数𝑑 = 1)高次元正規分布𝑝 𝒙𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝚿※𝑝 𝒛...
参考) 確率的主成分分析5/16確率的主成分分析≒因子分析𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝜎2𝐈𝚿:対角行列𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝚿相違点)確率的主成分分析因子分析
Mixtures of Factor Analyzer(MFA, 混合因子分析)6/16FAの混合版𝑝 𝑐 = 𝜋 𝑐 s. a. 𝜋 𝑐 = 1𝐶𝑐=1𝑝 𝒛|𝑐 = 𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈𝑝 𝒙|𝒛, 𝑐 = 𝒩 𝒙|𝐖𝑐 𝒛 + 𝝁...
MFAの課題7/16混合数𝐶または次元数𝑑を上げると過学習多層化→Deep Mixtures of Factor Analyzer
Deep Mixtures of Factor Analyzer(DMFA)8/16𝑥1𝑥2入力𝑥1𝑥2 𝑝 𝒙《第1層》《第2層》 𝑥1𝑥2𝑝 𝒙MFA高次元混合正規分布𝑝 𝒙決定的にクラス割当クラス内でMFA𝒛𝑝 𝒛𝒛𝑝 𝒛𝒙 = 𝐖2 𝒛...
Deep Mixtures of Factor Analyzer(DMFA)• 実はDMFAはMFAと等価• DMFAをMFAとして計算可(Shallow MFA)• しかしDMFAとして学習すると過学習を回避できるのでDMFAのほうが有利9/16
実験110/16対数尤度[nat]学習データ:顔画像(D= 24×24)MFA(学習データ c=20, d=D/2=288)MFA(テストデータ c=20, d=D/2=288)DMFA 2層 (学習データ c=5, d=50)DMFA 2層 ...
実験211/16DMFA(2層) DMFA(3層)d=D/2C=20d=50C=5d=30C=3高次元特徴ベクトルに対して有効なRBM系の従来手法学習データに対する対数尤度テストデータに対する対数尤度カラー画像(D= 32×32×3 )音声(D...
まとめ• 混合因子分析を多層化したDMFAを提案• 混合数または次元が大きいときに有効12/16
Upcoming SlideShare
Loading in …5
×

Deep Mixtures of Factor Analysers

8,769 views

Published on

論文紹介

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
8,769
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Deep Mixtures of Factor Analysers

  1. 1. Deep Mixturesof Factor Analysers[ICML 2012]Yichuan Tang, Ruslan Salakhutdinov,Geoffrey Hinton(University of Toronto)斎藤 淳哉間違い等ありましたらご連絡くださいjunya【あっと】fugaga.info論文紹介2013/04/20
  2. 2. 概要PRMLで解説されている「Factor Analyzer(因子分析)」を拡張した「Mixture of Factor Analyze(混合因子分析)」を多層化した「Deep Mixtures of Factor Analyzer」の提案
  3. 3. 因子分析の目的2/16次元削減• 特徴ベクトルの次元が大きいことは一般的に非常にまずい• 直感に反する訳のわからないことが起こったりする(次元の呪い)• 学習データも凄まじくたくさん必要になる• 計算時間もかかる• 統計学では、因子分析はデータ理解のためデータの中から共通因子を探り出す方法で主成分分析が次元削減らしいけど、機械学習だと数式上の差しかない?• まあどちらもできるけど、機械学習で扱うような高次元データの共通因子がわかったところで、データ理解できるかというと無理な気が・・・
  4. 4. Factor Analyzer(FA, 因子分析) 概要目的:次元削減入力:ラベルなし特徴ベクトル集合 𝒙 𝑛 𝑛=1𝑁次元削減後の次元数𝑑出力:高次元正規分布𝑝 𝒙 および高次元正規分布𝑝 𝒙 と低次元正規分布𝑝 𝒛 の関係入力 高次元正規分布𝑝 𝒙𝑝 𝒛𝒛線形変換:𝒙 = 𝐖𝒛 + 𝝁低次元正規分布𝑝 𝒛(次元数𝑑 = 1)𝑥1𝑥2 𝑥2𝑝 𝒙𝑥1FA
  5. 5. Factor Analyzer(FA, 因子分析) 詳細4/16𝝁𝑾𝒛 𝑾𝑝 𝒙|𝒛𝑥1𝑥2𝑝 𝒙𝑝 𝒛𝒛低次元正規分布𝑝 𝒛(次元数𝑑 = 1)高次元正規分布𝑝 𝒙𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝚿※𝑝 𝒛 と𝑝 𝒙|𝒛 の定義から𝑝 𝒙 と𝑝 𝒛|𝒙 も正規分布※EMアルゴリズムでパラメータ推定できる𝐳:次元削減空間での特徴ベクトル(潜在変数)𝐱:特徴ベクトル(観測変数)𝚿:対角行列モデル:観測可能な高次元正規分布𝑝 𝒙 は、潜在的な低次元正規分布𝑝 𝒛 から発生した特徴ベクトル𝒛の線形変換𝐖𝒛 + 𝝁からなる𝚿
  6. 6. 参考) 確率的主成分分析5/16確率的主成分分析≒因子分析𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝜎2𝐈𝚿:対角行列𝑝 𝒙|𝒛 = 𝒩 𝒙|𝐖𝒛 + 𝝁, 𝚿相違点)確率的主成分分析因子分析
  7. 7. Mixtures of Factor Analyzer(MFA, 混合因子分析)6/16FAの混合版𝑝 𝑐 = 𝜋 𝑐 s. a. 𝜋 𝑐 = 1𝐶𝑐=1𝑝 𝒛|𝑐 = 𝑝 𝒛 = 𝒩 𝒛|𝟎, 𝐈𝑝 𝒙|𝒛, 𝑐 = 𝒩 𝒙|𝐖𝑐 𝒛 + 𝝁 𝑐, 𝚿𝑐※EMアルゴリズムでパラメータ推定できる入力 高次元混合正規分布𝑝 𝒙𝑝 𝒛𝒛𝒙 = 𝐖1 𝒛 + 𝝁1低次元正規分布𝑝 𝒛(次元数𝑑 = 1)𝑥2𝑥1𝑥2𝑥1𝑝 𝒙𝑝 𝒛𝒛𝑝 𝒛𝒛𝒙 = 𝐖2 𝒛 + 𝝁2𝒙 = 𝐖3 𝒛 + 𝝁3𝑐 = 1𝑐 = 2𝑐 = 3MFA
  8. 8. MFAの課題7/16混合数𝐶または次元数𝑑を上げると過学習多層化→Deep Mixtures of Factor Analyzer
  9. 9. Deep Mixtures of Factor Analyzer(DMFA)8/16𝑥1𝑥2入力𝑥1𝑥2 𝑝 𝒙《第1層》《第2層》 𝑥1𝑥2𝑝 𝒙MFA高次元混合正規分布𝑝 𝒙決定的にクラス割当クラス内でMFA𝒛𝑝 𝒛𝒛𝑝 𝒛𝒙 = 𝐖2 𝒛 + 𝝁2𝒙 = 𝐖1 𝒛 + 𝝁1決定的にクラス割当クラス内でMFAMFA𝑐 = 1𝑐 = 2𝑠 = 8𝑠 = 7𝑠 = 6𝑠 = 3𝑠 = 5𝑠 = 4𝑠 = 2𝑠 = 1𝑠 = 9
  10. 10. Deep Mixtures of Factor Analyzer(DMFA)• 実はDMFAはMFAと等価• DMFAをMFAとして計算可(Shallow MFA)• しかしDMFAとして学習すると過学習を回避できるのでDMFAのほうが有利9/16
  11. 11. 実験110/16対数尤度[nat]学習データ:顔画像(D= 24×24)MFA(学習データ c=20, d=D/2=288)MFA(テストデータ c=20, d=D/2=288)DMFA 2層 (学習データ c=5, d=50)DMFA 2層 (テストデータ c=5, d=50)Shallow MFA(学習データ c=5, d=50)Shallow MFA(テストデータ c=5, d=50)過学習対数尤度による評価(値が大きいほどよい)
  12. 12. 実験211/16DMFA(2層) DMFA(3層)d=D/2C=20d=50C=5d=30C=3高次元特徴ベクトルに対して有効なRBM系の従来手法学習データに対する対数尤度テストデータに対する対数尤度カラー画像(D= 32×32×3 )音声(D=1353)対数尤度による評価(値が大きいほどよい)
  13. 13. まとめ• 混合因子分析を多層化したDMFAを提案• 混合数または次元が大きいときに有効12/16

×