Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Representation Learning:A Review and New Perspectives       Yoshua Bengio, Aaron Courville, and Pascal VincentDepartment o...
Abstract• 機械学習アルゴリズムの性能 – データ表現に依存  •   データの背後にある真の説明因子が複雑で,隠      されてしまっている  •   ドメイン依存の知識や,一般的な前提知識を      データ表現の設計に利用するこ...
Abstract• この論文の内容 – 教師なしの特徴学習,ディープラーニング   の結合学習に関する最近の研究成果のレ   ビュー – 確率モデル,オートエンコーダ,多様体学   習,ディープアーキテクチャをカバー              ...
Abstract• この論文の内容 – 長期的な難問を提起するのが目的  •   良い表現を学習,推定するための適切な対象  •   表現学習,密度推定,多様体学習間の幾何学的      な接続                         ...
1. INTRODUCTION• 機械学習アルゴリズムの性能 – データ(特徴)表現の選択に強く依存  •   データの変換にすごく手間をかけている現状  •   特徴量のエンジニアリングも人間の創造性や前      提知識を利用してしまってい...
1. INTRODUCTION• 本稿の内容 – 特徴学習(feature learning),表現学習   (representation learning)  •   分類器や予測器の作成時に有用な情報の抽出が      簡単になるようなデ...
2. WHY SHOULD WE CARE ABOUT LEARNING    REPRESENTATIONS?• 様々な分野での表現学習について言及1. Speech Recognition and Signal   Processing(音...
2. WHY SHOULD WE CARE ABOUT LEARNING    REPRESENTATIONS?3. Natural Language Processing(自然言語   処理) – SENNAシステム・・・言語モデリングを行う...
2. WHY SHOULD WE CARE ABOUT LEARNING    REPRESENTATIONS?4. Multi-Task and Transfer Learning,   Domain Adaptation(マルチタスク,転 ...
3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Smoothness(平滑性)  •   3-2で議論– Multiple explanatory factors(複数の説明要  因...
3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Semi-supervised learning(半教師あり学  習)  •   𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用...
3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Manifolds(多様性)  •   元のデータ空間より小さな次元数を持つ局所的な      領域にデータが集中している場合,オート...
3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提 – Temporal and spatial coherence   •   時間,空間的に近くな状態からの観測は似たよう       ...
3. WHAT MAKES A REPRESENTATION GOOD?2. 平滑性と次元の呪い                       カーネル関数を用いて,局所                       的で平滑な線形モデルを構築  ...
3. WHAT MAKES A REPRESENTATION GOOD?3. 分散化した表現 – 良い表現   •   表現力豊かであること       –   入力領域を識別するのに十分な数のパラメータを持っ           ているか  ...
3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 特徴の再利用                       計算的,統計的な効率性を持つ        ...
3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 抽象性と不変性   •   ディープアーキテクチャは抽象性の低いもの同士       の関係性からより...
3. WHAT MAKES A REPRESENTATION GOOD?5. Disentangling Factors of Variation(変化   の要因の分解)  – 特徴学習へのアプローチ    •   可能な限りたくさんの要因に...
4. BUILDING DEEP REPRESENTATIONS• 特徴学習,ディープラーニングの出現 – 2006~ – 階層別に教師なし学習を行うというアイデ   ア• ディープアーキテクチャに基づく特徴学  習 – より良い表現抽出をスタ...
4. BUILDING DEEP REPRESENTATIONS• Deep Belief Network  – Stack pre-trained RBMsその他DBM(Deep Boltzmann Machine), deep auto-e...
5. SINGLE-LAYER LEARNING MODULES• 表現学習への2つのアプローチ – 確率的グラフィカルモデルに基づくもの(§6)  •   隠れ変数を持つ      –   RBM(Restricted Boltzmann M...
5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分  分析) – 最古の特徴抽出アルゴリズム   •   確率モデルと非常に関係がある       –   固有...
5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分  分析)      PCAは表現学習の基本的な特徴を全て備えている                     ...
6. PROBABILISTIC MODELS• 確率モデルからみた特徴学習 – 観測データ上の分布を表現する潜在変数の復   元 – 潜在変数ℎ, 観測データ𝑥において,確率モデ   ル 𝑝(ℎ, 𝑥) を定義 – 特徴量は潜在変数の確率分布...
6. PROBABILISTIC MODELS1. Directed Graphical Models  – 原因 ℎ と結果 𝑥 が対応するモデル     • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度  – 原因と結果に1対1の対応...
6. PROBABILISTIC MODELS1. Directed Graphical Models  2. Probabilistic Interpretation of PCA    •   主成分分析の確率的解釈            ...
6. PROBABILISTIC MODELS1. Directed Graphical Models  3. Sparse Coding    •   たくさんいるニューロンのうち、ホンの一部の        ニューロンだけが活動して、情報の...
6. PROBABILISTIC MODELS1. Directed Graphical Models  3. Sparse Coding    •   確率的解釈        –   p(h)は事前分布にラプラス分布を仮定        –...
6. PROBABILISTIC MODELS2. Undirected Graphical Models  – Markov Random Fields(MRFs)とも呼ばれる  – 教師無し特徴学習ではボルツマン分布を利用    した形式を...
6. PROBABILISTIC MODELS2. Undirected Graphical Models  – 条件付き確率  – 事後分布の推定は周辺化で行う                                 35
6. PROBABILISTIC MODELS2. Undirected Graphical Models  1. Restricted Boltzmann Machines     • Eq.7でU,V=0とし,単純化したもの     • 観...
6. PROBABILISTIC MODELS3. Generalizations of the RBM to Real-   valued data  – 画像データに対し、様々な拡張が提案    • Gaussian RBM, mean a...
6. PROBABILISTIC MODELS4. RBM parameter estimation  – Log likelihood  – 勾配               positive phase                   ...
6. PROBABILISTIC MODELS4. RBM parameter estimation  – パラメータの独立性を利用  – ギブスサンプリングで収束するまで実行(問題点)   • Burn-in: 初期のGibbs Sampli...
6. PROBABILISTIC MODELS4. RBM parameter estimation  1. Contrastive Divergence    •   Positive phaseを先に実行    •   Gibbs samp...
6. PROBABILISTIC MODELS4. RBM parameter estimation  2. Stochastic Maximum Likelihood    •   Negative phaseは前のxの状態で更新    • ...
Upcoming SlideShare
Loading in …5
×

Deep learning勉強会20121214ochi

28,697 views

Published on

Deep Learning 勉強会資料です。https://sites.google.com/site/deeplearning2013/

  • Be the first to comment

Deep learning勉強会20121214ochi

  1. 1. Representation Learning:A Review and New Perspectives Yoshua Bengio, Aaron Courville, and Pascal VincentDepartment of computer science and operations research, U. Montreal 12/14 2012 D1 大知 正直 1
  2. 2. Abstract• 機械学習アルゴリズムの性能 – データ表現に依存 • データの背後にある真の説明因子が複雑で,隠 されてしまっている • ドメイン依存の知識や,一般的な前提知識を データ表現の設計に利用することができる • こうした前提知識をもっと強力に学習する表現 学習アルゴリズムがAI分野で求められている 7
  3. 3. Abstract• この論文の内容 – 教師なしの特徴学習,ディープラーニング の結合学習に関する最近の研究成果のレ ビュー – 確率モデル,オートエンコーダ,多様体学 習,ディープアーキテクチャをカバー 8
  4. 4. Abstract• この論文の内容 – 長期的な難問を提起するのが目的 • 良い表現を学習,推定するための適切な対象 • 表現学習,密度推定,多様体学習間の幾何学的 な接続 9
  5. 5. 1. INTRODUCTION• 機械学習アルゴリズムの性能 – データ(特徴)表現の選択に強く依存 • データの変換にすごく手間をかけている現状 • 特徴量のエンジニアリングも人間の創造性や前 提知識を利用してしまっている• AIは本質的に人間の身の回りの世界を理 解しなければならない – 低レベルの知覚可能なデータの根本にある 説明要因を分解し学習することができれば 可能 10
  6. 6. 1. INTRODUCTION• 本稿の内容 – 特徴学習(feature learning),表現学習 (representation learning) • 分類器や予測器の作成時に有用な情報の抽出が 簡単になるようなデータの変換を学習すること • ディープラーニングによる特徴学習に注目 – より抽象的な表現を作ることを目的とした複数回の非 線型データ変換 – 近年の発展途上の領域だが、特に最近の進展の内容を 強調 11
  7. 7. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?• 様々な分野での表現学習について言及1. Speech Recognition and Signal Processing(音声認識と信号処理) – MAVIS(Microsoft Research) が約30%のエ ラー率改善2. Object Recognition(物体認識) – MNIST(数字認識タスク)においてディープ ラーニングがSVMの1.4%のエラー率を 0.27%に改善 – ImageNet(自然画像のデータセット)認識タ スクで15.3%のエラー率へ改善 12
  8. 8. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?3. Natural Language Processing(自然言語 処理) – SENNAシステム・・・言語モデリングを行う タスク(品詞タグ付け,チャンキング,固有 名詞認識,意味役割ラベリング,構文解析) 向けのシステム – (Mikolov et al., 2011)は隠れ層を再帰的に追加 する手法で、平滑化n-gramをperplexity,品詞 認識のエラー率で上回る 13
  9. 9. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?4. Multi-Task and Transfer Learning, Domain Adaptation(マルチタスク,転 移学習,ドメイン適応) 説明要因(赤い◯)を発見す る表現学習モデルのイメージ 図. タスク間での統計的強度の共 有が表現の一般性の獲得を可 能にする. ICML2011, NIPS2011の ワークショップで良い結果が 報告されている 14
  10. 10. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Smoothness(平滑性) • 3-2で議論– Multiple explanatory factors(複数の説明要 因) • 3-5で議論(3-3で議論する分散化した表現が前提 にある)– A hierarchical organization of explanatory factors(説明要因の階層化) • 抽象的な概念はより上の階層へ(3-4で議論する “deep representation”が利用される仮定) 15
  11. 11. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Semi-supervised learning(半教師あり学 習) • 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用. 教師あり,無し学習間の表現の共有を可能にする (4で議論)– Shared factors across tasks • 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2- 3で述べた) 16
  12. 12. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Manifolds(多様性) • 元のデータ空間より小さな次元数を持つ局所的な 領域にデータが集中している場合,オートエン コーダアルゴリズムや他の多様体学習のアルゴリ ズムが利用される(7-2,8で議論)– Natural clustering • 多様体上での局所的な分布がそのままクラスタに なっている状態(人間が考える固有のカテゴリ, クラスといった概念と一致)8-3 Manifold Tangent Classifierで議論 17
  13. 13. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提 – Temporal and spatial coherence • 時間,空間的に近くな状態からの観測は似たよう な結果をもたらしやすい(11-3で議論) – Sparsity • 観測データ𝑥で実際に関係のある要因がほんのわ ずかであること(6-1-3, 7-2で議論)これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法として,頻繁に見られる 18
  14. 14. 3. WHAT MAKES A REPRESENTATION GOOD?2. 平滑性と次元の呪い カーネル関数を用いて,局所 的で平滑な線形モデルを構築 することで解決 こうしたカーネルそのものの発見も表現学習に含まれると考える 19
  15. 15. 3. WHAT MAKES A REPRESENTATION GOOD?3. 分散化した表現 – 良い表現 • 表現力豊かであること – 入力領域を識別するのに十分な数のパラメータを持っ ているか » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の 入力領域の識別に𝑂(𝑁)個のパラメータが必要 » RBMs(Restricted Boltzmann Machines), スパース コーディング, オートエンコーダ,多層ニューラル ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で ない要素の数) 良い表現=分散化した表現(distributed representation) 20
  16. 16. 3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 特徴の再利用 計算的,統計的な効率性を持つ ディープラーニングの背後にある利点 21
  17. 17. 3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 抽象性と不変性 • ディープアーキテクチャは抽象性の低いもの同士 の関係性からより抽象性の高いものを構築する • 抽象性の高い表現は一般的には極めて局所的な変 化に対して不変 • 分類という概念に一致 不変的な特徴の学習はパターン認識の大きな目標の一つ 22
  18. 18. 3. WHAT MAKES A REPRESENTATION GOOD?5. Disentangling Factors of Variation(変化 の要因の分解) – 特徴学習へのアプローチ • 可能な限りたくさんの要因に分解すること • ほとんど実用上意味の無いデータを捨てること 特徴学習の基準 23
  19. 19. 4. BUILDING DEEP REPRESENTATIONS• 特徴学習,ディープラーニングの出現 – 2006~ – 階層別に教師なし学習を行うというアイデ ア• ディープアーキテクチャに基づく特徴学 習 – より良い表現抽出をスタックする手法 • 分類エラーの減少を目指すもの • 確率モデルによって生成されたサンプルの質を 見るもの • 学習した特徴の不変特性見るもの 24
  20. 20. 4. BUILDING DEEP REPRESENTATIONS• Deep Belief Network – Stack pre-trained RBMsその他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数 を利用する研究が報告されている 25
  21. 21. 5. SINGLE-LAYER LEARNING MODULES• 表現学習への2つのアプローチ – 確率的グラフィカルモデルに基づくもの(§6) • 隠れ変数を持つ – RBM(Restricted Boltzmann Machine) – ニューラルネットワークに基づくもの(§7) • 階層構造を持つ – Auto-encoder どちらもグラフ構造を持ち,本質的な差は無い → §6,7で一層で訓練する特徴学習の手法について解説 26
  22. 22. 5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分 分析) – 最古の特徴抽出アルゴリズム • 確率モデルと非常に関係がある – 固有値分解 • 出力が基本的なauto-encoderと同じ – ああああ • 多様体学習の単純な形式ととらえることが可能 27
  23. 23. 5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分 分析) PCAは表現学習の基本的な特徴を全て備えている 28
  24. 24. 6. PROBABILISTIC MODELS• 確率モデルからみた特徴学習 – 観測データ上の分布を表現する潜在変数の復 元 – 潜在変数ℎ, 観測データ𝑥において,確率モデ ル 𝑝(ℎ, 𝑥) を定義 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後 確率 – 尤度最大化などのモデルパラメータ推定によ る学習有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習 の研究が存在 29
  25. 25. 6. PROBABILISTIC MODELS1. Directed Graphical Models – 原因 ℎ と結果 𝑥 が対応するモデル • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度 – 原因と結果に1対1の対応がある • 𝑝 𝑥 ℎ の分布が集中している PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse coding model 等が挙げられる 30
  26. 26. 6. PROBABILISTIC MODELS1. Directed Graphical Models 2. Probabilistic Interpretation of PCA • 主成分分析の確率的解釈 31
  27. 27. 6. PROBABILISTIC MODELS1. Directed Graphical Models 3. Sparse Coding • たくさんいるニューロンのうち、ホンの一部の ニューロンだけが活動して、情報の重複をでき るだけ抑えて情報を表現する方法 • 非確率的な視点 – ああああ – Xごとに活動するhを決定づける辞書Wを学習 – ああああ – Jscが最小になるように訓練データを学習 – WhはL1正則化項として機能 32
  28. 28. 6. PROBABILISTIC MODELS1. Directed Graphical Models 3. Sparse Coding • 確率的解釈 – p(h)は事前分布にラプラス分布を仮定 – MAP推定によるWの推定 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse Codingという派生型がNIPS’11の転移学習のタスクで優勝 33
  29. 29. 6. PROBABILISTIC MODELS2. Undirected Graphical Models – Markov Random Fields(MRFs)とも呼ばれる – 教師無し特徴学習ではボルツマン分布を利用 した形式を用いることが多い – 変数間の相互作用はエネルギー関数として定 義 • U,V,W,b,dはモデルパラメータ 34
  30. 30. 6. PROBABILISTIC MODELS2. Undirected Graphical Models – 条件付き確率 – 事後分布の推定は周辺化で行う 35
  31. 31. 6. PROBABILISTIC MODELS2. Undirected Graphical Models 1. Restricted Boltzmann Machines • Eq.7でU,V=0とし,単純化したもの • 観測データと隠れ変数の2部グラフの形式様々な成果が報告されている(fMRI image classification, motion and spatial transformations, collaborative filtering, natural image modeling) 36
  32. 32. 6. PROBABILISTIC MODELS3. Generalizations of the RBM to Real- valued data – 画像データに対し、様々な拡張が提案 • Gaussian RBM, mean and covariance RBM, covariance RBM, spike-and-slab RBM 学習した特徴とトレーニングデータの画像が近い様子 37
  33. 33. 6. PROBABILISTIC MODELS4. RBM parameter estimation – Log likelihood – 勾配 positive phase negative phase – Positive phaseは簡単に計算可能だが、 negative phaseは難しい 38
  34. 34. 6. PROBABILISTIC MODELS4. RBM parameter estimation – パラメータの独立性を利用 – ギブスサンプリングで収束するまで実行(問題点) • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い(negative-phase のburn-inを対策したアルゴリズム)• Constrastive Divergence• Stochastic Maximum Likelihood• Fast-weight persistent contrastive divergence (FPCD) 39
  35. 35. 6. PROBABILISTIC MODELS4. RBM parameter estimation 1. Contrastive Divergence • Positive phaseを先に実行 • Gibbs sampling を数回実行するのみ 40
  36. 36. 6. PROBABILISTIC MODELS4. RBM parameter estimation 2. Stochastic Maximum Likelihood • Negative phaseは前のxの状態で更新 • Fast-weight persistent contrastive divergence (FPCD) – 勾配に比例して更新量を調整 41

×