Deep learning勉強会20121214ochi

28,088 views

Published on

Deep Learning 勉強会資料です。https://sites.google.com/site/deeplearning2013/

0 Comments
35 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
28,088
On SlideShare
0
From Embeds
0
Number of Embeds
13,045
Actions
Shares
0
Downloads
6
Comments
0
Likes
35
Embeds 0
No embeds

No notes for slide

Deep learning勉強会20121214ochi

  1. 1. Representation Learning:A Review and New Perspectives Yoshua Bengio, Aaron Courville, and Pascal VincentDepartment of computer science and operations research, U. Montreal 12/14 2012 D1 大知 正直 1
  2. 2. Abstract• 機械学習アルゴリズムの性能 – データ表現に依存 • データの背後にある真の説明因子が複雑で,隠 されてしまっている • ドメイン依存の知識や,一般的な前提知識を データ表現の設計に利用することができる • こうした前提知識をもっと強力に学習する表現 学習アルゴリズムがAI分野で求められている 7
  3. 3. Abstract• この論文の内容 – 教師なしの特徴学習,ディープラーニング の結合学習に関する最近の研究成果のレ ビュー – 確率モデル,オートエンコーダ,多様体学 習,ディープアーキテクチャをカバー 8
  4. 4. Abstract• この論文の内容 – 長期的な難問を提起するのが目的 • 良い表現を学習,推定するための適切な対象 • 表現学習,密度推定,多様体学習間の幾何学的 な接続 9
  5. 5. 1. INTRODUCTION• 機械学習アルゴリズムの性能 – データ(特徴)表現の選択に強く依存 • データの変換にすごく手間をかけている現状 • 特徴量のエンジニアリングも人間の創造性や前 提知識を利用してしまっている• AIは本質的に人間の身の回りの世界を理 解しなければならない – 低レベルの知覚可能なデータの根本にある 説明要因を分解し学習することができれば 可能 10
  6. 6. 1. INTRODUCTION• 本稿の内容 – 特徴学習(feature learning),表現学習 (representation learning) • 分類器や予測器の作成時に有用な情報の抽出が 簡単になるようなデータの変換を学習すること • ディープラーニングによる特徴学習に注目 – より抽象的な表現を作ることを目的とした複数回の非 線型データ変換 – 近年の発展途上の領域だが、特に最近の進展の内容を 強調 11
  7. 7. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?• 様々な分野での表現学習について言及1. Speech Recognition and Signal Processing(音声認識と信号処理) – MAVIS(Microsoft Research) が約30%のエ ラー率改善2. Object Recognition(物体認識) – MNIST(数字認識タスク)においてディープ ラーニングがSVMの1.4%のエラー率を 0.27%に改善 – ImageNet(自然画像のデータセット)認識タ スクで15.3%のエラー率へ改善 12
  8. 8. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?3. Natural Language Processing(自然言語 処理) – SENNAシステム・・・言語モデリングを行う タスク(品詞タグ付け,チャンキング,固有 名詞認識,意味役割ラベリング,構文解析) 向けのシステム – (Mikolov et al., 2011)は隠れ層を再帰的に追加 する手法で、平滑化n-gramをperplexity,品詞 認識のエラー率で上回る 13
  9. 9. 2. WHY SHOULD WE CARE ABOUT LEARNING REPRESENTATIONS?4. Multi-Task and Transfer Learning, Domain Adaptation(マルチタスク,転 移学習,ドメイン適応) 説明要因(赤い◯)を発見す る表現学習モデルのイメージ 図. タスク間での統計的強度の共 有が表現の一般性の獲得を可 能にする. ICML2011, NIPS2011の ワークショップで良い結果が 報告されている 14
  10. 10. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Smoothness(平滑性) • 3-2で議論– Multiple explanatory factors(複数の説明要 因) • 3-5で議論(3-3で議論する分散化した表現が前提 にある)– A hierarchical organization of explanatory factors(説明要因の階層化) • 抽象的な概念はより上の階層へ(3-4で議論する “deep representation”が利用される仮定) 15
  11. 11. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Semi-supervised learning(半教師あり学 習) • 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用. 教師あり,無し学習間の表現の共有を可能にする (4で議論)– Shared factors across tasks • 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる(2- 3で述べた) 16
  12. 12. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提– Manifolds(多様性) • 元のデータ空間より小さな次元数を持つ局所的な 領域にデータが集中している場合,オートエン コーダアルゴリズムや他の多様体学習のアルゴリ ズムが利用される(7-2,8で議論)– Natural clustering • 多様体上での局所的な分布がそのままクラスタに なっている状態(人間が考える固有のカテゴリ, クラスといった概念と一致)8-3 Manifold Tangent Classifierで議論 17
  13. 13. 3. WHAT MAKES A REPRESENTATION GOOD?1. 人工知能による表現学習の前提 – Temporal and spatial coherence • 時間,空間的に近くな状態からの観測は似たよう な結果をもたらしやすい(11-3で議論) – Sparsity • 観測データ𝑥で実際に関係のある要因がほんのわ ずかであること(6-1-3, 7-2で議論)これらの前提は学習器がデータの根底にある説明要因を学習,分解する手法として,頻繁に見られる 18
  14. 14. 3. WHAT MAKES A REPRESENTATION GOOD?2. 平滑性と次元の呪い カーネル関数を用いて,局所 的で平滑な線形モデルを構築 することで解決 こうしたカーネルそのものの発見も表現学習に含まれると考える 19
  15. 15. 3. WHAT MAKES A REPRESENTATION GOOD?3. 分散化した表現 – 良い表現 • 表現力豊かであること – 入力領域を識別するのに十分な数のパラメータを持っ ているか » GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の 入力領域の識別に𝑂(𝑁)個のパラメータが必要 » RBMs(Restricted Boltzmann Machines), スパース コーディング, オートエンコーダ,多層ニューラル ネットワーク は 𝑂(2 𝑘 )個までの入力領域の識別に ただ𝑂(𝑁)個のパラメータがあればよい。(kは0で ない要素の数) 良い表現=分散化した表現(distributed representation) 20
  16. 16. 3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 特徴の再利用 計算的,統計的な効率性を持つ ディープラーニングの背後にある利点 21
  17. 17. 3. WHAT MAKES A REPRESENTATION GOOD?4. Depth and abstraction(深さと抽象性) – 抽象性と不変性 • ディープアーキテクチャは抽象性の低いもの同士 の関係性からより抽象性の高いものを構築する • 抽象性の高い表現は一般的には極めて局所的な変 化に対して不変 • 分類という概念に一致 不変的な特徴の学習はパターン認識の大きな目標の一つ 22
  18. 18. 3. WHAT MAKES A REPRESENTATION GOOD?5. Disentangling Factors of Variation(変化 の要因の分解) – 特徴学習へのアプローチ • 可能な限りたくさんの要因に分解すること • ほとんど実用上意味の無いデータを捨てること 特徴学習の基準 23
  19. 19. 4. BUILDING DEEP REPRESENTATIONS• 特徴学習,ディープラーニングの出現 – 2006~ – 階層別に教師なし学習を行うというアイデ ア• ディープアーキテクチャに基づく特徴学 習 – より良い表現抽出をスタックする手法 • 分類エラーの減少を目指すもの • 確率モデルによって生成されたサンプルの質を 見るもの • 学習した特徴の不変特性見るもの 24
  20. 20. 4. BUILDING DEEP REPRESENTATIONS• Deep Belief Network – Stack pre-trained RBMsその他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数 を利用する研究が報告されている 25
  21. 21. 5. SINGLE-LAYER LEARNING MODULES• 表現学習への2つのアプローチ – 確率的グラフィカルモデルに基づくもの(§6) • 隠れ変数を持つ – RBM(Restricted Boltzmann Machine) – ニューラルネットワークに基づくもの(§7) • 階層構造を持つ – Auto-encoder どちらもグラフ構造を持ち,本質的な差は無い → §6,7で一層で訓練する特徴学習の手法について解説 26
  22. 22. 5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分 分析) – 最古の特徴抽出アルゴリズム • 確率モデルと非常に関係がある – 固有値分解 • 出力が基本的なauto-encoderと同じ – ああああ • 多様体学習の単純な形式ととらえることが可能 27
  23. 23. 5. SINGLE-LAYER LEARNING MODULES• Principal Components Analysis(主成分 分析) PCAは表現学習の基本的な特徴を全て備えている 28
  24. 24. 6. PROBABILISTIC MODELS• 確率モデルからみた特徴学習 – 観測データ上の分布を表現する潜在変数の復 元 – 潜在変数ℎ, 観測データ𝑥において,確率モデ ル 𝑝(ℎ, 𝑥) を定義 – 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後 確率 – 尤度最大化などのモデルパラメータ推定によ る学習有向(Directed),無向(Undirected)のグラフィカルモデルそれぞれの特徴学習 の研究が存在 29
  25. 25. 6. PROBABILISTIC MODELS1. Directed Graphical Models – 原因 ℎ と結果 𝑥 が対応するモデル • 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度 – 原因と結果に1対1の対応がある • 𝑝 𝑥 ℎ の分布が集中している PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse coding model 等が挙げられる 30
  26. 26. 6. PROBABILISTIC MODELS1. Directed Graphical Models 2. Probabilistic Interpretation of PCA • 主成分分析の確率的解釈 31
  27. 27. 6. PROBABILISTIC MODELS1. Directed Graphical Models 3. Sparse Coding • たくさんいるニューロンのうち、ホンの一部の ニューロンだけが活動して、情報の重複をでき るだけ抑えて情報を表現する方法 • 非確率的な視点 – ああああ – Xごとに活動するhを決定づける辞書Wを学習 – ああああ – Jscが最小になるように訓練データを学習 – WhはL1正則化項として機能 32
  28. 28. 6. PROBABILISTIC MODELS1. Directed Graphical Models 3. Sparse Coding • 確率的解釈 – p(h)は事前分布にラプラス分布を仮定 – MAP推定によるWの推定 CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse Codingという派生型がNIPS’11の転移学習のタスクで優勝 33
  29. 29. 6. PROBABILISTIC MODELS2. Undirected Graphical Models – Markov Random Fields(MRFs)とも呼ばれる – 教師無し特徴学習ではボルツマン分布を利用 した形式を用いることが多い – 変数間の相互作用はエネルギー関数として定 義 • U,V,W,b,dはモデルパラメータ 34
  30. 30. 6. PROBABILISTIC MODELS2. Undirected Graphical Models – 条件付き確率 – 事後分布の推定は周辺化で行う 35
  31. 31. 6. PROBABILISTIC MODELS2. Undirected Graphical Models 1. Restricted Boltzmann Machines • Eq.7でU,V=0とし,単純化したもの • 観測データと隠れ変数の2部グラフの形式様々な成果が報告されている(fMRI image classification, motion and spatial transformations, collaborative filtering, natural image modeling) 36
  32. 32. 6. PROBABILISTIC MODELS3. Generalizations of the RBM to Real- valued data – 画像データに対し、様々な拡張が提案 • Gaussian RBM, mean and covariance RBM, covariance RBM, spike-and-slab RBM 学習した特徴とトレーニングデータの画像が近い様子 37
  33. 33. 6. PROBABILISTIC MODELS4. RBM parameter estimation – Log likelihood – 勾配 positive phase negative phase – Positive phaseは簡単に計算可能だが、 negative phaseは難しい 38
  34. 34. 6. PROBABILISTIC MODELS4. RBM parameter estimation – パラメータの独立性を利用 – ギブスサンプリングで収束するまで実行(問題点) • Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる • Negative-phaseの収束→勾配の計算 の繰り返しで計算量が多い(negative-phase のburn-inを対策したアルゴリズム)• Constrastive Divergence• Stochastic Maximum Likelihood• Fast-weight persistent contrastive divergence (FPCD) 39
  35. 35. 6. PROBABILISTIC MODELS4. RBM parameter estimation 1. Contrastive Divergence • Positive phaseを先に実行 • Gibbs sampling を数回実行するのみ 40
  36. 36. 6. PROBABILISTIC MODELS4. RBM parameter estimation 2. Stochastic Maximum Likelihood • Negative phaseは前のxの状態で更新 • Fast-weight persistent contrastive divergence (FPCD) – 勾配に比例して更新量を調整 41

×