Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

19,123 views

Published on

http://www.db-tech-showcase.com/dbts/analytics での講演スライドです

Published in: Technology
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Download this 3-step guide to creating an avalanche of leads for your business through LinkedIn, without using outdated or spammy online marketing tricks: http://bit.ly/linkedin3stepguide
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

  1. 1. ベイズ統計の数理と深層学習 株式会社Gunosy 米田 武 (@MATHETAKE) 2017.07.01
  2. 2. 2©Gunosy Inc. 自己紹介 ● 米田 武 ( マスタケ ) ● Twitter : @MATHETAKE ○ Twitter就活してました ● Blog : Obey Your MATHEMATICS. ● 学位:修士(純粋数学) - 2017年卒 ○ 微分幾何学, 複素幾何学, シンプレクティック幾何学 ● 所属 ○ 株式会社Gunosy  開発本部 データ分析部 ロジック/研究開発 ■ 推薦アルゴリズムの実験 / 精度検証 / バックエンドの実装 ■ 釣り記事対策 & 記事の品質モデリング などなど ● 基本的に自然言語処理 ● 最近の興味/研究対象 ○ 自然言語処理  ∩ 推薦システム ○ 確率モデリング ∩ 深層学習  
  3. 3. 3©Gunosy Inc. 今日の目標 「ベイズ統計の基礎〜推定手法〜深層学習とベイズの融合まで理解する」 1. ベイズ統計の理論的お気持ちを理解する 2. ニューラルネットワークの複雑性を味わう 3. MCMCの基礎とアルゴリズムのお気持ちを理解する 4. ベイジアンニューラルネットワークとEdwardのお気持ちを理解する
  4. 4. 4©Gunosy Inc. 今日の目標 「ベイズ統計の基礎〜推定手法〜深層学習とベイズの融合まで理解する」 1. ベイズ統計の理論的お気持ちを理解する 2. ニューラルネットワークの複雑性を味わう 3. MCMCの基礎とアルゴリズムのお気持ちを理解する 4. ベイジアンニューラルネットワークとEdwardのお気持ちを理解する 注意 ※ “Gunosyにおける機械学習” 的な話ではありません ※ 特定のモデルやアーキテクチャに関する話はしません ※ 直接には役に立たないであろう話が多いです ※ ベイズと最尤どっちが良いとかそういう宗教戦争はやめましょう ※ 難しいです
  5. 5. 5©Gunosy Inc. もくじ 1. ベイズ統計の数理 1.1. ベイズ統計のキホンのキ 1.2. 汎化誤差と経験誤差 1.3. ベイズの状態方程式とWAIC 1.4. 正則モデルと特異モデル 2. DeepLearningの数理 2.1. 対称性と階層構造 2.2. 確率分布の空間と特異点 3. ビッグデータ時代のMCMC 3.1. MCMCのキホンのキ 3.2. Metropolis-Hastings法とLangevin Dynamics 3.3. Stochatic Gradient Langevin Dynamic 3.4. 確率微分方程式とMCMC(おまけ) 4. Bayesian Neural NetworkとEdward
  6. 6. 6©Gunosy Inc. 1.ベイズ統計の数理
  7. 7. 7©Gunosy Inc. 1.1 ベイズ統計のキホンのキ ● n個のサンプル ● モチベーション : q(x)をモデリングしたい(真の分布を知りたい) ○ 統計モデルと事前分布を用意 ● 事後分布 (β >0) ● 分配関数(周辺尤度)
  8. 8. 8©Gunosy Inc. 1.1 ベイズ統計のキホンのキ ● 予測分布 ● ベイズ推論 = 真の分布はだいたい p* ぐらいと推論すること ➔ この推論の正しさを定量的に評価できないか? ➔ サンプルを無限に取り続けていった時にどの程度qに近づくか?
  9. 9. 9©Gunosy Inc. 1.2 汎化誤差と経験誤差 ● 汎化誤差 ● ■ S:真の分布のエントロピー ■ K:KLダイバージェンス ■ 汎化誤差が小さいほど予測分布は真の分布に”近い” ➔ 汎化誤差が計算できれば、モデルがどのくらい優れているか定量的に分かる
  10. 10. 10©Gunosy Inc. 1.2 汎化誤差と経験誤差 ● がしかし汎化誤差は計算不可能 ( ∵真の分布が未知) ➔ 計算可能な量で近似したい ➔ 経験誤差 で近似したい ● 経験誤差と汎化誤差はどの程度違う?一般的な関係式はある? ➔ ベイズの状態方程式
  11. 11. 11©Gunosy Inc. 1.3 ベイズの状態方程式をWAIC ● 汎関数分散 ● ベイズの状態方程式 ⇒ 汎化誤差と経験誤差に関する一般的な性質 ● WAIC (Widely Applicable Information Criteria)
  12. 12. 12©Gunosy Inc. 1.3 ベイズの状態方程式をWAIC なぜ “Wiedly Applicable” か? なにに対して “Wiedly Applicable” なのか?
  13. 13. 13©Gunosy Inc. 1.3 ベイズの状態方程式をWAIC なぜ “Wiedly Applicable” か? なにに対して “Wiedly Applicable” なのか? ↓ 正則モデルと特異モデルの違い
  14. 14. 14©Gunosy Inc. 1.4 正則モデルと特異モデル ● 平均対数損失  ➔ パラメータ毎の真の分布との “距離” ➔ これを最小にするパラメータ集合を W_0 ⊂ W とする ● 対数尤度比関数 ● 経験誤差関数 ● 経験誤差関数のゼロ点は重要 ∵ K(w) = 0 ⇔ w = w_0 が成立する
  15. 15. 15©Gunosy Inc. 1.4 正則モデルと特異モデル ● 古典的な統計学での仮定その1 K(w) = 0 となる wは一意に定まる パラメータと確率分布は一対一に対応する(identifiability) ● Fisher情報計量 ● 古典的な統計学での仮定その2 フィッシャー情報計量はかならず正則行列 このような統計モデルを正則モデルという
  16. 16. 16©Gunosy Inc. 1.4 正則モデルと特異モデル ● よく知られた情報量規準AICやBICの導出は正則性を仮定 ● 一方今流行の統計モデルは特異点だらけ ○ ex) ニューラルネットワーク ⇒ 後で証明 ● WAIC は特異モデルに対しても成立する一般論により導出 ○ 代数幾何・代数解析・多変数函数論・特異点論・超関数論・確率過程など非 常に高度な数学が用いられる (測度論が〜レベルではない) ref. 1. ベイズ統計の理論と方法 - 渡辺澄夫 2. Algebraic Geometry and Statistical Learning Theory - 渡辺澄夫 3. ベイズ統計の数理について−WAICとその数学− - 私のブログエントリ 4. Notes for a graduate-level course in asymptotics for statisticians
  17. 17. 17©Gunosy Inc. 2. ディープラーニングの数理
  18. 18. 18©Gunosy Inc. 2.1 対称性や階層構造 ● ガウシアンノイズを加えた3層NN ● ニューロンの置換によって与えられる確率分布は等しい ○ ex.) w_1 ⇔ w_2, v_1 ⇔ v_2 の変換で出力関数fは変化しない ➔ 統計モデルとしてidentifiabilityを満たさない ニューラルネットワークの対称性(3層の場合に限らない)
  19. 19. 19©Gunosy Inc. 2.1 対称性や階層構造 ● v_1 = 0 の場合を考えてみる ● この場合、2つの素子を持つニューラルネットが1つの素子を持つニューラル ネットにより表現されてしまっている ● この時、w_1の値に依らず出力関数は等しい ➔ 統計モデルとしてidentifiabilityを満たさない ニューラルネットワークの階層構造
  20. 20. 20©Gunosy Inc. 2.2 確率分布の空間と特異点 対称性や階層構造のなにが問題なのか? ● NNが表現する確率分布の空間(⊂確率分布全体)を見てみる                       ● 対称性と階層構造によりこの写像は一対一ではない。即ち が成立しない。                ➔ identifiabilityを満たさない ➔ 学習が行われる空間が極めて複雑になっている(多様体にならない)
  21. 21. 21©Gunosy Inc. 2.2 確率分布の空間と特異点 NNのidentifiabilityに関する重要な結果 フィールズメダリストである数学者Fefferman*が20代の頃に NNのidentifiabilityに関する結果を得ている *Charles Louis Fefferman, 1949年4月18日 - 20歳で数学のPh.Dを取得, 22歳でシカゴ大学教授 https://en.wikipedia.org/wiki/Charles_Fefferman Theorem[Fefferman ‘93] ある弱い条件下で、ニューラルネットワークの(重みだけで なく層の数も含めた)構造はニューロン置換の対称性を除 き一意に決まる
  22. 22. 22©Gunosy Inc. 2.2 確率分布の空間と特異点 対称性や階層構造のなにが問題なのか? ● 階層構造によりフィッシャー情報計量の特異点が発生 ● 先の例でv_1=0の時、出力関数はw_1に依存しないので微分が消える ➔ 出力関数の線形独立ではない Lemma[Fukumizu ‘96] NNが定める確率分布のFisher情報計量が非特異である事と NNの出力関数f(x, w) の微分が実数体上で線形独立であることは同値 Theorem[Fukumizu ‘96] 3層ニューラルネットワークのFisher情報計量の特異点は全て階層構造により引 き起こされる
  23. 23. 23©Gunosy Inc. 2.2 確率分布の空間と特異点 ● 一般のNNに対しても階層構造により特異点が発生するのは簡単に分かる ➔ 逆に全ての特異点は階層構造により特異点は引き起こされるのか? ● 一般のdeepなニューラルネットワークに関しては未解決 ○ 出力にノイズを加えただけで難解.... ● 階層構造は損失関数のランドスケープにも関係がある ref) Dynamics of learning near singularities in layered networks ref) Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks
  24. 24. 24©Gunosy Inc. 3. ビッグデータ時代のMCMC
  25. 25. 25©Gunosy Inc. 3.1 MCMCのキホンのキ ● MCMC = Markov Chain Monte Carlo ● 一般の確率分布からサンプリングするためのアルゴリズム群 ○ 理論的には目的の分布を不変分布とする、エルゴード性を満たすマルコフ 過程(確率変数の列)を構成 ➔ 極限分布が目的の分布に収束 ○ 理論的に構成される確率変数列からサンプリングするアルゴリズム ● 正規化定数が分からない分布からサンプリング出来る ex.) 事後分布 ⇒ サンプルの平均を取ることで予測分布を近似 ??
  26. 26. 26©Gunosy Inc. 3.1 MCMCのキホンのキ ● 離散値確率変数列       
  27. 27. 27©Gunosy Inc. 3.1 MCMCのキホンのキ ● 斉時的離散値マルコフ連鎖        ⇓ MCMCの目標は遷移行列 T を上手く設計し 目的の分布に収束するような斉時的なマルコフ連鎖を構成する事
  28. 28. 28©Gunosy Inc. 3.1 MCMCのキホンのキ ● サンプリングしたい離散値確率分布        
  29. 29. 29©Gunosy Inc. 3.1 MCMCのキホンのキ          *4 これらの条件の事をエルゴード性と呼びます。
  30. 30. 30©Gunosy Inc. 3.1 MCMCのキホンのキ 連続値の場合 ● 推移核 ● πを不変分布に持つ⇔
  31. 31. 31©Gunosy Inc. 3.2 Metropolis-Hastings法とLangevin Dynamics Metropolis-Hastings法・・・最も基本的なMCMCアルゴリズム ● 提案分布: ● 採択確率: ● 推移核: ➔ この推移核によって与えられるマルコフ連鎖からサンプリングするMCMCを Metropolis-Hastings法と呼ぶ 正規化定数が不明でも問題なし
  32. 32. 32©Gunosy Inc. 3.2 Metropolis-Hastings法とLangevin Dynamics
  33. 33. 33©Gunosy Inc. 3.2 Metropolis-Hastings法とLangevin Dynamics ● M-H法の例 : Langevin Dynamics ● 対数尤度の勾配*の計算を使う事で収束が速い ● ガウシアンノイズ入りの勾配法と解釈できる(練習問題) ● Stanで有名になったHamiltonian Monte Carlo法の特別なケース ➔ [1206.1901] MCMC using Hamiltonian dynamics * 正規化定数が不明でもOK
  34. 34. 34©Gunosy Inc. 3.2 Metropolis-Hastings法とLangevin Dynamics ● M-H法の例 : Langevin Dynamics ● 対数尤度の勾配*の計算を使う事で収束が速い ● ガウシアンノイズ入りの勾配法と解釈できる(練習問題) ● Stanで有名になったHamiltonian Monte Carlo法の特別なケース ➔ [1206.1901] MCMC using Hamiltonian dynamics 計算量大 ⇒ 確率勾配を用いたい * 正規化定数が不明でもOK
  35. 35. 35©Gunosy Inc. 3.3 Stochastic Gradient Langevin Dynamics ● Stochastic Gradient Langevin Dynamics ➔ LD法の勾配を確率勾配にしてサンプリングしていく ➔ その上でM-Hステップを排除する ● 確率勾配によりもはや斉時的なマルコフ連鎖ではない ➔ 事後分布に収束するのか?
  36. 36. 36©Gunosy Inc. 3.3 Stochastic Gradient Langevin Dynamics ● 事後分布に収束するか? ➔ 弱収束はする [Sato+ 2014] ➔ サンプルパスのレベルでは収束しないが、平均的には収束する ➔ 予測分布の近似には弱収束で十分 ● どう証明するのか? ➔ 確率微分方程式を解析 ◆ 伊藤の公式 ◆ Fokker-Plank方程式(密度関数の時間発展) ● SGLDにかぎらずStochastic Gradient Hamiltonian Monte Carloなども同様に 確率微分方程式を通して解析されている 伊藤 清(いとう きよし、1915年9月7日 - 2008年11月10日) https://ja.wikipedia.org/wiki/%E4%BC%8A%E8%97%A4%E6%B8%85
  37. 37. 37©Gunosy Inc. 3.4 確率微分方程式とMCMC(おまけ) ● 確率微分方程式(SDE) … 確率的なダイナミクスを記述する微分方程式 ● 拡散過程 ● サンプリング = SDEのシミュレーション ● すべてのMCMCは確率微分方程式で記述できる [Ma+ 2015] ➔ Stochastic Gradient Nose-Hoover thermostat [Ding+ 2014] ➔ Stochastic Gradient Hamiltonian Monte Carlo[Chen+ 2014] ● 近似誤差の解析 [Chen+ 2015] ←ブラウン運動 ↑対数尤度勾配
  38. 38. 38©Gunosy Inc. 4. Baysian Neural NetworkとEdward
  39. 39. 39©Gunosy Inc. 4. Bayesian Neural Network とEdward ● Bayesian Neural Network … NNをベイズ的に扱うモデル ○ 歴史長い since then [Neal 1995] ← 引用2000+ ● 去年のNIPSからワークショップが開催されるほどのトピック ○ 推定アルゴリズムの発展が要因?
  40. 40. 40©Gunosy Inc. 4. Bayesian Neural Network とEdward ● Bayesian Neural Network … NNをベイズ的に扱うモデル ○ 歴史長い since then [Neal 1995] ← 引用2000+ ● Yarin Gal(Cambridge)さんのComprehensiveなサーベイ(博士論文) ➔ http://mlg.eng.cam.ac.uk/yarin/blog_2248.html ※http://mlg.eng.cam.ac.uk/yarin/index.html
  41. 41. 41©Gunosy Inc. Why “Bayes” + “DEEP” ? ● 勾配法による点推定(最尤推定)はツライ ○ 局所解に捕まってしまう ○ 得られた推定結果どのぐらい信用してよいのか分からない ■ “不確実性” を上手く扱いたい ● 基本的に現時点までで実用化されている深層学習の手法は点推定 ○ 例外:Dropoutはベイズ的解釈が可能 [Yarin+ 2016] ● 一方でMCMCは “Global” は推定 ● 深層学習のUniversalityとベイジアンモデリングのFlexibilityを組み合 わせたい 4. Bayesian Neural Network とEdward
  42. 42. 42©Gunosy Inc. Why “Bayes” + “DEEP” ? 4. Bayesian Neural Network とEdward http://bayesiandeeplearning.org/より
  43. 43. 43©Gunosy Inc. Why “Bayes” + “DEEP” ? 深層学習とは独立に開発される手法で精度UP 今までと違う視点で深層学習が発展する期待 4. Bayesian Neural Network とEdward Uncertainity in Deep Learning, p77より
  44. 44. 44©Gunosy Inc. 4. Bayesian Neural Network とEdward 超基本モデル ● ニューラルネットのパラメータに事前分布を定義し推定 ➔ パラメータ数は数千数億 & データ数も膨大 ➔ 従来のMCMC手法では推定不可能 ◆ Stochastic Gradient MCMC ← 今日の話 ◆ Stochastic Gradient Variational Inference ● 簡単にBNNを構築&スケーラブルに推定できるライブラリ ➔ PyMC3 … Theanoベース & SGMCMC実装なし(現時点) ➔ Edward … Tensorflowベース & SGMCMC実装あり
  45. 45. 45©Gunosy Inc. 4. Bayesian Neural Network とEdward Edward (http://edwardlib.org/) ● 2016年3月に公開されたばかりの新しいPPL (確率的プログラミング言語)) ● Dustin Tran(Columbia University ⇒ Open AI)氏が開発リード ● Blei研を中心に開発 Google Cloud Next'17 Tokyoでの柏野さん(@yutakashino)の発表スライドがかなり良さげだったのでオススメです ⇒ https://www.slideshare.net/yutakashino/edward-76955025
  46. 46. 46©Gunosy Inc. Why Edward? ● GPUサポートが充実 (∵ Tensorflowベース) ● Blei研 & Google Brain & Google Researchによるサポート* ● 明快なworkflow: 4. Bayesian Neural Network とEdward * http://edwardlib.org/より
  47. 47. 47©Gunosy Inc. Why Edward? 4. Bayesian Neural Network とEdward http://dustintran.com/papers/TranHoffmanMurphyBrevdoSaurousBlei2017_poster.pdfより
  48. 48. 48©Gunosy Inc. Example 1. Bayesian Neural Network Regression ● モデル ● 事前分布 4. Bayesian Neural Network とEdward http://edwardlib.org/tutorials/bayesian-neural-networkより
  49. 49. 49©Gunosy Inc. Example 2. Bayesian Recurrent Neural Network 4. Bayesian Neural Network とEdward http://dustintran.com/#publicationsより
  50. 50. 50©Gunosy Inc. Example 3. 深層ベータ分布モデル ● 先週末個人ブログで紹介したモデル ● 特徴量に対して[0,1]区間上の連続値が与 えられているような問題設定を考える ○ 例えばユーザーによるレーティング予 測、CTR予測などなど ● ベータ分布のパラメータがニューラルネット により出力され、最終的なスコアがそのパラ メータの定めるベータ分布からサンプリング されているようなモデル http://mathetake.hatenablog.com/entry/2017/06/24/141938 4. Bayesian Neural Network とEdward
  51. 51. 51©Gunosy Inc. Example 3. 深層ベータ分布モデル 4. Bayesian Neural Network とEdward
  52. 52. 52©Gunosy Inc. Example 3. 深層ベータ分布モデル 4. Bayesian Neural Network とEdward SGMCMCのIteration毎にデータを食わせるための tf.placeholder ニューラルネットの出力をベータ分布に入れる
  53. 53. 53©Gunosy Inc. Example 3. 深層ベータ分布モデル 4. Bayesian Neural Network とEdward
  54. 54. 54©Gunosy Inc. 今日のまとめ 1. ベイズ統計の理論(特異学習理論)は難しいが美しい a. 汎化誤差はある意味で近似計算可能 2. 統計モデルとしてのニューラルネットワークは難しい&未解決問題だらけ a. 対称構造・階層構造による特異点 3. ベイズ統計の基本的な推定アルゴリズムであるMCMCの数学的基礎 a. MCMCは確率変数列からのサンプリング 4. ビックデータ時代のMCMC:Stochastic Gradient MCMC a. ビッグデータにスケールするMCMC 5. ベイジアンモデリング ∩ 深層学習 の時代が来ている a. Tensorflow User GroupのコアメンバーでEdward分科会発足の話が上がりました 6. Edwardを用いる事でフレキシブルかつ簡単にベイジアンなニューラルネット ワークでモデリング出来る
  55. 55. 55©Gunosy Inc. 宣伝 ● 「Gunosy データ分析ブログ」http://data.gunosy.io/ ➔ データ分析部のテックブログ ● 「Gunosy データマイニング研究会」https://gunosy-dm.connpass.com/ ➔ 隔週開催で輪読 + 論文紹介する会 @弊社オフィス (六本木ヒルズ森タワー 25F) ● 来月発売のソフトウェアデザイン8月号に「機械学習エンジニアになるには」的な記事を寄稿 しているのでもしよろしければ
  56. 56. 56©Gunosy Inc. References 1. ベイズ統計の理論と方法 2. Algebraic Geometry and Statistical Learning Theory 3. ベイズ統計の数理について −WAICとその数学− 4. Notes for a graduate-level course in asymptotics for statisticians 5. Fukumizu K.,A regularity condition of the information matrix of a multilayer perceptron network. Neural Networks, 9(5), 871-879, 1996 6. Fefferman, C. Reconstructing a neural net from its output. Revista MathematicaI beroamerica, 10(3), 507–555, 1994 7. A. M. Chen H.Lu, R.Hecht-Nielsen. On the geometry of feedforward neural network error surfaces. Neural Computation5:910-927, 1993 8. Nitta T., Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks, 2016 9. S. Amari, H.Park and T. Ozeki, Singularities Affect Dynamics of Learning in Neuromanifolds, Neural Computation, 18, 1007-1065, 2006. 10. NEAL, Radford M., et al. MCMC using Hamiltonian dynamics. Handbook of Markov Chain Monte Carlo, 2011. 11. Welling, Max, and Yee W. Teh. "Bayesian learning via stochastic gradient Langevin dynamics." Proceedings of the 28th International Conference on Machine Learning (ICML-11). 2011. 12. SATO, Issei; NAKAGAWA, Hiroshi. Approximation analysis of stochastic gradient langevin dynamics by using fokker-planck equation and ito process. In: Proceedings of the 31st International Conference on Machine Learning (ICML-14). 2014. p. 982-990. 13. Gal, Yarin, and Zoubin Ghahramani. "Dropout as a Bayesian approximation: Representing model uncertainty in deep learning." international conference on machine learning. 2016. 14. Tran, Dustin, et al. "Deep probabilistic programming." arXiv preprint arXiv:1701.03757 (2017). 15. Uncertainty in Deep Learning 16. 【Edward】MCMCの数学的基礎から Stochastic Gradient Langevin Dynamicsの実装まで
  57. 57. 57©Gunosy Inc. ご清聴ありがとうございました

×