Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

8,347 views

Published on

  • Be the first to comment

Bayesian Nonparametrics入門-点過程と統計的機械学習の接点-

  1. 1. Bayesian Nonparametrics入門 -点過程と統計的機械学習の接点- 東京大学 情報基盤センター 中川研究室 助教 佐藤一誠
  2. 2. -点過程と機械学習の接点- • 点過程の考え方 • 統計的機械学習における点過程 2
  3. 3. 点過程の例:カウント過程 3 目的:時間や空間などに点在している点に関 して点カウントの統計的性質を考えたい ※点の全個数は仮定しない 例えば、ある期間における来客数を考える場合、全来客数は 予めわからない A N(A)=2 B X N(B)=4 N(A)をA(⊂X)内での点の個数とする 個々の点ではなく Nに関して何らかの統計モデル を考える ポイント
  4. 4. Poisson過程 4 N(A)~Poisson(α0H (A)) λ=α0H: X → R+ α0:非負スカラー値 H:基底(確率)測度 Intensive functionとも呼ばれる 任意のA(⊂X)に関して、N(A)が λ(A) A N(A)=2 B X N(B)=4 λ=α0H  A dxxA )()( 
  5. 5. 点過程の考え方 5 A1 A2 A3 N(A1)=4 N(A2)=3 N(A3)=2 • 点の全個数は仮定しないので点個別ではなく 集合に関して統計モデルを考える • 点●と棒/に関して統計モデルを考える カウント過程     1 )(1)( i i AxAN  長さ1の棒 この表現に慣れることが最重要!
  6. 6. 6     1 )(1)( i i AxAN  ix 1 A Poisson過程: α0H: X → R+ α0:非負スカラー値 H:基底(確率)測度 任意のA(⊂X)に関して、N(A)が N(A)~Poison(α0H (A)) 棒の従うルール (合計は整数値) 点の従うルール )(~ xHxi
  7. 7. 7 G(A)~Gamma (α0H (A),1).     1 )()( i ii AxwAG  棒の長さを1以外の場合を考えたい ix iw A ガンマ過程: α0H: X → R+ α0:非負スカラー値 H:基底(確率)測度 任意のA(⊂X)に関して、G(A)が 棒の従うルール (非負の実数) 点の従うルール )(~ xHxi
  8. 8. 8 棒の長さを1以外の場合を考えたい B(A)~Beta (α0H (A), α0(1-H (A)).     1 )()( i ii AxwAB  ix ]1,0[iw A ベータ過程: 任意のA(⊂X)に関して、G(A)が α0H: X → R+ α0:非負スカラー値 H:基底(確率)測度 棒の従うルール ([0,1]の間の値) 点の従うルール )(~ xHxi
  9. 9. 点過程のまとめ 9 加算無限個の点●とその重みである棒/ に関して統計モデルを仮定したもの ⇒集合(空間)に関する重み付きカウント の統計モデル • 点が従うルール→基底測度α0H • 棒が従うルール→ XX過程のXX によって様々なモデルがある     1 )()( i ii AxwAG  点棒
  10. 10. 10 Dirichlet 過程 Xの任意の分割A1,...Amに対して [Ferguson,1973] ))(,),(( 1 mAGAG  ))(,),((~ 1 mAHAHDir   𝐺 G 𝐴 = 𝑤𝑖 𝛿 ∞ 𝑖=1 𝑥𝑖 ∈ 𝐴 𝑤𝑖 ∞ 𝑖=1 =1 A1 A2 A3 A4 棒の従うルール (全棒の合計が1)
  11. 11. Dirichlet Process (DP)の直感的な理解 「確率分布→無限次元で離散化」 α→大 α→小 𝐻:基底確率分布 𝐺~𝐷𝑃(𝛼, 𝐻) 𝐺 𝐺 ※𝛼 → ∞で𝐺 𝑑 → 𝐻 何を? どのくらい? αくらい 11 Hを
  12. 12. -点過程と機械学習の接点- • 点過程の考え方 • 統計的機械学習における点過程 12
  13. 13. 確率的潜在変数モデル 1 2 3 𝜃3 𝜃1 𝜃2 𝑥𝑖 𝑧𝑖 𝜃 𝜑 𝑘 𝛽𝛼 𝐾 𝑛 13 潜在変数空間 Z 𝑝(𝑥|𝜑1) 𝑝(𝑥|𝜑2)𝑝(𝑥|𝜑3) 𝑋 データの空間 ※本スライドでは、 • 混合比を𝜃で表現 • パラメータを𝜑で表現 ベクトルの場合や平均と分散のように 複数の統計量を表すこともある
  14. 14. 確率的潜在変数モデル 1 2 3 𝜃3 𝜃1 𝜃2 𝑥1 𝑧1 = 3 𝑧2 = 1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1) 𝑥𝑖~𝑝(𝑥|𝜑 𝑧 𝑖 ) 𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃) 𝜃~𝐷𝑖𝑟(𝜃|𝛼) 𝜑 𝑘~𝐻(𝜑|𝛽) 14 𝑥2 𝑥4 ~𝑝(𝑥|𝜑2)𝑥3 潜在変数空間 Z 𝑧3 = 1 𝑧4 = 2 𝑥𝑖 𝑧𝑖 𝜃 𝜑 𝑘 𝛽𝛼 𝐾 𝑛
  15. 15. パラメータ空間で考えると 𝜃3 𝜃1 𝜑1𝜑3 𝜃2 𝜑2 Φ 混合分布はパラメータ空間における 点と棒の統計モデル 15 パラメータ空間 G 𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1) 𝑥2 𝑥4 ~𝑝(𝑥|𝜑2)𝑥3 𝜑3 𝜑1 𝜑1 𝜑2
  16. 16. 𝜃3 𝜃1 𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1) G ∙ = 𝜃 𝑘 𝛿 𝜑 𝑘 𝐾(=3) 𝑘=1 ∙ e.g., G 𝜑2 = 𝜃 𝑘 𝛿 𝜑 𝑘 𝐾(=3) 𝑘=1 𝜑2 =𝜃2 𝜑1𝜑3 𝜃2 𝜑2 𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺 𝑥3 混合比𝜃 𝑘はパラメータ𝜑 𝑘の出現確率 →Φ上の離散分布Gは以下のように書ける 𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2) 16 Φ パラメータ空間 G パラメータ空間で考えると
  17. 17. 𝜃3 𝜃1 𝑥1 𝑥2 ~𝑝(𝑥|𝜑3) ~𝑝(𝑥|𝜑1) G ∙ = 𝜃 𝑘 𝛿 𝜑 𝑘 𝐾→∞ 𝑘=1 ∙ 𝜑1𝜑3 𝜃2 𝜑2 𝜑3~𝐺 𝜑1~𝐺 𝜑1~𝐺 𝑥3 混合比𝜃 𝑘はパラメータ𝜑 𝑘の出現確率 → Φ上の離散分布(混合分布)Gは以下のように書ける 𝜑2~𝐺 𝑥4 ~𝑝(𝑥|𝜑2) 17 点過程 としてみれば 無限点を扱える Φ パラメータ空間 G パラメータ空間で考えると
  18. 18. 18 G ∙ = 𝜃 𝑘 𝛿 𝜑 𝑘 𝐾 𝑘=1 ∙ 有 限 モ デ ル 点の数を予め固定 ⇒有限次元の確率分布でモデル化 G ∙ = 𝜃 𝑘 𝛿 𝜑 𝑘 ∞ 𝑘=1 ∙ 無 限 モ デ ル 点の数は予めわからない ⇒点過程としてモデル化
  19. 19. 応用例は多数 • クラスタリング – クラス数がData dependent • Entity disambiguation – Entity数は予めわからない • Word sense disambiguation – word sense数は単語ごとに異なる • 画像の領域分割 • 動画のトラッキング e.t.c. 19
  20. 20. 無限混合モデルとベイズ学習 G ∙ = 𝜃 𝑘 𝛿 𝜑 𝑘 ∞ 𝑘=1 ∙ Φ上の無限次元離散分布 𝐺 Φ 𝐺~𝐷𝑃(𝛼𝐻) 𝜑 𝑘~𝐺 𝑥𝑖~𝑝(𝑥|𝜑 𝑘) 𝐺|𝑥1:𝑛 学習 20Φ
  21. 21. 確率的潜在変数モデル 1 2 3 𝜃3 𝜃1 𝜃2 𝑧1 = 3 𝑧2 = 1 𝑥𝑖 𝑧𝑖 𝜃 𝜑 𝑘 𝛽𝛼 𝐾 𝑛 𝑥𝑖~𝑝(𝑥|𝜑 𝑧 𝑖 ) 𝑧𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃) 𝜃~𝐷𝑖𝑟(𝜃|𝛼) 𝜑 𝑘~𝐻(𝜑|𝛽) 無限次元 にするには? →∞ 21 Z 𝑧3 = 1 𝑧4 = 2 点の従うルール 棒の従うルール
  22. 22. 点過程のまとめ 22 加算無限個の点●とその重みである棒/ に関して統計モデルを仮定したもの ⇒重み付きカウントの統計モデル • 点が従うルール→基底測度α0H • 棒が従うルール→ XX過程のXX によって様々なモデルがある どのように点と棒を生成するか? ⇒Stick-breaking Process
  23. 23. 1 2 3 4 ),1(~1 Betab 11 b )1( 12 bb  ),1(~2 Betab 長さ1の棒 Stick-breaking process (SBP) ・・・ ・・・ 2,1 )1( 1 1      k bb k l lkk [Sethuraman 94] 23
  24. 24. SBPによるDPの構成定理 )(~,,, 4321  SBP H,,, 4321 ~ ・・・ 13 2 4 ),(~ HDPG      1k k k G  ・・・ [Sethuraman 94] 24
  25. 25. 𝑧𝑖~𝑝 𝑧 𝑥𝑖, 𝜃, 𝜑 𝜃~SBP(𝜃|𝑧1:𝑛, 𝛼) 𝜑 𝑘~𝑝(𝜑|𝑥1:𝑛, 𝑧1:𝑛, 𝛽) 𝑥𝑖 𝑧𝑖 𝜃 𝜑 𝑘 𝛽𝛼 ∞ 𝑛 25 ),1(~ kkk mmBetab        2,1 )1( 1 1 k bb k l lkk SBPはDPからのサンプリングを数学的に提示したに過ぎない SBPの事後分布からのサンプリング
  26. 26. SBPの事後分布からのサンプリング • 計算機では無限回のbreakingは扱えないの で、有限回のbreakingで近似 →Truncated Stick-breaking Process 打切り誤差は指数的に減少 [Ishwaran+01] • Slice sampler [Walker06] この問題を華麗に解決 26 1Tb
  27. 27. Break Sticks Remaining Stick >uなので u u Remaining Stick<uで止める 1 2 3 1 2 3 4 5 6 7 実質的には有限個からの サンプルになる Slice sampler for SBP 27 確率的な閾値uを用いて打ち切りを確率的に行う 閾値を設ける からサンプルする }:{ kuk  どうやって?
  28. 28. Slice sampler for SBP 2,1 )1( 1 1      k bb k l lkk Remaining Stick 1 2 3 ki kzp   )|( )()|,( ki uukzp   k u k u i i duu duukzp kzp             0 0 )( )|,( )|( 28 確率的な閾値uを用いて打ち切りを確率的に行う
  29. 29. Slice sampler for SBP 2,1 ),|(~ )1( :1 1 1      k zbpb bb nkk k l lkk   Remaining Stick 1 2 3 ki kzp   )|( )()|,( ki uukzp   ],0[),|( ki Ukzup   一様分布      otherwise0 1 ),|( k i u ukzp   u以下の棒は確率0 になるので無視できる29 確率的な閾値uを用いて打ち切りを確率的に行う
  30. 30. Break Sticks Remaining Stick >uなので u u Remaining Stick<uで止める ],0[),1|(~ 1 Uzupu i  1 2 3      otherwise0 1 ),|( k i u ukzp   1 2 3 4 5 6 7 実質的には有限個からの サンプルになる 4次元の一様離散分布 Slice sampler for SBP 30 確率的な閾値uを用いて打ち切りを確率的に行う
  31. 31. ここまでのまとめ 31 • 点過程 加算無限個の点●とその重みである棒/に関して統計モデルを 仮定したもの • 点が従うルール→基底測度α0H • 棒が従うルール→ XX過程のXX によって様々なモデルがある • 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル • Dirichlet 過程からのサンプリング • Stick-breaking process
  32. 32. Factor Model 32 • Infinite Feature Model - Beta Process • Topic Model - Hierarchical Dirichlet Process
  33. 33. Infinite Latent Feature Model 33 データ パラメータ空間 [Griffiths+05])(~ HBPB  )(~ BBePzi
  34. 34. • Linear Gaussian model [Griffiths+NIPS05] 34 = ×データ 次元  ZWX  • Sigmoid model [Miller+NIPS09] )(~, T jiji WZZl  リンクデータ
  35. 35. Topic model 𝑝(𝑖𝑡𝑒𝑚|𝑢𝑠𝑒𝑟) 𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟) 𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐)  T t ittu 1 ,,    1 ,, t ittu  user (doc) item (word) item (word) user (doc) topic topic 実は、DP単体では構成できない なぜ? 35
  36. 36. DP構成の復習 )(~,,, 4321  SBP H,,, 4321 ~ ・・・ 13 2 4 ),(~ HDPG      1k k k G  ・・・ 36
  37. 37. ほしいもの 4,13,12,11,1 ,,,  ・・・ 13 2 4 ・・・ 4,23,22,21,2 ,,,  ・・・ 13 2 4 ・・・ 𝜃 𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑 𝑡は共通 37
  38. 38. DPから複数のGを生成すると 13 2 4 1'3' 2' 4' 𝜃 𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑 𝑡も異なる ),(~1 HDPG  ),(~2 HDPG  H~ H~ Hは連続分布なので、共通する𝜑の生成確率0 4,13,12,11,1 ,,,  ・・・・・・ 4,23,22,21,2 ,,,  ・・・・・・ 38
  39. 39. DPから複数のGを生成すると 13 2 4 1'3' 2' 4' 𝜃 𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なり、𝜑 𝑡も異なる ),(~1 HDPG  ),(~2 HDPG  H~ H~ Hは連続分布なので、共通する𝜑の生成確率0 4,13,12,11,1 ,,,  ・・・・・・ 4,23,22,21,2 ,,,  ・・・・・・ Hは連続分布なので、共通する𝜑の生成確率0 無限次元の離散分布に すれば良いのでは? 39
  40. 40. 階層Dirichlet過程 4,13,12,11,1 ,,,  ・・・ 13 2 4 ・・・ 4,23,22,21,2 ,,,  ・・・ 13 2 4 ・・・ 𝜃 𝑢,𝑡は𝑢𝑠𝑒𝑟毎に異なるが、𝜑 𝑡は共通 ),(~0 HDPG  0G~ 0G~ ),(~ 01 GDPG  ),(~ 02 GDPG  𝐺0は離散分布なので、共通する𝜑が生成可能 [Teh+,2006] 40
  41. 41. Latent Dirichlet Allocation (LDA) 𝑥𝑗,𝑖 𝑧𝑖 𝜃𝑗 𝜑 𝑘 𝛽𝛼 𝑛𝑗 𝐾 𝑝(𝑡𝑜𝑝𝑖𝑐|𝑢𝑠𝑒𝑟) user (doc) topic 𝑝(𝑖𝑡𝑒𝑚|𝑡𝑜𝑝𝑖𝑐) item (word) topic𝑁 𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑 𝑧 𝑖 ) 𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃) 𝜃𝑗~𝐷𝑖𝑟(𝜃|𝛼) 𝜑 𝑘~𝐷𝑖𝑟(𝜑|𝛽) For each topic k: For each user(doc.) j: For each item(word) i: [Blei+,2003] 41
  42. 42. HDP-LDA (SBP版) 𝑥𝑗,𝑖 𝑧𝑖 𝜃𝑗 𝜑 𝑘 𝛽 𝛼 𝑛𝑗 ∞ 𝑁 𝜃𝑗~𝐷𝑃(𝜃|𝛼, 𝜃0) 𝜃0 𝛾 𝜃0~𝑆𝐵𝑃(𝜃|𝛾) 𝑥𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑥|𝜑 𝑧 𝑖 ) 𝑧𝑗,𝑖~𝑀𝑢𝑙𝑡𝑖(𝑧|𝜃) 𝜑 𝑘~𝐷𝑖𝑟(𝜑|𝛽) For each topic k: For each user(doc.) j: For each item(word) i: [Teh+,2006] 42
  43. 43. 学習アルゴリズム • LDA – 変分ベイズ法 [Blei+ JMLR03] – 周辺化ギブスサンプラー [Griffiths+ 04] – 周辺化変文ベイズ法 [Teh+ NIPS07, Sato+ICML2012] • HDP-LDA – 変分ベイズ法[Wang+,AISTATS11] – 周辺化ギブスサンプラー[Teh+ 06] – 周辺化変分ベイズ法 [Teh+ NIPS08, Sato+ KDD2012] 43 Simplify 理論解析
  44. 44. まとめ 44 • 点過程 加算無限個の点●とその重みである棒/に関して統計モデルを 仮定したもの • 点が従うルール→基底測度α0H • 棒が従うルール→ XX過程のXX によって様々なモデルがある • 有限混合モデルはパラメータ空間での有限個の点過程 ↓加算無限個の点過程を考える • Dirichlet過程→無限混合モデル • Dirichlet 過程からのサンプリング • Stick-breaking process • Factor model

×