“基礎”からのBayesian Nonparametrics-点過程と機械学習の数理-

11,075 views

Published on

Published in: Education
4 Comments
22 Likes
Statistics
Notes
  • @Quantum_Phase すいません、物理屋ではないので、わからないです。。。 
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 物理学系から機会学習を勉強するのにおすすめの文献とかご存じないでしょうか?もしよろしければご紹介ください。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ゴメンナサイ・・・まだ比較的わかり易い方なはず。。。。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 測度論が絡むから難しいよなー.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
11,075
On SlideShare
0
From Embeds
0
Number of Embeds
4,297
Actions
Shares
0
Downloads
125
Comments
4
Likes
22
Embeds 0
No embeds

No notes for slide

“基礎”からのBayesian Nonparametrics-点過程と機械学習の数理-

  1. 1. “基礎”からのBayesian Nonparametrics -点過程と機械学習の数理- 東京大学 情報基盤センター 助教 佐藤一誠 1 数理助教の会 2012.12.13
  2. 2. • 点過程のBayesian Nonparametrics (BN) を扱う (i.e. Gaussian Processは扱わない)• 初期のBNの基礎を紹介 (応用分野では必要はないが、理解しておいて損は ない話。特にベイズではフビニの定理が重要)• サンプリング方法、 変分ベイズ法等はほとんど 扱わない。応用の話もほとんど扱わない。(注)原著の雰囲気をそのままお届けするために、英語 と日本語が混じっています。決して、専門用語の日本 語化に失敗しているわけではありません。 2
  3. 3. Random Measure Let (X,B) be a measure space where B is the Borel σ-algebra on X. Let random variables xi ∈X ( i=1,2,…) be defined. Random measure φ is a B-valued random element defined by, for any A ∈B, n  ( A)    ( xi  A) 加算無限和 i 1 でも良い and is also called a point process.XXX processと言った場合には、確率変数列 3XXX measureと言った場合には、個々の(B値)確率変数について言及していると思えばよい
  4. 4. Completely Random Measure (CRM) [Kingman,1967] A random measure φ is a completely random measure if , for any finite collection A1, A2…, An of disjoint sets, the random variables φ(A1), φ(A2)…,φ(An) are independent. N(A2)=3Ex. Counting measure: Nis a completely random measure A1 A2if, for any finite collection A1… An N(A1)=4of disjoint sets , N(A3)=2N(A1)… N(An) are independent A3 4
  5. 5. CRMの 代表例 Poisson Process (PP)λ is a measure from the measurable sets of X to R+,called intensive function.N is generated from PP with λ, i.e., N~PP(dN | λ),if, for any measurable set A ⊂ X, N(A)~Poison(λ(A)).N(・) is a completely random measure given by n 次、図 N ( A)    ( xi  A) あります i 1 ,where n~Poisson(λ(X)). 5
  6. 6. λλ(A) AN(A) ~Poisson(λ(A)) 6
  7. 7. Laplace Transform of PPLet N be a Poisson random measure over X, i.e., N ~ PP(dN | λ).Let K+ is the family of positive functions on X.The Laplace transform of N is given by   LN [ f ]   exp   f ( x ) N ( dx ) PP( dN |  ) , f  K    exp   (1  e f ( x ) ) ( dx ) この形を覚えておく!確率過程について調べたい時は、Laplace Transform!では、一般のCRMもLaplace Transformで調べてみよう ⇒ Levy-Khintchine Representation Theorem 7
  8. 8. Levy-Ito Decomposition of CRM [Kingman,1967]Let φ be a CRM.There is N~PP(dN|ν) on X×[0,∞) such that discrete part  ( A)   tN ( A, dt ) のみ ※Levy-Ito Decomposition of Levy ProcessLevy process is a stochastic process withindependent increments and is decomposed intotwo parts: 1. continuous part: Brownian motion with drift 2. discrete part: positive pure-jump process 8
  9. 9. Levy-Khintchine Representation of CRM [Kingman,1967] The Levy-Khinchine representation of CRM φ isE [e  z ( A ) ]  exp   (1  e ) ( dx, dt )    zt これは結局  ( 0 , ) A Laplace transform (dx, dt ) is a levy measure on X×[0,∞). Levy measureをIntensive functionとする X×[0,∞)上のPPと見なせる 9
  10. 10. 各種CRMを特徴付けるものは、Levy measureだとわかった ということは、Levy measureをいろいろ変えれば 確率過程が作れちゃう(⇒論文書けちゃ・・・)Gamma process: 1 0t  (dx, dt )  H (dx)0t e dt Base measure over XBeta process:  0 1  (dx, dt )  H (dx ) 0t (1  t ) 1 dtInverse Gaussian process: 3 / 2   0t  (dx, dt )  H (dx ) 0t e / 2 dtetc… 10
  11. 11. Levy process 離散部分 Completely Random Measure ※まだまだたくさん あります Poisson Process Levy measure Levy measure Levy measure Gamma Process Beta Process Inverse Gaussian Process 正規化 Sampling可能 構成可能 Dirichlet Process 構成可能 Indian Buffet ProcessCRP,SBPでみるとパラメータ1つ追加 構成可能 Stick-Breaking ProcessPitman-Yor Process Sampling可能 Sampling可能 Chinese Restaurant Process Machine Learningでは 階層化や派生モデル も加わり亜種が爆発的に・・・ 11
  12. 12. Gamma Process (ΓP)H is a base probability measure over X and α0 is concentration parameter.G is generated from ΓP with α0H , i.e., G~ ΓP(α0H)if , for any measurable set A ⊂ X, G(A)~Gamma (α0H (A),1).G(・) is a completely random measure given by  G   wi ( xi ) i 1 ,  where  w ~Gamma(α0H (X),1) . i 1 i 12
  13. 13. Gamma Process (ΓP)Levy measure on X×[0,∞): 1  0t  (dx, dt )  H (dx ) 0t e dt Base measure Gamma(α0,1) over X α0: Concentration Parameter G~ΓP (α0H) Intensive functionを [0,∞) v (Levy measure) と するX×[0,∞)上の N~PPを用いて G~ΓPを生成する 13 X
  14. 14. Gamma Process (ΓP)Levy measure on X×[0,∞): 1  0t  (dx, dt )  H (dx ) 0t e dt Base measure Gamma(α0,1) over X α0: Concentration Parameter G~ΓP (α0H) [0,∞) X×[0,∞)上のPP に従う点を 加算無限個生成 14 X
  15. 15. Gamma Process (ΓP)Levy measure on X×[0,∞): 1  0t  (dx, dt )  H (dx ) 0t e dt Base measure Gamma(α0,1) over X α0: Concentration Parameter G~ΓP (α0H) [0,∞) 縦軸を横軸の点 wi の重みとすれば・・・ 15 X x
  16. 16. Gamma Process (ΓP)Levy measure on X×[0,∞): 1  0t  (dx, dt )  H (dx ) 0t e dt Base measure Gamma(α0,1) over X α0: Concentration Parameter G~ΓP (α0H)  G   wi ( xi ) i 1 (再掲)Levy-Ito Decom. G ( A)   tN ( A, dt ) tをwに置き換えると 16 X わかりやすい
  17. 17. Bayesの人は当然 Gamma Process (ΓP)の事後分布 を求めたい となる ⇒ フビニの定理を基に導出 他の確率過程でもほぼ同様のロジック (i.e., 新しい確率過程で事後分布を求めるなら 大抵、フビニの定理を基にすればよい)ベイズの定理の復習 事後分布 尤度 事前分布 p( x | { yi })  p({ yi } | x ) p( x ) 17
  18. 18. Fubini’s Theorem (フビニの定理)• 多変数の期待値などに伴う積分順序に関する定理• 簡単に言えば積分順序の交換(逐次積分)を可能に する定理• 様々な状況での証明がある 入門書としては、『測度から確率へ』(佐藤坦)などに幾 つか証明がある つまり、 1つの定理で、どんな確率過程でも事後分布が 求まる魔法の定理ではない(各自がんばる) e.g., 非負確率変数の場合の逐次平均可能など 18
  19. 19. Fubini-type disintegration for ΓP [Lo+,1978,1982,1989] hの一般化Let h be any non-negative function over γ and x,and  ~  P( d |  ) , α=α0H.  h( x,  ) (dx ) P(d |  )    h( x,  ) P(d |    x ) ( dx ) xが与えられた下での γの事後分布 E[ ( dx )]    ( dx )  P( d |  )   ( dx ) 19
  20. 20. Fubini-type disintegration for ΓP [Lo+,1978,1982,1989] hの一般化 2  h( x ,  ) (dx ) i 1 i i の場合(注: dx1, dx2の多重積分) 2   h( x ,  ) (dx ) P(d |  ) i 1 i i [Fubini’s theorem] 2    h( xi ,  ) ( dx2 )  P( d |    x1 ) ( dx1 ) i 1 [Fubini’s theorem]    h( xi ,  ) P( d |     xi ) ( dx1 )   x1 ( dx2 ) 2 2 i 1 i 1 ※dx1, dx2の積分順序によらない 20
  21. 21. Fubini-type disintegration for ΓP [Lo+,1978,1982,1989] hの一般化 n  h( x ,  ) (dx ) i 1 i i の場合 n   h( x ,  ) (dx ) P(d |  ) i 1 i i n n n  i 1     h( xi ,  ) P( d |     xi )      x j ( dxi )   i 1 i 1 i 1  j 1  x1 …, xnが与えられた元での ここに注目! γの事後分布 21
  22. 22. n  i 1   f ( x1  xn )      x j ( dxi ) dx1 …, dxnの積分を近似   i 1  ⇒ x1 …, xnをサンプリングする j 1  ※  ( dx )   0 H ( dx )     (dx1 )   x1 (dx2 )     xi (dx3 )       xi (dxn ) 2 n 1  i 1   i 1  ~ ~  (dx ) x1 からのサンプリング 1 22
  23. 23. n  i 1   f ( x1  xn )      x j ( dxi ) dx1 …, dxnの積分を近似   i 1  ⇒ x1 …, xnをサンプリングする j 1  ※  ( dx )   0 H ( dx )     (dx1 )   x1 (dx2 )     xi (dx3 )       xi (dxn ) 2 n 1  i 1   i 1  ~ ~  (dx ) x1 からのサンプリング 1 ~ ~    ~ (dx ) x 2 x1 2 23
  24. 24. n  i 1   f ( x1  xn )      x j ( dxi ) dx1 …, dxnの積分を近似   i 1  ⇒ x1 …, xnをサンプリングする j 1  ※  ( dx )   0 H ( dx )     (dx1 )   x1 (dx2 )     xi (dx3 )       xi (dxn ) 2 n 1  i 1   i 1  ~ ~  ( dx ) x1 からのサンプリング 1 ~ ~    ~ ( dx ) x 2 x1 2 ~ ~     ~ ( dx )  2 x3   xi  3 i 1  24
  25. 25. n  i 1   f ( x1  xn )      x j ( dxi ) dx1 …, dxnの積分を近似   i 1  ⇒ x1 …, xnをサンプリングする j 1  ※  ( dx )   0 H ( dx )     (dx1 )   x1 (dx2 )     xi (dx3 )       xi (dxn ) 2 n 1  i 1   i 1  ~ ~  (dx ) x1 からのサンプリング 1 ~ ~    ~ (dx ) x 2 x1 2 ~ ~     ~ (dx )  2 x3   xi  3 i 1  ( X )  0 ,  x ( X )  1 i なので正規化して考えると 0 1 n 1 xn ~ 0  n  1 H ( dxn )    xi (dxn )  0  n  1 i 1 25
  26. 26. Restaurant Representation テーブル 1 x1 客x1  x (1) x3x2  x ( 2 ) 1 2 3 x4  x ~ H ( dx4 ) 1 x1 x2 1x3  x (1) 2 0  3 0 0  3 0  3x4  ? x4 0 1 n 1 xn ~ 0  n  1 H ( dxn )    xi (dxn )  0  n  1 i 1 新しいxがサンプリングされる確率 既出のxがサンプリングされる確率 26
  27. 27. Normalized Gamma Process (NΓP)  w i 1 i   (X )  ~ P( 0 H )加算 無限和が1 w i 1 i  1 となるように正規化 G   /  ( X ) ~ DP ( 0 H ) X DP: Dirichlet Process [Ferguson1973] G ~ D P,  ~  P のとき G   /  ( X ) in distribution, i.e., for any integrable function f  f (G ) D P(dG |  H )   f (G   /  ( X )) P(dr |  H ) 0 0 [Kingman1975,Lo+1989] 27
  28. 28. Dirichlet Process (DP) [Ferguson1973]H is a base probability measure over X and α0 is concentration parameter.G is generated from DP with α0H , i.e., G~ DP(α0H)if , for any finite set of measurable partitions A1∪A2 ∪ … ∪ Ak = X, (G(A1),G(A2),…, G(Ak) ) ~Dir (α0H(A1), α0H(A2),…, α0H(Ak) ).G(・) is a obtained by (※)CRM   ではない  G  w  ( x ) ,  wi  1 . i 1 i i i 1 28
  29. 29. Fubini-type disintegration for DP [Ferguson1973] 歴史的にはΓPよりも 古いことに注意 Let h be any non-negative function over G and x, and G ~ D P( dG |  ) , α=α0H.  (dx )  h( x, G )G(dx ) D P(dG |  )    h( x, G ) D P(dG |    x )  ( X ) xが与えられた下での Gの事後分布 29
  30. 30. Fubini-type disintegration for DP [Ferguson1973] n  h( x , G )G(dx ) の場合 i 1 i i n   h( x , G )G(dx )D P(dG |  ) i 1 i i  i 1       x j ( dxi ) n     n n    h( xi , G )D P( dG |     xi ) j 1 i 1 i 1 i 1 (X )  i 1 x1 …, xnが与えられた元での はじめから正規化されている Gの事後分布  ( X )  0 ,  x ( X )  1 i x1 …, xnのサンプリングは ΓPと同じ(というかΓP がDPと同じ) 30
  31. 31. Fubini-type disintegration for NΓP [Lo+1989] Let h be any non-negative function over γ and x, and  ~  P( d |  ) , α=α0H.     ( dx )   h x,  ( X )   ( X )  P(d |  )         ( dx )    h x,   ( X )   P( d |    x )  ( X )    DPと同じ形これを使えば G   /  ( X ) in distributionは簡単に示せる 31
  32. 32. Fubini-type disintegration for NΓP [Lo+1989]Proof:     ( dx )   h x,  ( X )   ( X )  P(d |  )     [Fubini’s theorem]    1    h x,   ( X )   ( X )  P( d |    x ) ( dx )    [Fubini’s theorem]     1     h x,   ( X )   P( d |    x ) E P( d |  x )   ( X )  ( dx )          ( dx ) 次で説明    h x,   ( X )   P( d |    x )  ( X )    32
  33. 33.    1 xGamma distribution: p( x; ,  )  x e (  )Laplace transform: E[e  vx ]  (1  v ) If α is also a gamma random variable with shapeparameter γ+n and unit scale, i.e., α~Gamma(γ+n,1)then, 1 ( ) E n      (  n ) 次で説明Note that when n=1, 1 ( ) 1 E       (  1)  33
  34. 34. If α~Gamma(γ,1) then,  1   1   1 x  E     E     (  ) 0 x e dx    [Fubini’s theorem]1   p( dx; ,  ) 1   1 0 x E [e ]dx x  0     1 x1 (  ) 0 x e dx (  )  [Laplace transform] 1 1 (  ) 0  x  1e x dx 1   1 0 x (1  x ) dx γ⇒ γ+n   (  ) (   ) β⇒ n  とすれば ( ) 34
  35. 35. 応用例:無限混合モデル 加算無限個  G ( d )  1p( y | G )   p( y |  )G ( d )      p( y | i )G (i ) i 1 G(3 ) 無限混合モデル p( y | 1 ) p( y |  2 ) p( y | 3 ) ベイズ予測分布: p( y | y1:n )    p( y | G ) p( dG | y1:n ) 35
  36. 36. Levy process 離散部分 Completely Random Measure ※まだまだたくさん あります 今回の話 Poisson Process Levy measure Levy measure Levy measure Gamma Process Beta Process Inverse Gaussian Process 正規化 Sampling可能 構成可能 Dirichlet Process 構成可能 Indian Buffet ProcessCRP,SBPでみるとパラメータ1つ追加 構成可能 Stick-Breaking ProcessPitman-Yor Process Sampling可能 Sampling可能 Chinese Restaurant Process Machine Learningでは 階層化や派生モデル も加わり亜種が爆発的に・・・ 36

×