SlideShare a Scribd company logo
1 of 20
Download to read offline
PRML 読書会 11.2-11.4	
2011.07.19 19:30- M2 松田耕史
マルコフ連鎖モンテカルロとは	
•  複雑な分布から「マルコフ連鎖」をもちいてサンプリングする手
 法の総称
 •  「マルコフ連鎖」する提案分布を用いる
   •  Gibbs Samplingは素直な解釈では提案分布を用いないが、提案分布をもつ
    形にも書ける(後述)
 •  「マルコフ連鎖」する:サンプリングを行うごとに状態がかわる
•  状態がかわる:という性質
   •  単純に棄却を行うより、広い範囲を効率よくサンプルすることができる
   •  特に高次元の問題で重要
 •  状態に良し悪しの尺度(尤度等)をつけることで、最適化の手法としても
  用いることができる(おまけ)
•  記号の概略
   •  確率変数の状態 : z , 提案分布 : q , サンプリングを行いたい分布 : p
11.2 マルコフ連鎖モンテカルロ	
•  マルコフ連鎖を成す提案分布からのサンプリング
                              (! )
   •  提案分布は、現在の状態に依存する q(z | z )
•  簡単な例 ) Metropolisアルゴリズム
   1.  提案分布 q( z | z(t) ) から z* をサンプリングする
   2.  A (z*, z(t)) = min{1, p(z*)/p(z(t))}      (11.33)
   3.  (0,1)の一様分布から u をサンプルして
        •  A (z*, z(t)) > u の場合
            z(t+1) = z*
        •  otherwise
            z(t+1) = z(t)
  4.     ステップ1に戻る
•  つまり、 提案分布qからサンプルをもってきて
   •  p(z) が増加するなら z* を「必ず」採択
   •  p(z) が減少する場合も 減少率に反比例した確率 で z* を採択
Metropolisアルゴリズムの注意点	
•  サンプリングを十分繰り返すと、z(t)の分布はp(z)からのサンプ
   ルに近づく
•  ただし、連続したサンプルは高い相関を持っている
 •  (同じ値である場合もある)
•  p(z)からの独立したサンプルを得たい場合は、得られたサン
   プルから間引きをする必要がある
•  提案分布について
 •  分散が大きい(ステップ数が大きい)
  •  棄却される可能性が高くなり、効率的な
   サンプリングが行えない
 •  分散が小さい(ステップ数が小さい)
  •  z同士の相関が消えにくい
ランダムウォークの効率	




•  z(0) = 0 の場合…
                                        !
    E ! z (! ) # = 0, E !(z (! ) )2 # =
      " $               "           $
                                        2
•  サンプル分散は sqrt(tau) に比例してしか増えない = 2倍の
   範囲をサンプリングするには、2乗の数のサンプルを得なけれ
   ばならない => 提案分布の選択が重要
マルコフ連鎖の定義と性質 (1/2)	
•  (一次の)マルコフ連鎖とは
                                 (11.37)	
•  遷移確率


•  均一マルコフ連鎖とは


•  分布が不変である、定常である、とは
                                 (11.39)	

             どのステップにおいても、状態z’からzへの遷移は同じ確率
マルコフ連鎖の定義と性質 (2/2)	
•  詳細釣り合い条件
   •  いかなる状態zに対しても、逆変換が同じ分布になる




•  エルゴード性
   •  どんな初期状態z(0)からスタートしても、サンプリングを沢山くりかえすこ
      とでサンプルzの分布はp*(z)に収束する
   •  p(z)がゼロでない領域であれば、「どこからでも」「どこへでも」ゼロでは
      ない確率で遷移できるということ
   •  MCMC全般において、非常に重要
Metropolis-Hastings Algorithm	
•  Metropolisアルゴリズムとほとんど同じ。対象でない提案分布
を扱えるようにしてある
 •  等方ガウス分布は対称、しかし、そうでないガウス分布は対称ではない
1.  提案分布 q から z* をサンプル
2.  次の確率でサンプルを採択、棄却


                                  (11.44)	



•  対称な提案分布については、 Metropolisアルゴリズムと等価
11.3 Gibbs Sampling	
•  例)三変数の場合を考える
1.  まずそれぞれの確率変数ziを適当に初期化
2.  各ステップtauにおいて以下のようにサンプルする
 1. 
 2. 
 3.                            (11.46-11.48)	


•  一般的な形については p.258 参照
   •  サンプリングする順番は適当に決めて良い(順番にでも、ランダムにでも)
•  MHアルゴリズムと同様、初期値から相関が消えるにはそれなりに
   時間がかかる(隣接するサンプル同士も相関を持っている)
•  条件付き分布のエルゴード性が重要
 •  確率変数の空間の中で「どこからでも」「どこへでも」行けなければならない
Gibbs Sampling と M-H Algorithm 	
•  Gibbs Samplingは Metropolis-Hasting Algorithmの特別な
 場合とみなすことができる
 •  M-H法における提案分布をGibbs Samplingにおける条件付き分布とみ
    なすと、二つのアルゴリズムは等価になる
 •  11.49 式参照
 •  この場合、採択率は1になるということに注意
ガウス分布に対するGibbs Sampling	
•  青い実線の軌跡が実際のサンプルの動き
   •  上、横にしか動いていないことに注意
   •  相関が強い(L/lが大きい)分布の場合、少しづつしか
    動かないのは相変わらず
•  demo!!
   •  なぜかHTML+Javascriptです・・・
Gibbs Samplingがうまくいかない例	
•  演習問題 11.12 (p.272)
   •  赤い領域で一様で、それ以外でゼロであるような分布
   •  どうしてうまくいかないか考えてみよう
   •  M-Hアルゴリズムならどうだろうか?
  •  提案分布は適当に決めてよい
グラフィカルモデルとGibbs Sampling	
•  マルコフブランケットの議論(8章)を思い出してみよう
   •  無向グラフの場合、p(z)はマルコフブランケットの塗りつぶされたノード
      にのみ依存する
  •  近傍ノードを固定して、中央のノードをサンプル
  •  別のノードを選択して、中央のノードをサンプル
 •  という手続きを繰り返すことによって、全体がいい感じになるようなzを求
  めることができそう(ICMアルゴリズムとの関連性 -> 8.3.3)
•  過剰緩和、対数凹とか関数形のお話は省略します
11.4 スライスサンプリング	
•  Metropolisアルゴリズムはステップサイズ(提案分布の分散)
に敏感
 •  小さすぎ : ランダムウォーク的に振る舞い、相関が消えにくい
 •  大きすぎ : 棄却されることが多くなる
•  u という補助的な変数を導入することでサンプリング範囲を適
 応的に決める
1.  zの初期値を適当に定めたら,以下の2ステップを交互に
 1.     Sample u ~ Uniform(0,p(z))
       •  縦にサンプリング(スライスする場所(高さ)を決める)
 2.     Sample z ~ Uniform({ z : p(z) < u })
       •  横にサンプリング (スライスされた平面(領域)から一様にサンプル)
スライスサンプリング(理想)	




   次の z(t+1) は、青の実線上から一様にサンプリングされる
スライスサンプリング(現実)	




zmin ≦ u ≦ zmax の領域からサンプリング
zmin, zmax は u を中心に伸ばしたり縮めたりしながら推定
まとめ	
•  マルコフ連鎖モンテカルロ
   •  マルコフ連鎖をもちいて、分布からサンプルを得る手法の総称
•  提案分布を用いるアルゴリズム(マルコフ的棄却法)
   •  Metropolis アルゴリズム : 提案分布が対称
   •  Metropolis-Hasting アルゴリズム : 非対称な提案分布を扱える
   •  提案分布の設計が重要
•  条件付き分布を用いるアルゴリズム
   •  Gibbs Sampling
    •  M-H法において提案分布 = 条件付き分布と置いたものと等価
    •  棄却されないので、条件付き分布からのサンプルが容易であれば高効率
•  補助変数を導入するアルゴリズム
   •  スライスサンプリング
    •  “スライス点”を一様にサンプル & “スライスされた領域”から一様に(スライス点を)サンプル
 •  Gibbs Samplingと似ているが、スライス領域の計算が面倒(な場合がある)
•  各手法、一長一短があるので、使い分けられると良いですね
   •  NLPではGibbs Samplingをみかけることが多いが、その他の方法も知っておこう
何のためにサンプリングを行うか	
•  あくまで私の認識ですが・・・
•  期待値計算
   •  (複雑な)事後分布のサンプルを得ることで、期待値、中央値等の近似
      値を求める
  •  EM における E-stepの代替 (ex. IPアルゴリズム)
 •  LDA等におけるGibbs Samplingはこちら
  •  ある単語があるトピックに紐づく確率の期待値を求める

•  最適化
   •  たとえば尤度関数は分かっているが、最尤推定ができないという状況で、
      尤度関数が最大になる点(できれば大域解)を求める
   •  Simulated-Annealing と M-Hアルゴリズム の類似性
  •  Simulated-Annealingと同様、M-Hアルゴリズムも多峰性をもつ場合もまぁ
   まぁ動く
補遺	
•  Sequential Monte Carlo(SMC)アルゴリズム
   •  MCMCと似ているが、各ステップで”沢山”サンプルする
   •  そして、それらのサンプルをもちいて
   •  モデルパラメータを調節したり、期待値を求めたり
 •  パーティクルフィルタ
   •  時系列モデルにおいて、(かくれ)状態が変化する点を求める問題

•  M-H法とSimulated Annealingにおける(考え方の)類似性が、
 SMCとGA(遺伝的アルゴリズム)においてもみられる
 •  GAについては、適応システム論あたりの講義でやったかな?
•  ただし、「期待値計算」の世界と「最適化」の世界を区別するこ
 とは重要らしい
統計科学のフロンティア12 p.72より

More Related Content

What's hot

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 

What's hot (20)

PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
Predicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman networkPredicting organic reaction outcomes with weisfeiler lehman network
Predicting organic reaction outcomes with weisfeiler lehman network
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半PRML上巻勉強会 at 東京大学 資料 第1章後半
PRML上巻勉強会 at 東京大学 資料 第1章後半
 
PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2PRML 上 2.3.6 ~ 2.5.2
PRML 上 2.3.6 ~ 2.5.2
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 

Similar to 研究室内PRML勉強会 11章2-4節

Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Wataru Kishimoto
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
koba cky
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
. .
 

Similar to 研究室内PRML勉強会 11章2-4節 (20)

PRML11.2 - 11.6
PRML11.2 - 11.6PRML11.2 - 11.6
PRML11.2 - 11.6
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
Car rmodel
Car rmodelCar rmodel
Car rmodel
 
確率的自己位置推定
確率的自己位置推定確率的自己位置推定
確率的自己位置推定
 
PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)PRML Chapter 11 (11.0-11.2)
PRML Chapter 11 (11.0-11.2)
 
KDD2014 勉強会
KDD2014 勉強会KDD2014 勉強会
KDD2014 勉強会
 
[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions
[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions
[DL輪読会]Deep Learning for Sampling from Arbitrary Probability Distributions
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
一般化線形モデル
一般化線形モデル一般化線形モデル
一般化線形モデル
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
[DL輪読会]Backpropagation through the Void: Optimizing control variates for bla...
 [DL輪読会]Backpropagation through the Void: Optimizing control variates for bla... [DL輪読会]Backpropagation through the Void: Optimizing control variates for bla...
[DL輪読会]Backpropagation through the Void: Optimizing control variates for bla...
 
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
PRML輪読#10
PRML輪読#10PRML輪読#10
PRML輪読#10
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
Chapter11.2
Chapter11.2Chapter11.2
Chapter11.2
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討第2回DARM勉強会.preacherによるmoderatorの検討
第2回DARM勉強会.preacherによるmoderatorの検討
 

More from Koji Matsuda

Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Koji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
Koji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
Koji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 

More from Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

研究室内PRML勉強会 11章2-4節

  • 1. PRML 読書会 11.2-11.4 2011.07.19 19:30- M2 松田耕史
  • 2. マルコフ連鎖モンテカルロとは •  複雑な分布から「マルコフ連鎖」をもちいてサンプリングする手 法の総称 •  「マルコフ連鎖」する提案分布を用いる •  Gibbs Samplingは素直な解釈では提案分布を用いないが、提案分布をもつ 形にも書ける(後述) •  「マルコフ連鎖」する:サンプリングを行うごとに状態がかわる •  状態がかわる:という性質 •  単純に棄却を行うより、広い範囲を効率よくサンプルすることができる •  特に高次元の問題で重要 •  状態に良し悪しの尺度(尤度等)をつけることで、最適化の手法としても 用いることができる(おまけ) •  記号の概略 •  確率変数の状態 : z , 提案分布 : q , サンプリングを行いたい分布 : p
  • 3. 11.2 マルコフ連鎖モンテカルロ •  マルコフ連鎖を成す提案分布からのサンプリング (! ) •  提案分布は、現在の状態に依存する q(z | z ) •  簡単な例 ) Metropolisアルゴリズム 1.  提案分布 q( z | z(t) ) から z* をサンプリングする 2.  A (z*, z(t)) = min{1, p(z*)/p(z(t))}      (11.33) 3.  (0,1)の一様分布から u をサンプルして •  A (z*, z(t)) > u の場合 z(t+1) = z* •  otherwise z(t+1) = z(t) 4.  ステップ1に戻る •  つまり、 提案分布qからサンプルをもってきて •  p(z) が増加するなら z* を「必ず」採択 •  p(z) が減少する場合も 減少率に反比例した確率 で z* を採択
  • 4. Metropolisアルゴリズムの注意点 •  サンプリングを十分繰り返すと、z(t)の分布はp(z)からのサンプ ルに近づく •  ただし、連続したサンプルは高い相関を持っている •  (同じ値である場合もある) •  p(z)からの独立したサンプルを得たい場合は、得られたサン プルから間引きをする必要がある •  提案分布について •  分散が大きい(ステップ数が大きい) •  棄却される可能性が高くなり、効率的な  サンプリングが行えない •  分散が小さい(ステップ数が小さい) •  z同士の相関が消えにくい
  • 5. ランダムウォークの効率 •  z(0) = 0 の場合… ! E ! z (! ) # = 0, E !(z (! ) )2 # = " $ " $ 2 •  サンプル分散は sqrt(tau) に比例してしか増えない = 2倍の 範囲をサンプリングするには、2乗の数のサンプルを得なけれ ばならない => 提案分布の選択が重要
  • 6. マルコフ連鎖の定義と性質 (1/2) •  (一次の)マルコフ連鎖とは (11.37) •  遷移確率 •  均一マルコフ連鎖とは •  分布が不変である、定常である、とは (11.39) どのステップにおいても、状態z’からzへの遷移は同じ確率
  • 7. マルコフ連鎖の定義と性質 (2/2) •  詳細釣り合い条件 •  いかなる状態zに対しても、逆変換が同じ分布になる •  エルゴード性 •  どんな初期状態z(0)からスタートしても、サンプリングを沢山くりかえすこ とでサンプルzの分布はp*(z)に収束する •  p(z)がゼロでない領域であれば、「どこからでも」「どこへでも」ゼロでは ない確率で遷移できるということ •  MCMC全般において、非常に重要
  • 8. Metropolis-Hastings Algorithm •  Metropolisアルゴリズムとほとんど同じ。対象でない提案分布 を扱えるようにしてある •  等方ガウス分布は対称、しかし、そうでないガウス分布は対称ではない 1.  提案分布 q から z* をサンプル 2.  次の確率でサンプルを採択、棄却 (11.44) •  対称な提案分布については、 Metropolisアルゴリズムと等価
  • 9. 11.3 Gibbs Sampling •  例)三変数の場合を考える 1.  まずそれぞれの確率変数ziを適当に初期化 2.  各ステップtauにおいて以下のようにサンプルする 1.  2.  3.    (11.46-11.48) •  一般的な形については p.258 参照 •  サンプリングする順番は適当に決めて良い(順番にでも、ランダムにでも) •  MHアルゴリズムと同様、初期値から相関が消えるにはそれなりに 時間がかかる(隣接するサンプル同士も相関を持っている) •  条件付き分布のエルゴード性が重要 •  確率変数の空間の中で「どこからでも」「どこへでも」行けなければならない
  • 10. Gibbs Sampling と M-H Algorithm •  Gibbs Samplingは Metropolis-Hasting Algorithmの特別な 場合とみなすことができる •  M-H法における提案分布をGibbs Samplingにおける条件付き分布とみ なすと、二つのアルゴリズムは等価になる •  11.49 式参照 •  この場合、採択率は1になるということに注意
  • 11. ガウス分布に対するGibbs Sampling •  青い実線の軌跡が実際のサンプルの動き •  上、横にしか動いていないことに注意 •  相関が強い(L/lが大きい)分布の場合、少しづつしか  動かないのは相変わらず •  demo!! •  なぜかHTML+Javascriptです・・・
  • 12. Gibbs Samplingがうまくいかない例 •  演習問題 11.12 (p.272) •  赤い領域で一様で、それ以外でゼロであるような分布 •  どうしてうまくいかないか考えてみよう •  M-Hアルゴリズムならどうだろうか? •  提案分布は適当に決めてよい
  • 13. グラフィカルモデルとGibbs Sampling •  マルコフブランケットの議論(8章)を思い出してみよう •  無向グラフの場合、p(z)はマルコフブランケットの塗りつぶされたノード にのみ依存する •  近傍ノードを固定して、中央のノードをサンプル •  別のノードを選択して、中央のノードをサンプル •  という手続きを繰り返すことによって、全体がいい感じになるようなzを求 めることができそう(ICMアルゴリズムとの関連性 -> 8.3.3) •  過剰緩和、対数凹とか関数形のお話は省略します
  • 14. 11.4 スライスサンプリング •  Metropolisアルゴリズムはステップサイズ(提案分布の分散) に敏感 •  小さすぎ : ランダムウォーク的に振る舞い、相関が消えにくい •  大きすぎ : 棄却されることが多くなる •  u という補助的な変数を導入することでサンプリング範囲を適 応的に決める 1.  zの初期値を適当に定めたら,以下の2ステップを交互に 1.  Sample u ~ Uniform(0,p(z)) •  縦にサンプリング(スライスする場所(高さ)を決める) 2.  Sample z ~ Uniform({ z : p(z) < u }) •  横にサンプリング (スライスされた平面(領域)から一様にサンプル)
  • 15. スライスサンプリング(理想) 次の z(t+1) は、青の実線上から一様にサンプリングされる
  • 16. スライスサンプリング(現実) zmin ≦ u ≦ zmax の領域からサンプリング zmin, zmax は u を中心に伸ばしたり縮めたりしながら推定
  • 17. まとめ •  マルコフ連鎖モンテカルロ •  マルコフ連鎖をもちいて、分布からサンプルを得る手法の総称 •  提案分布を用いるアルゴリズム(マルコフ的棄却法) •  Metropolis アルゴリズム : 提案分布が対称 •  Metropolis-Hasting アルゴリズム : 非対称な提案分布を扱える •  提案分布の設計が重要 •  条件付き分布を用いるアルゴリズム •  Gibbs Sampling •  M-H法において提案分布 = 条件付き分布と置いたものと等価 •  棄却されないので、条件付き分布からのサンプルが容易であれば高効率 •  補助変数を導入するアルゴリズム •  スライスサンプリング •  “スライス点”を一様にサンプル & “スライスされた領域”から一様に(スライス点を)サンプル •  Gibbs Samplingと似ているが、スライス領域の計算が面倒(な場合がある) •  各手法、一長一短があるので、使い分けられると良いですね •  NLPではGibbs Samplingをみかけることが多いが、その他の方法も知っておこう
  • 18. 何のためにサンプリングを行うか •  あくまで私の認識ですが・・・ •  期待値計算 •  (複雑な)事後分布のサンプルを得ることで、期待値、中央値等の近似 値を求める •  EM における E-stepの代替 (ex. IPアルゴリズム) •  LDA等におけるGibbs Samplingはこちら •  ある単語があるトピックに紐づく確率の期待値を求める •  最適化 •  たとえば尤度関数は分かっているが、最尤推定ができないという状況で、 尤度関数が最大になる点(できれば大域解)を求める •  Simulated-Annealing と M-Hアルゴリズム の類似性 •  Simulated-Annealingと同様、M-Hアルゴリズムも多峰性をもつ場合もまぁ まぁ動く
  • 19. 補遺 •  Sequential Monte Carlo(SMC)アルゴリズム •  MCMCと似ているが、各ステップで”沢山”サンプルする •  そして、それらのサンプルをもちいて •  モデルパラメータを調節したり、期待値を求めたり •  パーティクルフィルタ •  時系列モデルにおいて、(かくれ)状態が変化する点を求める問題 •  M-H法とSimulated Annealingにおける(考え方の)類似性が、 SMCとGA(遺伝的アルゴリズム)においてもみられる •  GAについては、適応システム論あたりの講義でやったかな? •  ただし、「期待値計算」の世界と「最適化」の世界を区別するこ とは重要らしい