1
読書会 「トピックモデルによる統計的潜在意味解析」
第2回
3.2節 サンプリング近似法
日時: 2015/06/18 19:30~
場所: 株式会社 ALBERT
発表者: @aoki_kenji
目次
2
• 前回の復習(条件付き独立性)
• ギブスサンプリングとは?
• 3.2.1節 ギブスサンプリング
• 3.2.2節 周辺化ギブスサンプリング
• 3.2.3節 LDAのギブスサンプリング
• 3.2.4節 LDAの周辺化ギブスサンプリング
今回は時間の都合上省略
目次
3
• 前回の復習(条件付き独立性)
• ギブスサンプリングとは?
• 3.2.1節 ギブスサンプリング
• 3.2.2節 周辺化ギブスサンプリング
• 3.2.3節 LDAのギブスサンプリング
• 3.2.4節 LDAの周辺化ギブスサンプリング
グラフィカルモデル? or 数式?
4
前回の@ksmznさんの資料から引用
• 前回はグラフィカルモデルを参照して条件付き分布を導出した
• 今回は数式から直接条件付き分布を導出してみる
数式からの条件付き独立性の導出(p.22の図1.7)
5
𝑏
𝑎
𝑐
𝑎
𝑏
𝑐
𝑎
𝑏
𝑐
tail-to-tail head-to-tail head-to-head
𝑝 𝑎, 𝑏, 𝑐
= 𝑝 𝑎|𝑐 𝑝 𝑏|𝑐 𝑝 𝑐
𝑝 𝑎, 𝑏|𝑐
∝ 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐
⇒ 𝑎 ⊥ 𝑏|𝑐
𝑝 𝑎, 𝑏, 𝑐
= 𝑝 𝑏|𝑐 𝑝 𝑐|𝑎 𝑝 𝑎
𝑝 𝑎, 𝑏|𝑐
∝ 𝑝 𝑏|𝑐 𝑝 𝑐|𝑎 𝑝 𝑎
⇒ 𝑎 ⊥ 𝑏|𝑐
𝑝 𝑎, 𝑏, 𝑐
= 𝑝 𝑐|𝑎, 𝑏 𝑝 𝑎 𝑝 𝑏
𝑝 𝑎, 𝑏|𝑐
∝ 𝑝 𝑐|𝑎, 𝑏 𝑝 𝑎 𝑝 𝑏
⇒ 𝑎 ⊥ 𝑏|𝑐
グラフィカル
モデル
数式
条件付き
独立性
数式からの条件付き独立性の導出(p.35の図2.4)
6
𝜷𝜶
LDAの生成モデル
𝑝 𝑧 𝑑,𝑖|𝒘, 𝒛−𝑑,𝑖, 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑 ⇒ 𝑝 𝑧 𝑑,𝑖|𝑤 𝑑,𝑖, 𝜽 𝑑, 𝝓
𝑝 𝜽 𝑑|𝒘, 𝒛, 𝜽−𝑑
, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑|𝜽 𝑑 𝑝 𝜽 𝑑|𝜶 ⇒ 𝑝 𝜽 𝑑|𝒛 𝑑, 𝜶
𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 ∝ 𝑝 𝒘 𝒛, 𝝓 𝑝 𝝓 𝑘 𝜷 ⇒ 𝑝 𝝓 𝑘 𝒘, 𝒛, 𝝓−𝑘, 𝜷
𝝓 𝑘𝜽 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝐾𝑛 𝑑
𝑀
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑
𝑑,𝑖
𝑝 𝜽 𝑑 𝜶
𝑑
𝑝 𝝓 𝑘 𝜷
𝑘
各確率変数の条件付き分布を数式から
導出してみる
1段目と3段目の式に関しては
実際よりも冗長
数式からの条件付き独立性の導出(p.35の図2.4)
7
𝜷𝜶
LDAの生成モデル
𝑝 𝑧 𝑑,𝑖 = 𝑘|𝒘, 𝑧−𝑑,𝑖
, 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 ⇒ 𝑝 𝑧 𝑑,𝑖 = 𝑘|𝑤 𝑑,𝑖, 𝜽 𝑑, 𝝓 𝑘
𝑝 𝜽 𝑑|𝒘, 𝒛, 𝜽−𝑑, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑|𝜽 𝑑 𝑝 𝜽 𝑑|𝜶 ⇒ 𝑝 𝜽 𝑑|𝒛 𝑑, 𝜶
𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘
, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝝓 𝑘
𝑧 𝑑,𝑖=𝑘
𝑝 𝝓 𝑘 𝜷 ⇒ 𝑝 𝝓 𝑘 𝑤 𝑑,𝑖|𝑧 𝑑,𝑖 = 𝑘 , 𝒛, 𝜷
𝝓 𝑘𝜽 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖
𝐾𝑛 𝑑
𝑀
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 𝝓 𝑧 𝑑,𝑖
𝑝 𝑧 𝑑,𝑖 𝜽 𝑑
𝑑,𝑖
𝑝 𝜽 𝑑 𝜶
𝑑
𝑝 𝝓 𝑘 𝜷
𝑘
𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 = 𝑝 𝑤 𝑑,𝑖 𝝓 𝑧 𝑑,𝑖
という構造を既知とすると…
目次
8
• 前回の復習(条件付き独立性)
• ギブスサンプリングとは?
• 3.2.1節 ギブスサンプリング
• 3.2.2節 周辺化ギブスサンプリング
• 3.2.3節 LDAのギブスサンプリング
• 3.2.4節 LDAの周辺化ギブスサンプリング
ギブスサンプリングのアルゴリズム概要
9
例えば
𝑝 𝑎, 𝑏, 𝑐|𝜃
から直接乱数を生成できないようなときでも、以下の手順(ギブスサンプリング)に
よって上記分布からの乱数を生成することができる
Step1: 𝑏, 𝑐の初期値𝑏 0 , 𝑐 0 と正数𝑆を与える
Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す
𝑝 𝑎 𝑠
|𝑏 𝑠−1
, 𝑐 𝑠−1
, 𝜃 から𝑎 𝑠
をサンプリング
𝑝 𝑏 𝑠 |𝑎 𝑠 , 𝑐 𝑠−1 , 𝜃 から𝑏 𝑠 をサンプリング
𝑝 𝑐 𝑠 |𝑎 𝑠 , 𝑏 𝑠 , 𝜃 から𝑐 𝑠 をサンプリング
上記の手順によって生成された乱数が𝑝 𝑎, 𝑏, 𝑐|𝜃 に従う理論的説明は、例えば
• 伊庭他(2005)、『計算統計Ⅱマルコフ連鎖モンテカルロ法とその周辺
(統計科学のフロンティア12)』、岩波書店
を参照
ギブスサンプリングのアルゴリズム概要
10
• もちろん上記の手順を実行するためには各確率変数の条件付き分布からの
サンプリングが可能でなければならない
(LDAの場合は条件付き分布が解析的に導出可能である)
• 𝑎, 𝑏, 𝑐はそれぞれベクトル(多次元)であっても構わない(その場合はブロック
化ギブスサンプリングと呼ばれる)
• 𝑎 𝑠 , 𝑏 𝑠 , 𝑐 𝑠
s=1
S
を利用して、例えば𝑝 𝑎, 𝑏, 𝑐|𝜃 に関する任意の関数
𝑓 𝑎, 𝑏, 𝑐 の期待値を近似することができる
𝑝 𝑎, 𝑏, 𝑐|𝜃 𝑓 𝑎, 𝑏, 𝑐 𝑑𝑎𝑑𝑏𝑑𝑐 ≈
1
𝑆
𝑓 𝑎 𝑠 , 𝑏 𝑠 , 𝑐 𝑠
𝑆
𝑠=1
• 実際は、上記のように𝑠 = 1から𝑆までの全てのサンプルを使わずに、初期値
に依存した最初の方のサンプルを捨てることがある
このサンプルを捨てる期間を破棄する期間(burn-in period)と呼ぶ
目次
11
• 前回の復習(条件付き独立性)
• ギブスサンプリングとは?
• 3.2.1節 ギブスサンプリング
• 3.2.2節 周辺化ギブスサンプリング
• 3.2.3節 LDAのギブスサンプリング
• 3.2.4節 LDAの周辺化ギブスサンプリング
ギブスサンプリングの動機
12
• LDAのベイズ推定では予測分布以前に事後分布のサンプル生成すら難しい
◎予測分布(積分計算が難しい)
𝑝 𝑤 𝑑
∗
𝒘, 𝜶, 𝜷 = 𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
, 𝒛, 𝜽, 𝝓 𝒘, 𝜶, 𝜷
𝒛𝑧 𝑑
∗
𝑑𝜽𝑑𝝓
= 𝑝 𝑤 𝑑
∗
𝝓 𝑧 𝑑
∗ 𝑝 𝑧 𝑑
∗
𝜽 𝑑 𝑝 𝒛, 𝜽, 𝝓 𝒘, 𝜶, 𝜷
𝒛𝑧 𝑑
∗
𝑑𝜽𝑑𝝓
◎事後分布からのサンプリングによる近似
(事後分布の導出が困難&サンプル生成が難しい)
𝑝 𝑤 𝑑
∗
𝒘, 𝜶, 𝜷 ≈
1
𝑆
𝑝 𝑤 𝑑
∗
𝝓 𝑧 𝑑
∗
𝑠
𝑝 𝑧 𝑑
∗
𝜽 𝑑
𝑠
𝑧 𝑑
∗
𝑆
𝑠=1
• LDAの場合、 𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠 を一度にサンプリングするのは難しいが、
𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠 をそれぞれ個別にサンプリングすることは容易である(条件付き
分布が解析的に導出可能である)
ギブスサンプリングによる近似が可能
条件付き分布の導出その1
13
◎𝑧 𝑑,𝑖について(𝑤 𝑑,𝑖 = 𝑣とする)
𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑
= 𝜙 𝑘,𝑣 𝜃 𝑑,𝑘
𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜽, 𝝓, 𝜶, 𝜷 = 1𝐾
𝑘=1 となるように正規化すると
𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜽, 𝝓, 𝜶, 𝜷 =
𝜙 𝑘,𝑣 𝜃 𝑑,𝑘
𝜙 𝑘′,𝑣 𝜃 𝑑,𝑘′
𝐾
𝑘′=1
条件付き分布の導出その2
14
◎𝜽 𝑑について
𝑝 𝜽 𝑑 𝒘, 𝒛, 𝜽−𝑑
, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑 𝜽 𝑑 𝑝 𝜽 𝑑 𝜶
∝ 𝜃 𝑘
𝛼 𝑘+𝑛 𝑑,𝑘−1
𝐾
𝑘=1
ここで𝑛 𝑑,𝑘は文書𝑑の中でトピック𝑘に属する単語の数とする
すなわち𝑛 𝑑,𝑘 = 𝛿 𝑧 𝑑,𝑖 = 𝑘
𝑛 𝑑
𝑖=1
上の式から𝑝 𝜽 𝑑 𝒘, 𝒛, 𝜽−𝑑
, 𝝓, 𝜶, 𝜷 はディリクレ分布の形をしているので
𝑝 𝜽 𝑑 𝒘, 𝒛, 𝜽−𝑑, 𝝓, 𝜶, 𝜷 = 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑 ,  𝒏 𝑑 = 𝑛 𝑑,1, ⋯ , 𝑛 𝑑,𝐾
条件付き分布の導出その3
15
◎𝝓 𝑘について
𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘
𝑧 𝑑,𝑖=𝑘
𝑝 𝝓 𝑘 𝜷
∝ 𝜙 𝑣
𝛽 𝑣+𝑛 𝑘,𝑣−1
𝑉
𝑣=1
ここで𝑛 𝑘,𝑣は全文書の中でトピック𝑘に属する単語𝑣の数とする
すなわち𝑛 𝑘,𝑣 = 𝛿 𝑧 𝑑,𝑖 = 𝑘, 𝑤 𝑑,𝑖 = 𝑣
𝑛 𝑑
𝑖=1
𝑀
𝑑=1
上の式から𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘
, 𝜶, 𝜷 はディリクレ分布の形をしているので
𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 = 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘 ,  𝒏 𝑘 = 𝑛 𝑘,1, ⋯ , 𝑛 𝑘,𝑉
条件付き分布の導出まとめ
16
• どの確率変数𝑧 𝑑,𝑖, 𝜽 𝑑, 𝝓 𝑘に関しても
事後分布
↓
結合分布(生成モデル)
↓
定数項を除外
のステップを踏むことにより条件付き事後分布を導出することができた
LDAのギブスサンプリングの擬似コード
17
• 以下に、LDAのギブスサンプリングの擬似コードを示す
• 𝜶, 𝜷の更新に関しては3.6節で取り扱う
Step1: 𝜶, 𝜷, 𝜽, 𝝓の初期値𝜶 0 , 𝜷 0 , 𝜽 0 , 𝝓 0 と正数𝑆を与える
Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す
全ての𝑧 𝑑,𝑖に対して𝑝 𝑧 𝑑,𝑖|𝑤 𝑑,𝑖, 𝜽 𝑑
𝑠−1
, 𝝓 𝑘
𝑠−1
から𝑧 𝑑,𝑖
𝑠
をサンプリング
全ての𝜽 𝑑に対して𝑝 𝜽 𝑑|𝒛 𝑑
𝑠
, 𝜶 から𝜽 𝑑
𝑠
をサンプリング
全ての𝝓 𝑘に対して𝑝 𝝓 𝑘 𝑤 𝑑,𝑖|𝑧 𝑑,𝑖
𝑠
= 𝑘 , 𝒛 𝑠 , 𝜷 から𝝓 𝑘
𝑠
をサンプリング
𝜶, 𝜷を更新する:𝜶 𝑠−1 , 𝜷 𝑠−1 → 𝜶 𝑠 , 𝜷 𝑠
目次
18
• 前回の復習(条件付き独立性)
• ギブスサンプリングとは?
• 3.2.1節 ギブスサンプリング
• 3.2.2節 周辺化ギブスサンプリング
• 3.2.3節 LDAのギブスサンプリング
• 3.2.4節 LDAの周辺化ギブスサンプリング
周辺化ギブスサンプリングの動機
19
• LDAのギブスサンプリングでは予測分布𝑝 𝑤 𝑑
∗
𝒘, 𝜶, 𝜷 を計算するために事後
分布から 𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠
𝑠=1
𝑆
をサンプリングした
• より効率的なサンプリング方法として、𝜽, 𝝓を積分消去(周辺化)して𝒛のみを
サンプリングする方法がある(逆は不可)
• この方法は周辺化ギブスサンプリングと呼ばれる
• 周辺化ギブスサンプリングでは以下のように予測分布を近似することになる
𝑝 𝑤 𝑑
∗
𝒘, 𝜶, 𝜷 = 𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
, 𝒛 𝒘, 𝜶, 𝜷
𝒛𝑧 𝑑
∗
= 𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
𝒘, 𝒛, 𝜶, 𝜷 𝑝 𝒛 𝒘, 𝜶, 𝜷
𝒛𝑧 𝑑
∗
≈
1
𝑆
𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
𝒘, 𝒛 𝑠
, 𝜶, 𝜷
𝑧 𝑑
∗
𝑆
𝑠=1
• 𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
𝒘, 𝒛, 𝜶, 𝜷 の具体的な形については次ページ以降で導出する
条件付き分布の導出その1
20
◎𝑧 𝑑,𝑖の条件付き分布のみを導出すればよい(𝑤 𝑑,𝑖 = 𝑣とする)
𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷
∝ 𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝑤 𝑑,𝑖, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
𝜶, 𝜷
= 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷
∝ 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷
= 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘
−𝑑,𝑖
𝑑𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑
−𝑑,𝑖
𝑑𝜽 𝑑
= 𝜙 𝑘,𝑣 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘
−𝑑,𝑖
𝑑𝝓 𝑘 𝜃 𝑑,𝑘 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑
−𝑑,𝑖
𝑑𝜽 𝑑
=
𝑛 𝑘,𝑣
−𝑑,𝑖
+ 𝛽𝑣
𝑛 𝑘,𝑣′
−𝑑,𝑖
+ 𝛽𝑣′
𝑉
𝑣′=1
𝑛 𝑑,𝑘
−𝑑,𝑖
+ 𝛼 𝑘
𝑛 𝑑,𝑘′
−𝑑,𝑖
+ 𝛼 𝑘′
𝐾
𝑘′=1
𝑛 𝑘,𝑣
−𝑑,𝑖
, 𝑛 𝑑,𝑘
−𝑑,𝑖
は𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘の計算から𝑧 𝑑,𝑖を
抜いたもの
ここの導出は次ページ
に記載
条件付き分布の導出その2
21
◎𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 の計算に関して
𝑝 𝑤 𝑑,𝑖, 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷
= 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝑝 𝑤 𝑑′,𝑖′ 𝝓 𝑘
𝑧 𝑑,𝑖=𝑘
𝑑′,𝑖′≠𝑑,𝑖
𝑝 𝝓 𝑘 𝜷 𝑑𝝓 𝑘 × 𝐹 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 ≠ 𝑘 , 𝒛
𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷
= 𝑝 𝑤 𝑑′,𝑖′ 𝝓 𝑘
𝑧 𝑑,𝑖=𝑘
𝑑′,𝑖′≠𝑑,𝑖
𝑝 𝝓 𝑘 𝜷 𝑑𝝓 𝑘 × 𝐹 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 ≠ 𝑘 , 𝒛
したがって
𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘
−𝑑,𝑖
𝑑𝝓 𝑘
条件付き分布の導出その3
22
◎𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 の計算に関して
𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷
= 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝑝 𝑧 𝑑,𝑖′ 𝜽 𝑑
𝑖′=𝑖
𝑝 𝜽 𝑑 𝜶 𝑑𝜽 𝑑 × 𝐹 𝑤−𝑑,𝑖, 𝒛−𝑑
𝑝 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷
= 𝑝 𝑧 𝑑,𝑖′ 𝜽 𝑑
𝑖′=𝑖
𝑝 𝜽 𝑑 𝜶 𝑑𝜽 𝑑 × 𝐹 𝑤−𝑑,𝑖
, 𝒛−𝑑
したがって
𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖
, 𝒛−𝑑,𝑖
, 𝜶, 𝜷 = 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝐷𝑖𝑟 𝜽 𝑑|𝜷 + 𝒏 𝑑
−𝑑,𝑖
𝑑𝜽 𝑑
予測分布の具体的な形
23
◎積み残しにしていた𝑝 𝑤 𝑑
∗
, 𝑧 𝑑
∗
𝒘, 𝒛, 𝜶, 𝜷 の具体的な形に関して
前ページまでの結果から
𝑝 𝑤 𝑑,𝑖 = 𝑣, 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷
= 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷
=
𝑛 𝑘,𝑣
−𝑑,𝑖
+ 𝛽𝑣
𝑛 𝑘,𝑣′
−𝑑,𝑖
+ 𝛽𝑣′
𝑉
𝑣′=1
𝑛 𝑑,𝑘
−𝑑,𝑖
+ 𝛼 𝑘
𝑛 𝑑,𝑘′
−𝑑,𝑖
+ 𝛼 𝑘′
𝐾
𝑘′=1
したがって
𝑝 𝑤 𝑑
∗
= 𝑣, 𝑧 𝑑
∗
= 𝑘 𝒘, 𝒛, 𝜶, 𝜷 =
𝑛 𝑘,𝑣 + 𝛽𝑣
𝑛 𝑘,𝑣′ + 𝛽𝑣′
𝑉
𝑣′=1
𝑛 𝑑,𝑘 + 𝛼 𝑘
𝑛 𝑑,𝑘′ + 𝛼 𝑘′
𝐾
𝑘′=1
LDAの周辺化ギブスサンプリングの擬似コード
24
• 以下に、LDAの周辺化ギブスサンプリングの擬似コードを示す
• 𝜶, 𝜷の更新に関しては3.6節で取り扱う
Step1: 𝜶, 𝜷, 𝒛の初期値 𝜶 0
, 𝜷 0
, 𝒛 0
(=𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘)と正数𝑆を与える
Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す
全ての𝑑, 𝑖 に対して以下を繰り返す
𝑛 𝑘,𝑣
−𝑑,𝑖
, 𝑛 𝑑,𝑘
−𝑑,𝑖
𝑘 = 1, ⋯ , 𝐾 を計算する
𝑛 𝑘,𝑣
−𝑑,𝑖
+𝛽 𝑣
𝑛
𝑘,𝑣′
−𝑑,𝑖
+𝛽 𝑣′
𝑉
𝑣′=1
𝑛 𝑑,𝑘
−𝑑,𝑖
+𝛼 𝑘
𝑛
𝑑,𝑘′
−𝑑,𝑖
+𝛼 𝑘′
𝐾
𝑘′=1
から𝑧 𝑑,𝑖
𝑠
をサンプリング
𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘を更新する
𝜶, 𝜷を更新する:𝜶 𝑠−1
, 𝜷 𝑠−1
→ 𝜶 𝑠
, 𝜷 𝑠

読書会 「トピックモデルによる統計的潜在意味解析」 第2回 3.2節 サンプリング近似法

  • 1.
  • 2.
    目次 2 • 前回の復習(条件付き独立性) • ギブスサンプリングとは? •3.2.1節 ギブスサンプリング • 3.2.2節 周辺化ギブスサンプリング • 3.2.3節 LDAのギブスサンプリング • 3.2.4節 LDAの周辺化ギブスサンプリング 今回は時間の都合上省略
  • 3.
    目次 3 • 前回の復習(条件付き独立性) • ギブスサンプリングとは? •3.2.1節 ギブスサンプリング • 3.2.2節 周辺化ギブスサンプリング • 3.2.3節 LDAのギブスサンプリング • 3.2.4節 LDAの周辺化ギブスサンプリング
  • 4.
    グラフィカルモデル? or 数式? 4 前回の@ksmznさんの資料から引用 •前回はグラフィカルモデルを参照して条件付き分布を導出した • 今回は数式から直接条件付き分布を導出してみる
  • 5.
    数式からの条件付き独立性の導出(p.22の図1.7) 5 𝑏 𝑎 𝑐 𝑎 𝑏 𝑐 𝑎 𝑏 𝑐 tail-to-tail head-to-tail head-to-head 𝑝𝑎, 𝑏, 𝑐 = 𝑝 𝑎|𝑐 𝑝 𝑏|𝑐 𝑝 𝑐 𝑝 𝑎, 𝑏|𝑐 ∝ 𝑝 𝑎 𝑐 𝑝 𝑏 𝑐 ⇒ 𝑎 ⊥ 𝑏|𝑐 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑏|𝑐 𝑝 𝑐|𝑎 𝑝 𝑎 𝑝 𝑎, 𝑏|𝑐 ∝ 𝑝 𝑏|𝑐 𝑝 𝑐|𝑎 𝑝 𝑎 ⇒ 𝑎 ⊥ 𝑏|𝑐 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑐|𝑎, 𝑏 𝑝 𝑎 𝑝 𝑏 𝑝 𝑎, 𝑏|𝑐 ∝ 𝑝 𝑐|𝑎, 𝑏 𝑝 𝑎 𝑝 𝑏 ⇒ 𝑎 ⊥ 𝑏|𝑐 グラフィカル モデル 数式 条件付き 独立性
  • 6.
    数式からの条件付き独立性の導出(p.35の図2.4) 6 𝜷𝜶 LDAの生成モデル 𝑝 𝑧 𝑑,𝑖|𝒘,𝒛−𝑑,𝑖, 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑 ⇒ 𝑝 𝑧 𝑑,𝑖|𝑤 𝑑,𝑖, 𝜽 𝑑, 𝝓 𝑝 𝜽 𝑑|𝒘, 𝒛, 𝜽−𝑑 , 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑|𝜽 𝑑 𝑝 𝜽 𝑑|𝜶 ⇒ 𝑝 𝜽 𝑑|𝒛 𝑑, 𝜶 𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 ∝ 𝑝 𝒘 𝒛, 𝝓 𝑝 𝝓 𝑘 𝜷 ⇒ 𝑝 𝝓 𝑘 𝒘, 𝒛, 𝝓−𝑘, 𝜷 𝝓 𝑘𝜽 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝐾𝑛 𝑑 𝑀 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑 𝑑,𝑖 𝑝 𝜽 𝑑 𝜶 𝑑 𝑝 𝝓 𝑘 𝜷 𝑘 各確率変数の条件付き分布を数式から 導出してみる 1段目と3段目の式に関しては 実際よりも冗長
  • 7.
    数式からの条件付き独立性の導出(p.35の図2.4) 7 𝜷𝜶 LDAの生成モデル 𝑝 𝑧 𝑑,𝑖= 𝑘|𝒘, 𝑧−𝑑,𝑖 , 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 ⇒ 𝑝 𝑧 𝑑,𝑖 = 𝑘|𝑤 𝑑,𝑖, 𝜽 𝑑, 𝝓 𝑘 𝑝 𝜽 𝑑|𝒘, 𝒛, 𝜽−𝑑, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑|𝜽 𝑑 𝑝 𝜽 𝑑|𝜶 ⇒ 𝑝 𝜽 𝑑|𝒛 𝑑, 𝜶 𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘 , 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝝓 𝑘 𝑧 𝑑,𝑖=𝑘 𝑝 𝝓 𝑘 𝜷 ⇒ 𝑝 𝝓 𝑘 𝑤 𝑑,𝑖|𝑧 𝑑,𝑖 = 𝑘 , 𝒛, 𝜷 𝝓 𝑘𝜽 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝐾𝑛 𝑑 𝑀 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 𝝓 𝑧 𝑑,𝑖 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑 𝑑,𝑖 𝑝 𝜽 𝑑 𝜶 𝑑 𝑝 𝝓 𝑘 𝜷 𝑘 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 = 𝑝 𝑤 𝑑,𝑖 𝝓 𝑧 𝑑,𝑖 という構造を既知とすると…
  • 8.
    目次 8 • 前回の復習(条件付き独立性) • ギブスサンプリングとは? •3.2.1節 ギブスサンプリング • 3.2.2節 周辺化ギブスサンプリング • 3.2.3節 LDAのギブスサンプリング • 3.2.4節 LDAの周辺化ギブスサンプリング
  • 9.
    ギブスサンプリングのアルゴリズム概要 9 例えば 𝑝 𝑎, 𝑏,𝑐|𝜃 から直接乱数を生成できないようなときでも、以下の手順(ギブスサンプリング)に よって上記分布からの乱数を生成することができる Step1: 𝑏, 𝑐の初期値𝑏 0 , 𝑐 0 と正数𝑆を与える Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す 𝑝 𝑎 𝑠 |𝑏 𝑠−1 , 𝑐 𝑠−1 , 𝜃 から𝑎 𝑠 をサンプリング 𝑝 𝑏 𝑠 |𝑎 𝑠 , 𝑐 𝑠−1 , 𝜃 から𝑏 𝑠 をサンプリング 𝑝 𝑐 𝑠 |𝑎 𝑠 , 𝑏 𝑠 , 𝜃 から𝑐 𝑠 をサンプリング 上記の手順によって生成された乱数が𝑝 𝑎, 𝑏, 𝑐|𝜃 に従う理論的説明は、例えば • 伊庭他(2005)、『計算統計Ⅱマルコフ連鎖モンテカルロ法とその周辺 (統計科学のフロンティア12)』、岩波書店 を参照
  • 10.
    ギブスサンプリングのアルゴリズム概要 10 • もちろん上記の手順を実行するためには各確率変数の条件付き分布からの サンプリングが可能でなければならない (LDAの場合は条件付き分布が解析的に導出可能である) • 𝑎,𝑏, 𝑐はそれぞれベクトル(多次元)であっても構わない(その場合はブロック 化ギブスサンプリングと呼ばれる) • 𝑎 𝑠 , 𝑏 𝑠 , 𝑐 𝑠 s=1 S を利用して、例えば𝑝 𝑎, 𝑏, 𝑐|𝜃 に関する任意の関数 𝑓 𝑎, 𝑏, 𝑐 の期待値を近似することができる 𝑝 𝑎, 𝑏, 𝑐|𝜃 𝑓 𝑎, 𝑏, 𝑐 𝑑𝑎𝑑𝑏𝑑𝑐 ≈ 1 𝑆 𝑓 𝑎 𝑠 , 𝑏 𝑠 , 𝑐 𝑠 𝑆 𝑠=1 • 実際は、上記のように𝑠 = 1から𝑆までの全てのサンプルを使わずに、初期値 に依存した最初の方のサンプルを捨てることがある このサンプルを捨てる期間を破棄する期間(burn-in period)と呼ぶ
  • 11.
    目次 11 • 前回の復習(条件付き独立性) • ギブスサンプリングとは? •3.2.1節 ギブスサンプリング • 3.2.2節 周辺化ギブスサンプリング • 3.2.3節 LDAのギブスサンプリング • 3.2.4節 LDAの周辺化ギブスサンプリング
  • 12.
    ギブスサンプリングの動機 12 • LDAのベイズ推定では予測分布以前に事後分布のサンプル生成すら難しい ◎予測分布(積分計算が難しい) 𝑝 𝑤𝑑 ∗ 𝒘, 𝜶, 𝜷 = 𝑝 𝑤 𝑑 ∗ , 𝑧 𝑑 ∗ , 𝒛, 𝜽, 𝝓 𝒘, 𝜶, 𝜷 𝒛𝑧 𝑑 ∗ 𝑑𝜽𝑑𝝓 = 𝑝 𝑤 𝑑 ∗ 𝝓 𝑧 𝑑 ∗ 𝑝 𝑧 𝑑 ∗ 𝜽 𝑑 𝑝 𝒛, 𝜽, 𝝓 𝒘, 𝜶, 𝜷 𝒛𝑧 𝑑 ∗ 𝑑𝜽𝑑𝝓 ◎事後分布からのサンプリングによる近似 (事後分布の導出が困難&サンプル生成が難しい) 𝑝 𝑤 𝑑 ∗ 𝒘, 𝜶, 𝜷 ≈ 1 𝑆 𝑝 𝑤 𝑑 ∗ 𝝓 𝑧 𝑑 ∗ 𝑠 𝑝 𝑧 𝑑 ∗ 𝜽 𝑑 𝑠 𝑧 𝑑 ∗ 𝑆 𝑠=1 • LDAの場合、 𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠 を一度にサンプリングするのは難しいが、 𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠 をそれぞれ個別にサンプリングすることは容易である(条件付き 分布が解析的に導出可能である) ギブスサンプリングによる近似が可能
  • 13.
    条件付き分布の導出その1 13 ◎𝑧 𝑑,𝑖について(𝑤 𝑑,𝑖= 𝑣とする) 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜽, 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 = 𝜙 𝑘,𝑣 𝜃 𝑑,𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜽, 𝝓, 𝜶, 𝜷 = 1𝐾 𝑘=1 となるように正規化すると 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖 = 𝑣, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜽, 𝝓, 𝜶, 𝜷 = 𝜙 𝑘,𝑣 𝜃 𝑑,𝑘 𝜙 𝑘′,𝑣 𝜃 𝑑,𝑘′ 𝐾 𝑘′=1
  • 14.
    条件付き分布の導出その2 14 ◎𝜽 𝑑について 𝑝 𝜽𝑑 𝒘, 𝒛, 𝜽−𝑑 , 𝝓, 𝜶, 𝜷 ∝ 𝑝 𝒛 𝑑 𝜽 𝑑 𝑝 𝜽 𝑑 𝜶 ∝ 𝜃 𝑘 𝛼 𝑘+𝑛 𝑑,𝑘−1 𝐾 𝑘=1 ここで𝑛 𝑑,𝑘は文書𝑑の中でトピック𝑘に属する単語の数とする すなわち𝑛 𝑑,𝑘 = 𝛿 𝑧 𝑑,𝑖 = 𝑘 𝑛 𝑑 𝑖=1 上の式から𝑝 𝜽 𝑑 𝒘, 𝒛, 𝜽−𝑑 , 𝝓, 𝜶, 𝜷 はディリクレ分布の形をしているので 𝑝 𝜽 𝑑 𝒘, 𝒛, 𝜽−𝑑, 𝝓, 𝜶, 𝜷 = 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑 ,  𝒏 𝑑 = 𝑛 𝑑,1, ⋯ , 𝑛 𝑑,𝐾
  • 15.
    条件付き分布の導出その3 15 ◎𝝓 𝑘について 𝑝 𝝓𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝑧 𝑑,𝑖=𝑘 𝑝 𝝓 𝑘 𝜷 ∝ 𝜙 𝑣 𝛽 𝑣+𝑛 𝑘,𝑣−1 𝑉 𝑣=1 ここで𝑛 𝑘,𝑣は全文書の中でトピック𝑘に属する単語𝑣の数とする すなわち𝑛 𝑘,𝑣 = 𝛿 𝑧 𝑑,𝑖 = 𝑘, 𝑤 𝑑,𝑖 = 𝑣 𝑛 𝑑 𝑖=1 𝑀 𝑑=1 上の式から𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘 , 𝜶, 𝜷 はディリクレ分布の形をしているので 𝑝 𝝓 𝑘 𝒘, 𝒛, 𝜽, 𝝓−𝑘, 𝜶, 𝜷 = 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘 ,  𝒏 𝑘 = 𝑛 𝑘,1, ⋯ , 𝑛 𝑘,𝑉
  • 16.
    条件付き分布の導出まとめ 16 • どの確率変数𝑧 𝑑,𝑖,𝜽 𝑑, 𝝓 𝑘に関しても 事後分布 ↓ 結合分布(生成モデル) ↓ 定数項を除外 のステップを踏むことにより条件付き事後分布を導出することができた
  • 17.
    LDAのギブスサンプリングの擬似コード 17 • 以下に、LDAのギブスサンプリングの擬似コードを示す • 𝜶,𝜷の更新に関しては3.6節で取り扱う Step1: 𝜶, 𝜷, 𝜽, 𝝓の初期値𝜶 0 , 𝜷 0 , 𝜽 0 , 𝝓 0 と正数𝑆を与える Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す 全ての𝑧 𝑑,𝑖に対して𝑝 𝑧 𝑑,𝑖|𝑤 𝑑,𝑖, 𝜽 𝑑 𝑠−1 , 𝝓 𝑘 𝑠−1 から𝑧 𝑑,𝑖 𝑠 をサンプリング 全ての𝜽 𝑑に対して𝑝 𝜽 𝑑|𝒛 𝑑 𝑠 , 𝜶 から𝜽 𝑑 𝑠 をサンプリング 全ての𝝓 𝑘に対して𝑝 𝝓 𝑘 𝑤 𝑑,𝑖|𝑧 𝑑,𝑖 𝑠 = 𝑘 , 𝒛 𝑠 , 𝜷 から𝝓 𝑘 𝑠 をサンプリング 𝜶, 𝜷を更新する:𝜶 𝑠−1 , 𝜷 𝑠−1 → 𝜶 𝑠 , 𝜷 𝑠
  • 18.
    目次 18 • 前回の復習(条件付き独立性) • ギブスサンプリングとは? •3.2.1節 ギブスサンプリング • 3.2.2節 周辺化ギブスサンプリング • 3.2.3節 LDAのギブスサンプリング • 3.2.4節 LDAの周辺化ギブスサンプリング
  • 19.
    周辺化ギブスサンプリングの動機 19 • LDAのギブスサンプリングでは予測分布𝑝 𝑤𝑑 ∗ 𝒘, 𝜶, 𝜷 を計算するために事後 分布から 𝒛 𝑠 , 𝜽 𝑠 , 𝝓 𝑠 𝑠=1 𝑆 をサンプリングした • より効率的なサンプリング方法として、𝜽, 𝝓を積分消去(周辺化)して𝒛のみを サンプリングする方法がある(逆は不可) • この方法は周辺化ギブスサンプリングと呼ばれる • 周辺化ギブスサンプリングでは以下のように予測分布を近似することになる 𝑝 𝑤 𝑑 ∗ 𝒘, 𝜶, 𝜷 = 𝑝 𝑤 𝑑 ∗ , 𝑧 𝑑 ∗ , 𝒛 𝒘, 𝜶, 𝜷 𝒛𝑧 𝑑 ∗ = 𝑝 𝑤 𝑑 ∗ , 𝑧 𝑑 ∗ 𝒘, 𝒛, 𝜶, 𝜷 𝑝 𝒛 𝒘, 𝜶, 𝜷 𝒛𝑧 𝑑 ∗ ≈ 1 𝑆 𝑝 𝑤 𝑑 ∗ , 𝑧 𝑑 ∗ 𝒘, 𝒛 𝑠 , 𝜶, 𝜷 𝑧 𝑑 ∗ 𝑆 𝑠=1 • 𝑝 𝑤 𝑑 ∗ , 𝑧 𝑑 ∗ 𝒘, 𝒛, 𝜶, 𝜷 の具体的な形については次ページ以降で導出する
  • 20.
    条件付き分布の導出その1 20 ◎𝑧 𝑑,𝑖の条件付き分布のみを導出すればよい(𝑤 𝑑,𝑖= 𝑣とする) 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝑤 𝑑,𝑖, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 ∝ 𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝑤 𝑑,𝑖, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 ∝ 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘 −𝑑,𝑖 𝑑𝝓 𝑘 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑 −𝑑,𝑖 𝑑𝜽 𝑑 = 𝜙 𝑘,𝑣 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘 −𝑑,𝑖 𝑑𝝓 𝑘 𝜃 𝑑,𝑘 𝐷𝑖𝑟 𝜽 𝑑|𝜶 + 𝒏 𝑑 −𝑑,𝑖 𝑑𝜽 𝑑 = 𝑛 𝑘,𝑣 −𝑑,𝑖 + 𝛽𝑣 𝑛 𝑘,𝑣′ −𝑑,𝑖 + 𝛽𝑣′ 𝑉 𝑣′=1 𝑛 𝑑,𝑘 −𝑑,𝑖 + 𝛼 𝑘 𝑛 𝑑,𝑘′ −𝑑,𝑖 + 𝛼 𝑘′ 𝐾 𝑘′=1 𝑛 𝑘,𝑣 −𝑑,𝑖 , 𝑛 𝑑,𝑘 −𝑑,𝑖 は𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘の計算から𝑧 𝑑,𝑖を 抜いたもの ここの導出は次ページ に記載
  • 21.
    条件付き分布の導出その2 21 ◎𝑝 𝑤 𝑑,𝑖𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 の計算に関して 𝑝 𝑤 𝑑,𝑖, 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝑝 𝑤 𝑑′,𝑖′ 𝝓 𝑘 𝑧 𝑑,𝑖=𝑘 𝑑′,𝑖′≠𝑑,𝑖 𝑝 𝝓 𝑘 𝜷 𝑑𝝓 𝑘 × 𝐹 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 ≠ 𝑘 , 𝒛 𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 = 𝑝 𝑤 𝑑′,𝑖′ 𝝓 𝑘 𝑧 𝑑,𝑖=𝑘 𝑑′,𝑖′≠𝑑,𝑖 𝑝 𝝓 𝑘 𝜷 𝑑𝝓 𝑘 × 𝐹 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 ≠ 𝑘 , 𝒛 したがって 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝝓 𝑘 𝐷𝑖𝑟 𝝓 𝑘|𝜷 + 𝒏 𝑘 −𝑑,𝑖 𝑑𝝓 𝑘
  • 22.
    条件付き分布の導出その3 22 ◎𝑝 𝑧 𝑑,𝑖= 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 の計算に関して 𝑝 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 = 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝑝 𝑧 𝑑,𝑖′ 𝜽 𝑑 𝑖′=𝑖 𝑝 𝜽 𝑑 𝜶 𝑑𝜽 𝑑 × 𝐹 𝑤−𝑑,𝑖, 𝒛−𝑑 𝑝 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 = 𝑝 𝑧 𝑑,𝑖′ 𝜽 𝑑 𝑖′=𝑖 𝑝 𝜽 𝑑 𝜶 𝑑𝜽 𝑑 × 𝐹 𝑤−𝑑,𝑖 , 𝒛−𝑑 したがって 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖 , 𝒛−𝑑,𝑖 , 𝜶, 𝜷 = 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝜽 𝑑 𝐷𝑖𝑟 𝜽 𝑑|𝜷 + 𝒏 𝑑 −𝑑,𝑖 𝑑𝜽 𝑑
  • 23.
    予測分布の具体的な形 23 ◎積み残しにしていた𝑝 𝑤 𝑑 ∗ ,𝑧 𝑑 ∗ 𝒘, 𝒛, 𝜶, 𝜷 の具体的な形に関して 前ページまでの結果から 𝑝 𝑤 𝑑,𝑖 = 𝑣, 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 = 𝑝 𝑤 𝑑,𝑖 = 𝑣 𝑧 𝑑,𝑖 = 𝑘, 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 𝑝 𝑧 𝑑,𝑖 = 𝑘 𝒘−𝑑,𝑖, 𝒛−𝑑,𝑖, 𝜶, 𝜷 = 𝑛 𝑘,𝑣 −𝑑,𝑖 + 𝛽𝑣 𝑛 𝑘,𝑣′ −𝑑,𝑖 + 𝛽𝑣′ 𝑉 𝑣′=1 𝑛 𝑑,𝑘 −𝑑,𝑖 + 𝛼 𝑘 𝑛 𝑑,𝑘′ −𝑑,𝑖 + 𝛼 𝑘′ 𝐾 𝑘′=1 したがって 𝑝 𝑤 𝑑 ∗ = 𝑣, 𝑧 𝑑 ∗ = 𝑘 𝒘, 𝒛, 𝜶, 𝜷 = 𝑛 𝑘,𝑣 + 𝛽𝑣 𝑛 𝑘,𝑣′ + 𝛽𝑣′ 𝑉 𝑣′=1 𝑛 𝑑,𝑘 + 𝛼 𝑘 𝑛 𝑑,𝑘′ + 𝛼 𝑘′ 𝐾 𝑘′=1
  • 24.
    LDAの周辺化ギブスサンプリングの擬似コード 24 • 以下に、LDAの周辺化ギブスサンプリングの擬似コードを示す • 𝜶,𝜷の更新に関しては3.6節で取り扱う Step1: 𝜶, 𝜷, 𝒛の初期値 𝜶 0 , 𝜷 0 , 𝒛 0 (=𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘)と正数𝑆を与える Step2: 𝑠 = 1, ⋯ , 𝑆に対して以下を繰り返す 全ての𝑑, 𝑖 に対して以下を繰り返す 𝑛 𝑘,𝑣 −𝑑,𝑖 , 𝑛 𝑑,𝑘 −𝑑,𝑖 𝑘 = 1, ⋯ , 𝐾 を計算する 𝑛 𝑘,𝑣 −𝑑,𝑖 +𝛽 𝑣 𝑛 𝑘,𝑣′ −𝑑,𝑖 +𝛽 𝑣′ 𝑉 𝑣′=1 𝑛 𝑑,𝑘 −𝑑,𝑖 +𝛼 𝑘 𝑛 𝑑,𝑘′ −𝑑,𝑖 +𝛼 𝑘′ 𝐾 𝑘′=1 から𝑧 𝑑,𝑖 𝑠 をサンプリング 𝑛 𝑘,𝑣, 𝑛 𝑑,𝑘を更新する 𝜶, 𝜷を更新する:𝜶 𝑠−1 , 𝜷 𝑠−1 → 𝜶 𝑠 , 𝜷 𝑠