トピックモデル3章後半
- 9. 周辺尤度
• 文書毎のトピックの集合を𝒛 = {𝑧1, 𝑧2, … , 𝑧 𝐷}
• パラメータをまとめたものを𝚿 = {𝜽, 𝚽}として
• 文書集合𝑾の生起確率𝑝 𝑾 をパラメータ𝚿, 隠れ変数𝐳
に関して積分消去した周辺尤度の最大化を考える.
𝑝 𝑾 =
𝑍
𝑝 𝑾, 𝒛, 𝚿 𝑑𝚿
8
- 10. 変分事後分布と変分下限
•変分事後分布 𝑞 𝒛, 𝚿
•変分下限𝐹
(3.10)式により導かれる対数周辺尤度の下限
9
計算を簡単化するために因子分解
𝑞 𝒛, 𝚿 = 𝑞 𝒛 𝑞(𝚿)
log 𝑝 𝑾 ≥ 𝐹 ≡
𝑍
𝑞 𝒛, 𝚿 log
𝑝 𝑾, 𝒛, 𝚿
𝑞 𝒛, 𝚿
𝑑𝚿
(3.11)
- 12. 変分事後分布の推定(1)
• 𝐹を最大化する𝑞 𝒛 , 𝑞(𝚿)をラグランジュの
未定乗数法を用いて計算すると以下のようにな
る.
•生成過程から同時確率は以下の式で表せる.
11
𝑞(𝒛) ∝ exp(𝑬 𝑞 𝚿 [log 𝑝(𝑾, 𝒛, 𝚿)])
𝑞(𝚿) ∝ exp(𝑬 𝑞 𝒛 [log 𝑝(𝑾, 𝒛, 𝚿)])
(3.13)
(3.15)
𝑝 𝑾, 𝒛, 𝚿 = p 𝐳 𝜽 p 𝜽 𝜶 p 𝐖 𝐳, 𝚽 p(𝚽|𝜷) (3.16)
- 14. 変分事後分布の推定(3) 13
𝑞 𝑑𝑘 ∝
exp(Ψ 𝛼 𝑘 − Ψ
𝑘′=1
𝐾
𝛼 𝑘′ +
𝑣=1
𝑉
𝑁𝑑𝑣 Ψ 𝛽 𝑘𝑣 − 𝑁𝑑Ψ(
𝑣=1
𝑉
𝛽 𝑘𝑣))
(3.22)
トピックの変分事後分布をもとに文書dのトピックがk
である確率 𝑞 𝑑𝑘を計算
- 18. ギブスサンプリング 17
MCMCの一種
文書のトピックの系列𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷 のうち𝑧 𝑑を𝑧 𝑑以
外の変数がわかったもとでの条件付き確率でサンプリン
グすることを全ての𝑑について行い, サンプリングしたト
ピックの系列からパラメータを推定
本章では, パラメータ𝜃, Φを積分消去する
崩壊型ギブスサンプリングを考える
- 23. サンプリング 22
𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷
サンプリングする変数
𝑧1~𝑝 𝑧1 |𝑧2, … , 𝑧 𝐷, 𝑊 3.5.3節で導出
𝑑 = 1の例
𝑑を増やして, 全ての文書のトピックをサンプリング
- 24. 周辺化した因子ごとの計算 23
𝑝 𝑾, 𝒛, 𝛼, 𝛽 = 𝑝 𝒛 𝛼)𝑝(𝑾|𝒛, 𝛽) ←生成モデルによる分解
𝑝 𝒛 𝛼 = 𝑝 𝒛 𝜽 𝑝 𝜽 𝛼 𝑑𝜽
=
Γ 𝛼𝐾
Γ 𝛼 𝐾
𝑘=1
𝐾
Γ(𝐷 𝑘 + 𝛼)
Γ(𝐷 + 𝛼𝐾)
𝑝(𝑾|𝒛, 𝛽) = 𝑝(𝑾|𝒛, 𝚽) 𝑝 𝚽 𝛽 𝑑Φ
=
Γ 𝛽𝑉 𝐾
Γ 𝛽 𝑉𝐾
𝑘=1
𝐾
𝑣=1
𝑉
Γ(𝑁𝑘𝑉 + 𝛽)
Γ(𝑁𝑘 + 𝛽𝑉)
𝐷 𝑘:
トピックが𝑘の文書数
𝑁𝑘𝑣:
トピックが𝑘中の語彙𝑣の出現回数
𝑁𝑘:
トピックが𝑘の単語数
- 25. サンプリング式 24
𝑝 𝑧 𝑑 = 𝑘|𝑊, 𝑧|𝑑, 𝛼, 𝛽
∝ 𝐷 𝑘|𝑑 + 𝛼
Γ 𝑁𝑘|𝑑 + 𝛽𝑉
Γ 𝑁𝑘|𝑑 + 𝑁𝑑 − 𝛽𝑉
𝑣:𝑁 𝑑𝑣>0
Γ 𝑁𝑘𝑣|𝑑 + 𝑁𝑑𝑣 + 𝛽
Γ 𝑁𝑘𝑣|𝑑 + 𝛽
(3.27)
※ |𝑑 は文書dを除いた時の値を表す.
- 26. ハイパーパラメータの更新 25
𝛼 𝑛𝑒𝑤 = 𝛼
𝑘=1
𝐾
Ψ 𝐷 𝑘 + 𝛼 − 𝐾Ψ(𝛼)
𝐾Ψ 𝐷 + 𝛼𝐾 − 𝐾Ψ(𝛼𝐾)
(3.28)
𝛽 𝑛𝑒𝑤 =
𝑘=1
𝐾
𝑣=1
𝑉
Ψ 𝑁𝑘𝑣 + 𝛽 − 𝐾VΨ(𝛽)
V 𝑣=1
𝑉
Ψ 𝑁𝑘 + 𝛽𝑉 − 𝐾𝑉Ψ(𝛽𝑉)
(3.29)
𝐷 𝑘, 𝑁𝑘, 𝑁𝑘𝑣をトピックのサンプリング分布から計算し,
(3.28), (3.29)式について, 不動点反復法を用いて計算
- 32. 文書モデルを表現するためのパラメータ
記号 説明
𝑑 文書インデックス (1 ≤ 𝑑 ≤ 𝐷) D : 文書数
𝑁 𝑑 文書dの文書長(=含まれる単語数)
𝑾 文書集合 𝑾 = {𝑤1, 𝑤2, … , 𝑤 𝑑}
𝑤 𝑑 文書𝑑の単語集号
𝑤 𝑑𝑛 文書𝑑の𝑛番目の単語 (1 ≤ 𝑛 ≤ 𝑁 𝑑)
𝑣 語彙インデックス (1 ≤ 𝑣 ≤ 𝑉) V : 語彙数
𝑛 単語インデックス (1 ≤ 𝑛 ≤ 𝑁) N : 単語数
𝑁 𝑣 𝑾全体での語彙𝑣の出現回数
𝑁 𝑑𝑣 文書𝑑における語彙𝑣の出現回数
𝑘 トピックインデックス (1 ≤ 𝑘 ≤ 𝐾) K : トピック数
𝑧 𝑑 文書𝑑のトピック
31
Editor's Notes
- まず3章の内容に関して, 全体の流れをもう1度確認しておきますと,
3章まず最初に文章のトピックを考慮できる混合ユニグラムモデルというモデルが登場しました。
混合ユニグラムモデルについても, トピック毎の単語の正規確率などを調べるためにモデルのパラメータを推定を行いたいのですが, 2章で紹介されていた単純な最尤推定や事後分布を解析的に求める手法では計算がうまくできないということで, 近似的にパラメータや事後分布を求める手法である, EMアルゴリズム, 変分ベイズ推定, ギブスサンプリングと呼ばれる手法について紹介しています.
- アルファ, ベータ: ハイパーパラメータ
ファイ, シータ: パラメータ
z:
- ここまでが前にやってたことの復習
- ユニグラムモデルでは単語の生起確率ファイだけだったが混合ユニグラムモデルではトピック毎の単語の生起確率やトピックの生起確率のパラメータも考える
- 同時確率と周辺確率を比較
- p42 3.4.2
生成過程による同時確率の変形はグラフィカルモデルを見るとわかりやすい.
因子分解について、3.15に3.16を代入, 指数法則によって分解した3.17式よりthetaの成分とphiの成分に分解できている
- アルファ, ベータ: ハイパーパラメータ
ファイ, シータ: パラメータ
z:
- アルファ, ベータ: ハイパーパラメータ
ファイ, シータ: パラメータ
z:
- これがサンプリングの1STEP
サンプリングでした文書トピックをもとにハイパーパラメータを計算
再びサンプリングという流れを繰り返す
- 導出は2.9節と同様