トピックモデル3章後半

トピックモデル
3章後半
S5 研究室 M1 三原秀司

3章後半の内容
•3.1 混合ユニグラムモデル
•3.2 混合モデル
•3.3 EMアルゴリズム
•3.4 変分ベイズ推定 (pp.40-48)
•3.5 ギブスサンプリング(pp.49-54)
1
パラメータ推定手法

混合ユニグラムモデルのグラフィカルモデル2
𝛼
𝛽
𝑤𝑧𝜃
𝑁𝑑
𝐷
𝜙
𝐾

混合ユニグラムモデルの定式化
記号意味
𝜽 各トピックの生起確率を表すカテゴリ分布
𝝓 𝒌 トピック𝑘における単語の生起確率を表すカテゴリ分布
𝚽 全トピックの単語の生起確率の集合
3
𝜽, 𝝓 𝒌 はカテゴリ分布の共役事前分布によって生成され
る.
パラメータ(母数)である𝜽, 𝚽 を調べることで
文章集合の特徴がわかる！
どんなトピックがよく出てくる？
どんな単語が同じトピックに属する？

パラメータの推定法
• 2章で扱ったもの
• 最尤推定
• 最大事後確率推定
• ベイズ推定
• 本章で扱うもの
• EMアルゴリズム
• 変分ベイズ法
• ギブスサンプリング (MCMCの一種)
4
点推定
分布推定

点推定と分布推定(2.4～2.5の内容) 5
点推定
最尤推定などのパラメータを1点で推定する方法
分布推定(区間推定)
パラメータを分布として推定する手法
パラメータ変換に対して不変
事前分布の仮定に主観が含まれる

変分ベイズ推定とMCMC 6
混合ユニグラムモデルではパラメータの次元が
高いため解析的に事後分布が求まらない.
反復法を用いて事後分布を近似計算
＝変分ベイズ推定(3.4節)
真の事後分布からの乱数をサンプリングし,
期待値を用いて計算
＝マルコフ連鎖モンテカルロ法(3.5節)

変分ベイズ推定のアルゴリズムの概要 7
推定するもの
変分事後分布 𝑞 𝑑𝑘 = 𝑞 𝑧 𝑑 = 𝑘
詳しいアルゴリズムはp45 図3.2を参照
ハイパーパラメータ
𝛼, 𝛽を更新
変分事後分布
𝑞 𝑑𝑘を更新
終了条件を満たす
まで繰り返し

周辺尤度
• 文書毎のトピックの集合を𝒛 = {𝑧1, 𝑧2, … , 𝑧 𝐷}
• パラメータをまとめたものを𝚿 = {𝜽, 𝚽}として
• 文書集合𝑾の生起確率𝑝 𝑾 をパラメータ𝚿, 隠れ変数𝐳
に関して積分消去した周辺尤度の最大化を考える.
𝑝 𝑾 =
𝑍
𝑝 𝑾, 𝒛, 𝚿 𝑑𝚿
8

変分事後分布と変分下限
•変分事後分布 𝑞 𝒛, 𝚿
•変分下限𝐹
(3.10)式により導かれる対数周辺尤度の下限
9
計算を簡単化するために因子分解
𝑞 𝒛, 𝚿 = 𝑞 𝒛 𝑞(𝚿)
log 𝑝 𝑾 ≥ 𝐹 ≡
𝑍
𝑞 𝒛, 𝚿 log
𝑝 𝑾, 𝒛, 𝚿
𝑞 𝒛, 𝚿
𝑑𝚿
(3.11)

変分ベイズ推定の原理
• 対数周辺尤度log 𝑝(𝑾)と変分下限Fの差は変分事後分
布𝑞 𝒛, 𝚿 と真の事後分布p 𝒛, 𝚿|𝑾 のKLダイバー
ジェンスとなる. (p.41 下部)
• 従って, 変分下限Fを最大化することで変分事後分布と
真の事後分布とのKLダイバージェンスが最小となる.
10
KLダイバージェンス :
2つの確率密度関数がどれだけ違うかの指標
＝
変分事後分布が真の事後分布の近似となる

変分事後分布の推定(1)
• 𝐹を最大化する𝑞 𝒛 , 𝑞(𝚿)をラグランジュの
未定乗数法を用いて計算すると以下のようにな
る.
•生成過程から同時確率は以下の式で表せる.
11
𝑞(𝒛) ∝ exp(𝑬 𝑞 𝚿 [log 𝑝(𝑾, 𝒛, 𝚿)])
𝑞(𝚿) ∝ exp(𝑬 𝑞 𝒛 [log 𝑝(𝑾, 𝒛, 𝚿)])
(3.13)
(3.15)
𝑝 𝑾, 𝒛, 𝚿 = p 𝐳 𝜽 p 𝜽 𝜶 p 𝐖 𝐳, 𝚽 p(𝚽|𝜷) (3.16)

変分事後分布の推定(2) 12
それぞれのパラメータに対しての変分事後分布を計算する
𝑞 𝜃 ∝ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝜃|𝛼1, … , 𝛼 𝑘)
(𝛼 𝑘 = 𝛼 + 𝑑=1
𝐷
𝑞 𝑑𝑘)
𝑞 Φ =
𝑘=1
𝐾
𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝜙 𝑘|𝛽 𝑘1, … , 𝛽 𝑘𝑉)
(𝛽 𝑘 = 𝛽 + 𝑑=1
𝐷
𝑞 𝑑𝑘 𝑁𝑑𝑐)
(3.19)
(3.20)
ハイパーパラメータの更新式

変分事後分布の推定（3） 13
𝑞 𝑑𝑘 ∝
exp(Ψ 𝛼 𝑘 − Ψ
𝑘′=1
𝐾
𝛼 𝑘′ +
𝑣=1
𝑉
𝑁𝑑𝑣 Ψ 𝛽 𝑘𝑣 − 𝑁𝑑Ψ(
𝑣=1
𝑉
𝛽 𝑘𝑣))
(3.22)
トピックの変分事後分布をもとに文書dのトピックがk
である確率 𝑞 𝑑𝑘を計算

変分下限とモデルエビデンス 14
また, モデル空間での周辺尤度を考えることにより, モデル
選択が可能(2.8節)
実際には周辺尤度の計算は困難なため周辺尤度の近似とし
て変分下限を用いる.
モデルエビデンス
変分下限は変分事後分布の計算の際に減少しないため, 変
分下限を計算することで変分ベイズのアルゴリズムが適
切に動作しているかを確認可能

変分ベイズ推定のアルゴリズムの概要(再
掲) 15
推定するもの
変分事後分布 𝑞 𝑑𝑘 = 𝑞 𝑧 𝑑 = 𝑘
詳しいアルゴリズムはp45 図3.2を参照
𝛼, 𝛽を更新
変分事後分布
𝑞 𝑑𝑘を更新
まで繰り返し

MCMC(マルコフ連鎖モンテカルロ法) 16
一般的に事後分布は解析的に求まらない
計算資源が無限にあれば, 真の事後分布
からのサンプリングは可能
サンプリング事例から経験分布および期待値を計算

ギブスサンプリング 17
MCMCの一種
文書のトピックの系列𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷 のうち𝑧 𝑑を𝑧 𝑑以
外の変数がわかったもとでの条件付き確率でサンプリン
グすることを全ての𝑑について行い, サンプリングしたト
ピックの系列からパラメータを推定
本章では, パラメータ𝜃, Φを積分消去する
崩壊型ギブスサンプリングを考える

𝛼
𝛽
𝑤𝑧𝜃
𝑁𝑑
𝐷
𝜙
𝐾

パラメータを周辺化した
𝛼
𝛽
𝑤𝑧
𝑁𝑑
𝐷

崩壊型ギブスサンプリングのアルゴリズムの
概要 20
推定するもの
事後分布からのサンプリング系列𝐙(s)
詳しいアルゴリズムはp53 アルゴリズム3.3を参照
𝛼, 𝛽を更新
まで繰り返しサンプリング確率を更新し,
トピックをサンプリング
カウント𝐷 𝑘, 𝑁𝑘𝑣, 𝑁𝑘を更新

ギブスサンプリングを用いた
2変量ガウス分布の乱数生成 21

サンプリング 22
𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷
サンプリングする変数
𝑧1~𝑝 𝑧1 |𝑧2, … , 𝑧 𝐷, 𝑊 3.5.3節で導出
𝑑 = 1の例
𝑑を増やして, 全ての文書のトピックをサンプリング

周辺化した因子ごとの計算 23
𝑝 𝑾, 𝒛, 𝛼, 𝛽 = 𝑝 𝒛 𝛼)𝑝(𝑾|𝒛, 𝛽) ←生成モデルによる分解
𝑝 𝒛 𝛼 = 𝑝 𝒛 𝜽 𝑝 𝜽 𝛼 𝑑𝜽
=
Γ 𝛼𝐾
Γ 𝛼 𝐾
𝑘=1
𝐾
Γ(𝐷 𝑘 + 𝛼)
Γ(𝐷 + 𝛼𝐾)
𝑝(𝑾|𝒛, 𝛽) = 𝑝(𝑾|𝒛, 𝚽) 𝑝 𝚽 𝛽 𝑑Φ
=
Γ 𝛽𝑉 𝐾
Γ 𝛽 𝑉𝐾
𝑘=1
𝐾
𝑣=1
𝑉
Γ(𝑁𝑘𝑉 + 𝛽)
Γ(𝑁𝑘 + 𝛽𝑉)
𝐷 𝑘:
トピックが𝑘の文書数
𝑁𝑘𝑣:
トピックが𝑘中の語彙𝑣の出現回数
𝑁𝑘:
トピックが𝑘の単語数

ハイパーパラメータの更新 25
𝛼 𝑛𝑒𝑤 = 𝛼
𝑘=1
𝐾
Ψ 𝐷 𝑘 + 𝛼 − 𝐾Ψ(𝛼)
𝐾Ψ 𝐷 + 𝛼𝐾 − 𝐾Ψ(𝛼𝐾)
(3.28)
𝛽 𝑛𝑒𝑤 =
𝑘=1
𝐾
𝑣=1
𝑉
Ψ 𝑁𝑘𝑣 + 𝛽 − 𝐾VΨ(𝛽)
V 𝑣=1
𝑉
Ψ 𝑁𝑘 + 𝛽𝑉 − 𝐾𝑉Ψ(𝛽𝑉)
(3.29)
𝐷 𝑘, 𝑁𝑘, 𝑁𝑘𝑣をトピックのサンプリング分布から計算し,
(3.28), (3.29)式について, 不動点反復法を用いて計算

不動点反復法 26
2𝑥 − 3𝑥2
= 0 ⇔ 𝑥 = −3𝑥(𝑥 − 1)

ギブスサンプリングのアルゴリズムの概要
(再掲) 27
推定するもの
事後分布からのサンプリング系列𝐙(s)
詳しいアルゴリズムはp53 アルゴリズム3.3を参照
𝛼, 𝛽を更新
まで繰り返しサンプリング確率を更新し,
トピックをサンプリング
カウント𝐷 𝑘, 𝑁𝑘𝑣, 𝑁𝑘を更新

積分消去したパラメータの計算 28
𝜃 𝑘 =
𝐷 𝑘 + 𝛼
𝐷 + 𝛼𝐾
𝜙 𝑘𝑉 =
𝑁𝑘𝑣 + 𝛽
𝑁𝑘 + 𝛽𝑉
積分消去したパラメータは以下のようにカウントから計算される.

さまざまなパラメータ推定手法
• 崩壊型変分ベイズ法
• 確率的EMアルゴリズム
• ハードEMアルゴリズム
• 全パラメータを推定するMCMC
29
トピック𝒁 𝒅 トピック分布𝜽 単語分布𝚽
EMアルゴリズム分布推定点推定点推定
変分ベイズ推定分布推定分布推定分布推定
崩壊型
ギブスサンプリング
サンプリング積分消去積分消去
その他のパラメータ推定手法

参考図書
アルゴリズムの導出全般
・佐藤一誠奥村学 ”トピックモデルによる統計的潜在意味解析”
変分ベイズ
・PRML10章変分推論法
・上田修功 “ベイズ学習” 電子情報通信学会誌 No85
(CiNiiから閲覧可)
・持橋大地 “自然言語処理のための変分ベイズ法”
ギブスサンプリング(MCMC)
・PRML11章サンプリング法
・久保拓弥 “データ解析のための統計モデリング”
30

文書モデルを表現するためのパラメータ
記号説明
𝑑 文書インデックス (1 ≤ 𝑑 ≤ 𝐷) D : 文書数
𝑁 𝑑 文書dの文書長(=含まれる単語数)
𝑾 文書集合 𝑾 = {𝑤1, 𝑤2, … , 𝑤 𝑑}
𝑤 𝑑 文書𝑑の単語集号
𝑤 𝑑𝑛 文書𝑑の𝑛番目の単語 (1 ≤ 𝑛 ≤ 𝑁 𝑑)
𝑣 語彙インデックス (1 ≤ 𝑣 ≤ 𝑉) V : 語彙数
𝑛 単語インデックス (1 ≤ 𝑛 ≤ 𝑁) N : 単語数
𝑁 𝑣 𝑾全体での語彙𝑣の出現回数
𝑁 𝑑𝑣 文書𝑑における語彙𝑣の出現回数
𝑘 トピックインデックス (1 ≤ 𝑘 ≤ 𝐾) K : トピック数
𝑧 𝑑 文書𝑑のトピック
31

トピックモデル3章後半

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

トピックモデル3章後半

Editor's Notes