SlideShare a Scribd company logo
トピックモデル
3章後半
S5 研究室 M1 三原秀司
3章後半の内容
•3.1 混合ユニグラムモデル
•3.2 混合モデル
•3.3 EMアルゴリズム
•3.4 変分ベイズ推定 (pp.40-48)
•3.5 ギブスサンプリング(pp.49-54)
1
パラメータ推定手法
混合ユニグラムモデルのグラフィカルモデル2
𝛼
𝛽
𝑤𝑧𝜃
𝑁𝑑
𝐷
𝜙
𝐾
混合ユニグラムモデルの定式化
記号 意味
𝜽 各トピックの生起確率を表すカテゴリ分布
𝝓 𝒌 トピック𝑘における単語の生起確率を表すカテゴリ分布
𝚽 全トピックの単語の生起確率の集合
3
𝜽, 𝝓 𝒌 はカテゴリ分布の共役事前分布によって生成され
る.
パラメータ(母数)である𝜽, 𝚽 を調べることで
文章集合の特徴がわかる!
どんなトピックがよく出てくる?
どんな単語が同じトピックに属する?
パラメータの推定法
• 2章で扱ったもの
• 最尤推定
• 最大事後確率推定
• ベイズ推定
• 本章で扱うもの
• EMアルゴリズム
• 変分ベイズ法
• ギブスサンプリング (MCMCの一種)
4
点推定
分布推定
点推定と分布推定(2.4~2.5の内容) 5
点推定
最尤推定などのパラメータを1点で推定する方法
分布推定(区間推定)
パラメータを分布として推定する手法
パラメータ変換に対して不変
事前分布の仮定に主観が含まれる
変分ベイズ推定とMCMC 6
混合ユニグラムモデルではパラメータの次元が
高いため解析的に事後分布が求まらない.
反復法を用いて事後分布を近似計算
=変分ベイズ推定(3.4節)
真の事後分布からの乱数をサンプリングし,
期待値を用いて計算
=マルコフ連鎖モンテカルロ法(3.5節)
変分ベイズ推定のアルゴリズムの概要 7
推定するもの
変分事後分布 𝑞 𝑑𝑘 = 𝑞 𝑧 𝑑 = 𝑘
詳しいアルゴリズムはp45 図3.2を参照
ハイパーパラメータ
𝛼, 𝛽を更新
変分事後分布
𝑞 𝑑𝑘を更新
終了条件を満たす
まで繰り返し
周辺尤度
• 文書毎のトピックの集合を𝒛 = {𝑧1, 𝑧2, … , 𝑧 𝐷}
• パラメータをまとめたものを𝚿 = {𝜽, 𝚽}として
• 文書集合𝑾の生起確率𝑝 𝑾 をパラメータ𝚿, 隠れ変数𝐳
に関して積分消去した周辺尤度の最大化を考える.
𝑝 𝑾 =
𝑍
𝑝 𝑾, 𝒛, 𝚿 𝑑𝚿
8
変分事後分布と変分下限
•変分事後分布 𝑞 𝒛, 𝚿
•変分下限𝐹
(3.10)式により導かれる対数周辺尤度の下限
9
計算を簡単化するために因子分解
𝑞 𝒛, 𝚿 = 𝑞 𝒛 𝑞(𝚿)
log 𝑝 𝑾 ≥ 𝐹 ≡
𝑍
𝑞 𝒛, 𝚿 log
𝑝 𝑾, 𝒛, 𝚿
𝑞 𝒛, 𝚿
𝑑𝚿
(3.11)
変分ベイズ推定の原理
• 対数周辺尤度log 𝑝(𝑾)と変分下限Fの差は変分事後分
布𝑞 𝒛, 𝚿 と真の事後分布p 𝒛, 𝚿|𝑾 のKLダイバー
ジェンスとなる. (p.41 下部)
• 従って, 変分下限Fを最大化することで変分事後分布と
真の事後分布とのKLダイバージェンスが最小となる.
10
KLダイバージェンス :
2つの確率密度関数がどれだけ違うかの指標
=
変分事後分布が真の事後分布の近似となる
変分事後分布の推定(1)
• 𝐹を最大化する𝑞 𝒛 , 𝑞(𝚿)をラグランジュの
未定乗数法を用いて計算すると以下のようにな
る.
•生成過程から同時確率は以下の式で表せる.
11
𝑞(𝒛) ∝ exp(𝑬 𝑞 𝚿 [log 𝑝(𝑾, 𝒛, 𝚿)])
𝑞(𝚿) ∝ exp(𝑬 𝑞 𝒛 [log 𝑝(𝑾, 𝒛, 𝚿)])
(3.13)
(3.15)
𝑝 𝑾, 𝒛, 𝚿 = p 𝐳 𝜽 p 𝜽 𝜶 p 𝐖 𝐳, 𝚽 p(𝚽|𝜷) (3.16)
変分事後分布の推定(2) 12
それぞれのパラメータに対しての変分事後分布を計算する
𝑞 𝜃 ∝ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝜃|𝛼1, … , 𝛼 𝑘)
(𝛼 𝑘 = 𝛼 + 𝑑=1
𝐷
𝑞 𝑑𝑘)
𝑞 Φ =
𝑘=1
𝐾
𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝜙 𝑘|𝛽 𝑘1, … , 𝛽 𝑘𝑉)
(𝛽 𝑘 = 𝛽 + 𝑑=1
𝐷
𝑞 𝑑𝑘 𝑁𝑑𝑐)
(3.19)
(3.20)
ハイパーパラメータの更新式
変分事後分布の推定(3) 13
𝑞 𝑑𝑘 ∝
exp(Ψ 𝛼 𝑘 − Ψ
𝑘′=1
𝐾
𝛼 𝑘′ +
𝑣=1
𝑉
𝑁𝑑𝑣 Ψ 𝛽 𝑘𝑣 − 𝑁𝑑Ψ(
𝑣=1
𝑉
𝛽 𝑘𝑣))
(3.22)
トピックの変分事後分布をもとに文書dのトピックがk
である確率 𝑞 𝑑𝑘を計算
変分下限とモデルエビデンス 14
また, モデル空間での周辺尤度を考えることにより, モデル
選択が可能(2.8節)
実際には周辺尤度の計算は困難なため周辺尤度の近似とし
て変分下限を用いる.
モデルエビデンス
変分下限は変分事後分布の計算の際に減少しないため, 変
分下限を計算することで変分ベイズのアルゴリズムが適
切に動作しているかを確認可能
変分ベイズ推定のアルゴリズムの概要(再
掲) 15
推定するもの
変分事後分布 𝑞 𝑑𝑘 = 𝑞 𝑧 𝑑 = 𝑘
詳しいアルゴリズムはp45 図3.2を参照
ハイパーパラメータ
𝛼, 𝛽を更新
変分事後分布
𝑞 𝑑𝑘を更新
終了条件を満たす
まで繰り返し
MCMC(マルコフ連鎖モンテカルロ法) 16
一般的に事後分布は解析的に求まらない
計算資源が無限にあれば, 真の事後分布
からのサンプリングは可能
サンプリング事例から経験分布および期待値を計算
ギブスサンプリング 17
MCMCの一種
文書のトピックの系列𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷 のうち𝑧 𝑑を𝑧 𝑑以
外の変数がわかったもとでの条件付き確率でサンプリン
グすることを全ての𝑑について行い, サンプリングしたト
ピックの系列からパラメータを推定
本章では, パラメータ𝜃, Φを積分消去する
崩壊型ギブスサンプリングを考える
混合ユニグラムモデルのグラフィカルモデル18
𝛼
𝛽
𝑤𝑧𝜃
𝑁𝑑
𝐷
𝜙
𝐾
パラメータを周辺化した
混合ユニグラムモデルのグラフィカルモデル19
𝛼
𝛽
𝑤𝑧
𝑁𝑑
𝐷
崩壊型ギブスサンプリングのアルゴリズムの
概要 20
推定するもの
事後分布からのサンプリング系列𝐙(s)
詳しいアルゴリズムはp53 アルゴリズム3.3を参照
ハイパーパラメータ
𝛼, 𝛽を更新
終了条件を満たす
まで繰り返し サンプリング確率を更新し,
トピックをサンプリング
カウント𝐷 𝑘, 𝑁𝑘𝑣, 𝑁𝑘を更新
ギブスサンプリングを用いた
2変量ガウス分布の乱数生成 21
サンプリング 22
𝑧 = 𝑧1, 𝑧2, … , 𝑧 𝐷
サンプリングする変数
𝑧1~𝑝 𝑧1 |𝑧2, … , 𝑧 𝐷, 𝑊 3.5.3節で導出
𝑑 = 1の例
𝑑を増やして, 全ての文書のトピックをサンプリング
周辺化した因子ごとの計算 23
𝑝 𝑾, 𝒛, 𝛼, 𝛽 = 𝑝 𝒛 𝛼)𝑝(𝑾|𝒛, 𝛽) ←生成モデルによる分解
𝑝 𝒛 𝛼 = 𝑝 𝒛 𝜽 𝑝 𝜽 𝛼 𝑑𝜽
=
Γ 𝛼𝐾
Γ 𝛼 𝐾
𝑘=1
𝐾
Γ(𝐷 𝑘 + 𝛼)
Γ(𝐷 + 𝛼𝐾)
𝑝(𝑾|𝒛, 𝛽) = 𝑝(𝑾|𝒛, 𝚽) 𝑝 𝚽 𝛽 𝑑Φ
=
Γ 𝛽𝑉 𝐾
Γ 𝛽 𝑉𝐾
𝑘=1
𝐾
𝑣=1
𝑉
Γ(𝑁𝑘𝑉 + 𝛽)
Γ(𝑁𝑘 + 𝛽𝑉)
𝐷 𝑘:
トピックが𝑘の文書数
𝑁𝑘𝑣:
トピックが𝑘中の語彙𝑣の出現回数
𝑁𝑘:
トピックが𝑘の単語数
サンプリング式 24
𝑝 𝑧 𝑑 = 𝑘|𝑊, 𝑧|𝑑, 𝛼, 𝛽
∝ 𝐷 𝑘|𝑑 + 𝛼
Γ 𝑁𝑘|𝑑 + 𝛽𝑉
Γ 𝑁𝑘|𝑑 + 𝑁𝑑 − 𝛽𝑉
𝑣:𝑁 𝑑𝑣>0
Γ 𝑁𝑘𝑣|𝑑 + 𝑁𝑑𝑣 + 𝛽
Γ 𝑁𝑘𝑣|𝑑 + 𝛽
(3.27)
※ |𝑑 は文書dを除いた時の値を表す.
ハイパーパラメータの更新 25
𝛼 𝑛𝑒𝑤 = 𝛼
𝑘=1
𝐾
Ψ 𝐷 𝑘 + 𝛼 − 𝐾Ψ(𝛼)
𝐾Ψ 𝐷 + 𝛼𝐾 − 𝐾Ψ(𝛼𝐾)
(3.28)
𝛽 𝑛𝑒𝑤 =
𝑘=1
𝐾
𝑣=1
𝑉
Ψ 𝑁𝑘𝑣 + 𝛽 − 𝐾VΨ(𝛽)
V 𝑣=1
𝑉
Ψ 𝑁𝑘 + 𝛽𝑉 − 𝐾𝑉Ψ(𝛽𝑉)
(3.29)
𝐷 𝑘, 𝑁𝑘, 𝑁𝑘𝑣をトピックのサンプリング分布から計算し,
(3.28), (3.29)式について, 不動点反復法を用いて計算
不動点反復法 26
2𝑥 − 3𝑥2
= 0 ⇔ 𝑥 = −3𝑥(𝑥 − 1)
ギブスサンプリングのアルゴリズムの概要
(再掲) 27
推定するもの
事後分布からのサンプリング系列𝐙(s)
詳しいアルゴリズムはp53 アルゴリズム3.3を参照
ハイパーパラメータ
𝛼, 𝛽を更新
終了条件を満たす
まで繰り返し サンプリング確率を更新し,
トピックをサンプリング
カウント𝐷 𝑘, 𝑁𝑘𝑣, 𝑁𝑘を更新
積分消去したパラメータの計算 28
𝜃 𝑘 =
𝐷 𝑘 + 𝛼
𝐷 + 𝛼𝐾
𝜙 𝑘𝑉 =
𝑁𝑘𝑣 + 𝛽
𝑁𝑘 + 𝛽𝑉
積分消去したパラメータは以下のようにカウントから計算される.
さまざまなパラメータ推定手法
• 崩壊型変分ベイズ法
• 確率的EMアルゴリズム
• ハードEMアルゴリズム
• 全パラメータを推定するMCMC
29
トピック𝒁 𝒅 トピック分布𝜽 単語分布𝚽
EMアルゴリズム 分布推定 点推定 点推定
変分ベイズ推定 分布推定 分布推定 分布推定
崩壊型
ギブスサンプリング
サンプリング 積分消去 積分消去
その他のパラメータ推定手法
参考図書
アルゴリズムの導出全般
・佐藤一誠 奥村学 ”トピックモデルによる統計的潜在意味解析”
変分ベイズ
・PRML10章 変分推論法
・上田修功 “ベイズ学習” 電子情報通信学会誌 No85
(CiNiiから閲覧可)
・持橋大地 “自然言語処理のための変分ベイズ法”
ギブスサンプリング(MCMC)
・PRML11章 サンプリング法
・久保拓弥 “データ解析のための統計モデリング”
30
文書モデルを表現するためのパラメータ
記号 説明
𝑑 文書インデックス (1 ≤ 𝑑 ≤ 𝐷) D : 文書数
𝑁 𝑑 文書dの文書長(=含まれる単語数)
𝑾 文書集合 𝑾 = {𝑤1, 𝑤2, … , 𝑤 𝑑}
𝑤 𝑑 文書𝑑の単語集号
𝑤 𝑑𝑛 文書𝑑の𝑛番目の単語 (1 ≤ 𝑛 ≤ 𝑁 𝑑)
𝑣 語彙インデックス (1 ≤ 𝑣 ≤ 𝑉) V : 語彙数
𝑛 単語インデックス (1 ≤ 𝑛 ≤ 𝑁) N : 単語数
𝑁 𝑣 𝑾全体での語彙𝑣の出現回数
𝑁 𝑑𝑣 文書𝑑における語彙𝑣の出現回数
𝑘 トピックインデックス (1 ≤ 𝑘 ≤ 𝐾) K : トピック数
𝑧 𝑑 文書𝑑のトピック
31
図3.2の例だと… 32

More Related Content

What's hot

劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節
Hakky St
 
Warshall froyd
Warshall froydWarshall froyd
Warshall froyd
MatsuiRyo
 
『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章
ayato shimada
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
kenyanonaka
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
正志 坪坂
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半koba cky
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
kenyanonaka
 
ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4noname409
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
貴之 八木
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
Shintaro Takemura
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章
Roy Ray
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)Yoichi Shirasawa
 
エスイーが要件定義でやるべきたったひとつのこと
エスイーが要件定義でやるべきたったひとつのことエスイーが要件定義でやるべきたったひとつのこと
エスイーが要件定義でやるべきたったひとつのことYoshitaka Kawashima
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3noname409
 
ラグランジュ未定乗数法
ラグランジュ未定乗数法ラグランジュ未定乗数法
ラグランジュ未定乗数法
弘毅 露崎
 
ディジタル信号処理の課題解説
ディジタル信号処理の課題解説ディジタル信号処理の課題解説
ディジタル信号処理の課題解説noname409
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
 
Introduction to Persistence Theory
Introduction to Persistence TheoryIntroduction to Persistence Theory
Introduction to Persistence Theory
Tatsuki SHIMIZU
 

What's hot (20)

劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節劣モジュラ最適化と機械学習 2.4節
劣モジュラ最適化と機械学習 2.4節
 
Warshall froyd
Warshall froydWarshall froyd
Warshall froyd
 
『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
K shapes zemiyomi
K shapes zemiyomiK shapes zemiyomi
K shapes zemiyomi
 
PRML 6.4-6.5
PRML 6.4-6.5PRML 6.4-6.5
PRML 6.4-6.5
 
はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半はじめてのパターン認識輪読会 10章後半
はじめてのパターン認識輪読会 10章後半
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4ディジタル信号処理 課題解説 その4
ディジタル信号処理 課題解説 その4
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
エスイーが要件定義でやるべきたったひとつのこと
エスイーが要件定義でやるべきたったひとつのことエスイーが要件定義でやるべきたったひとつのこと
エスイーが要件定義でやるべきたったひとつのこと
 
ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3ディジタル信号処理の課題解説 その3
ディジタル信号処理の課題解説 その3
 
ラグランジュ未定乗数法
ラグランジュ未定乗数法ラグランジュ未定乗数法
ラグランジュ未定乗数法
 
CMSI計算科学技術特論B(8) オーダーN法1
 CMSI計算科学技術特論B(8) オーダーN法1 CMSI計算科学技術特論B(8) オーダーN法1
CMSI計算科学技術特論B(8) オーダーN法1
 
ディジタル信号処理の課題解説
ディジタル信号処理の課題解説ディジタル信号処理の課題解説
ディジタル信号処理の課題解説
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
Introduction to Persistence Theory
Introduction to Persistence TheoryIntroduction to Persistence Theory
Introduction to Persistence Theory
 

トピックモデル3章後半

Editor's Notes

  1. まず3章の内容に関して, 全体の流れをもう1度確認しておきますと, 3章まず最初に文章のトピックを考慮できる混合ユニグラムモデルというモデルが登場しました。 混合ユニグラムモデルについても, トピック毎の単語の正規確率などを調べるためにモデルのパラメータを推定を行いたいのですが, 2章で紹介されていた単純な最尤推定や事後分布を解析的に求める手法では計算がうまくできないということで, 近似的にパラメータや事後分布を求める手法である, EMアルゴリズム, 変分ベイズ推定, ギブスサンプリングと呼ばれる手法について紹介しています.
  2. アルファ, ベータ: ハイパーパラメータ ファイ, シータ: パラメータ z:
  3. ここまでが前にやってたことの復習
  4. ユニグラムモデルでは単語の生起確率ファイだけだったが混合ユニグラムモデルではトピック毎の単語の生起確率やトピックの生起確率のパラメータも考える
  5. 同時確率と周辺確率を比較
  6. p42 3.4.2 生成過程による同時確率の変形はグラフィカルモデルを見るとわかりやすい. 因子分解について、3.15に3.16を代入, 指数法則によって分解した3.17式よりthetaの成分とphiの成分に分解できている
  7. アルファ, ベータ: ハイパーパラメータ ファイ, シータ: パラメータ z:
  8. アルファ, ベータ: ハイパーパラメータ ファイ, シータ: パラメータ z:
  9. これがサンプリングの1STEP サンプリングでした文書トピックをもとにハイパーパラメータを計算 再びサンプリングという流れを繰り返す
  10. 導出は2.9節と同様