Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1
読書会 「トピックモデルによる統計的潜在意味解析」
第8回
3.6節 Dirichlet分布のパラメータ推定
日時: 2016/01/28 19:30~
場所: 株式会社 ALBERT
発表者: @aoki_kenji
目次
2
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐...
以前の節との対応関係
3
学習アルゴリズム
以前に
出てきた節
3.6節での
対応箇所
Dirichlet分布の
パラメータ推定方法
ギブスサンプリング 3.2.3節
変分ベイズ法
3.3.5節
3.3.6節
3.6.3節
3.6.4節
固定点...
目次
4
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐...
Dirichlet分布のパラメータ推定の重要性
5
◎LDAの確率分布(P.52 (3.27)式)より
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 =
𝑑,𝑖
𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑
𝑑
𝑝 𝜽 𝑑 𝜶
𝑘
𝑝 𝝓 𝑘...
Dirichlet分布のパラメータ推定の重要性
6
◎対称Dirichlet分布と非対称Dirichlet分布の比較(P.111より抜粋)
𝜶が非対称の場合、内容語と非内容語の分離ができる
一方、𝜷は対称の方がよりはっきりと分離ができる
目次
7
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐...
変分ベイズ法の学習アルゴリズム(復習)
8
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
=
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝜉 𝑘,𝑣
𝜙
𝑣 𝛤 𝜉 𝑘,𝑣
𝜙
+
𝑘 𝑣
𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽...
変分ベイズ法の学習アルゴリズム(復習)
9
◎変分ベイズ法の擬似アルゴリズム(P.80より抜粋)
ココの話
変分ベイズ法での𝜶,𝜷の推定
10
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷 を𝜶, 𝜷に関して最大化すればよい
以下を満たす𝜶, 𝜷を見つければよい
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
𝜕𝐹...
目次
11
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 ...
固定点反復法とは
12
𝑥 = 𝑓 𝑥
を満たす𝑥を
𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2, ⋯
の反復計算で求めるアルゴリズム
例えば以下のような方程式を解きたいときに使う
𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0
ここでは
𝜕𝐹 𝑞 𝒛...
偏微分方程式の導出
13
テキストPP.114~115ではガンマ関数の不等式を利用して導出しているが、
ここでは直接導出する
Dirichlet分布とディガンマ関数の関係式(P.71 (3.74)式)
𝐸 𝑝 𝜽 𝜶 log 𝜃 𝑘 = 𝛹 𝛼...
偏微分方程式の導出
14
したがって、もし
𝛼 𝑘 =
𝑑 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝛼 𝑘
𝑑 𝛹 𝑘 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝑘 𝛼 𝑘
𝛼 𝑘
を満たす𝛼 𝑘 ≠ 0が見つかれば
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, ...
偏微分方程式の導出
15
𝜉 𝑑,𝑘
𝜃
の更新式(P.76 (3.89)式)
𝜉 𝑑,𝑘
𝜃
= 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
を𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 に代入後に
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 ...
偏微分方程式の導出
16
𝛽𝑣に関しても導出手順は全く同じ(P.115 (3.192)~(3.194)式)
ただし
𝛽 = 𝛽1 = ⋯ = 𝛽 𝑉
として、𝛽を推定した方がよい場合もある(この場合も導出手順はほとんど
同じ)
目次
17
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 ...
ニュートン・ラフソン法とは
18
𝜕𝐹 𝜶
𝜕𝜶
= 𝟎
を満たす𝜶を
𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =
𝜕𝐹 𝜶
𝜕𝜶 𝜶= 𝜶
𝑯 𝜶 =
𝜕2 𝐹 𝜶
𝜕𝜶𝜕𝜶′
𝜶= 𝜶
の反復計算で求めるアルゴリズム(P.116 (3....
偏微分方程式の導出
19
ニュートン・ラフソン法の問題点としてヘッセ行列
𝑯 𝜶
の逆行列演算の計算量の問題がある
しかし、LDAの場合はトリガンマ関数𝛹 1 𝑥 を用いることで、解析的に逆
行列演算が可能である(PP.117 (3.201)式...
偏微分方程式の導出
20
𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する
(PP.117 (3.202)~(3.209)式を参照)
𝛽𝑣に関しても導出手順は全く同じ
固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼 𝑘, 𝛽𝑣...
目次
21
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 ...
確率的変分ベイズ法の学習アルゴリズム(復習)
22
◎確率的変分ベイズ法の擬似アルゴリズム(P.99より抜粋)
ココの話
𝑀個の文書全てではなく一つの文書𝑑に関する情報のみを
使ってパラメータを更新
ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
23
ニュートン・ラフソン法の反復計算の中で全文書の情報を用いているのは
どこか?
𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =
𝜕𝐹 𝜶
𝜕𝜶 𝜶= 𝜶
𝑯 𝜶 =
𝜕2
𝐹 𝜶
𝜕...
ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
24
𝑯 𝜶 はP.117 (3.201)式
𝑯 𝜶 𝑘′ 𝑘 =
𝜕2 𝐹 𝜶
𝜕𝛼 𝑘′ 𝜕𝛼 𝑘
= 𝑀 𝛹 1
𝑘
𝛼 𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼 𝑘
より𝜶にしか依存...
目次
25
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 ...
周辺化ギブスサンプリングの学習アルゴリズム(復習)
26
◎周辺化ギブスサンプリングの擬似アルゴリズム(P.57より抜粋)
ココの話
Dirichlet分布のパラメータ推定の方針
27
𝜶, 𝜷にさらに事前分布を仮定する?
→ Dirichlet分布のパラメータに対して共役な確率分布を設定できない
ここでは、よく用いられる方法として点推定による方法を紹介する
Dirichlet分布のパラメータ推定のための目的関数
28
以下の周辺尤度を𝜶, 𝜷に対して最大化する
𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 𝑑𝜽𝑑𝝓
PP.120~121 (3.214)~(3.215)式を経てP....
(近似的な)経験ベイズ法による推定
29
目的関数として𝑝 𝒘 𝜶, 𝜷 の下限(P.122 (3.218)式)
𝑝 𝒘 𝜶, 𝜷
≥
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣
𝑣 𝛤 𝐸 𝑞...
Upcoming SlideShare
Loading in …5
×

読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定

1,368 views

Published on

第8回『トピックモデルによる統計的潜在意味解析』読書会
http://topicmodel.connpass.com/event/25267/

Published in: Data & Analytics
  • Be the first to comment

読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定

  1. 1. 1 読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定 日時: 2016/01/28 19:30~ 場所: 株式会社 ALBERT 発表者: @aoki_kenji
  2. 2. 目次 2 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  3. 3. 以前の節との対応関係 3 学習アルゴリズム 以前に 出てきた節 3.6節での 対応箇所 Dirichlet分布の パラメータ推定方法 ギブスサンプリング 3.2.3節 変分ベイズ法 3.3.5節 3.3.6節 3.6.3節 3.6.4節 固定点反復法 ニュートン・ラフソン法 確率的変分ベイズ法 3.4.3節 3.6.5節 確率的ニュートン・ラフソン法 周辺化 ギブスサンプリング 3.2.4節 3.6.6節 固定点反復法 (近似的な)経験ベイズ法 周辺化変分ベイズ法 3.3.8節 粒子フィルタ 3.5.2節
  4. 4. 目次 4 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  5. 5. Dirichlet分布のパラメータ推定の重要性 5 ◎LDAの確率分布(P.52 (3.27)式)より 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 = 𝑑,𝑖 𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑 𝑑 𝑝 𝜽 𝑑 𝜶 𝑘 𝑝 𝝓 𝑘 𝜷 𝜶: 各ドキュメントにおける各トピックの出現確率(の確率分布)を調整 𝜷: 各トピックにおける各単語の出現確率(の確率分布)を調整 𝜶の各要素が同じ値をもつ対称Dirichlet分布よりも、異なる値を持つ非対称 Dirichlet分布の方が望ましい性質が多々あることが知られている 一方𝜷に関しては、対称Dirichlet分布と非対称Dirichlet分布では、それほど 差がないことが知られている Dirichlet分布のパラメータ
  6. 6. Dirichlet分布のパラメータ推定の重要性 6 ◎対称Dirichlet分布と非対称Dirichlet分布の比較(P.111より抜粋) 𝜶が非対称の場合、内容語と非内容語の分離ができる 一方、𝜷は対称の方がよりはっきりと分離ができる
  7. 7. 目次 7 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  8. 8. 変分ベイズ法の学習アルゴリズム(復習) 8 𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 = 𝑘 log 𝛤 𝑣 𝛽𝑣 𝑣 𝛤 𝛽𝑣 − log 𝛤 𝑣 𝜉 𝑘,𝑣 𝜙 𝑣 𝛤 𝜉 𝑘,𝑣 𝜙 + 𝑘 𝑣 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣 𝜙 𝐸 𝑞 𝝓 𝑘 𝝃 𝑘 𝜙 log 𝜙 𝑘,𝑣 + 𝑑 log 𝛤 𝑘 𝛼 𝑘 𝑘 𝛤 𝛼 𝑘 − log 𝛤 𝑘 𝜉 𝑑,𝑘 𝜃 𝑘 𝛤 𝜉 𝑑,𝑘 𝜃 + 𝑑 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝜉 𝑑,𝑘 𝜃 𝐸 𝑞 𝜽 𝑑 𝝃 𝑑 𝜃 log 𝜃 𝑑,𝑘 + 𝑑 𝑖 𝑘 𝑞 𝑧 𝑑,𝑖 = 𝑘 log 𝑞 𝑧 𝑑,𝑖 = 𝑘 ◎変分下限(事後分布にDirichlet分布を仮定)(P.82 (3.102)式より) 以下の変分下限を次頁のアルゴリズムで最大化する
  9. 9. 変分ベイズ法の学習アルゴリズム(復習) 9 ◎変分ベイズ法の擬似アルゴリズム(P.80より抜粋) ココの話
  10. 10. 変分ベイズ法での𝜶,𝜷の推定 10 𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃 , 𝝃 𝜙 , 𝜶, 𝜷 を𝜶, 𝜷に関して最大化すればよい 以下を満たす𝜶, 𝜷を見つければよい 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝜶 = 𝟎, 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝜷 = 𝟎 ここでは固定点反復法とニュートン・ラフソン法を紹介する
  11. 11. 目次 11 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  12. 12. 固定点反復法とは 12 𝑥 = 𝑓 𝑥 を満たす𝑥を 𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2, ⋯ の反復計算で求めるアルゴリズム 例えば以下のような方程式を解きたいときに使う 𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0 ここでは 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝜶 = 𝟎, 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝜷 = 𝟎 が解きたい(偏微分)方程式
  13. 13. 偏微分方程式の導出 13 テキストPP.114~115ではガンマ関数の不等式を利用して導出しているが、 ここでは直接導出する Dirichlet分布とディガンマ関数の関係式(P.71 (3.74)式) 𝐸 𝑝 𝜽 𝜶 log 𝜃 𝑘 = 𝛹 𝛼 𝑘 − 𝛹 𝑘 𝛼 𝑘 を使うと 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝛼 𝑘 = 𝑑 𝛹 𝑘 𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝛹 𝜉 𝑑,𝑘 𝜃 − 𝛹 𝑘 𝜉 𝑑,𝑘 𝜃 = 0
  14. 14. 偏微分方程式の導出 14 したがって、もし 𝛼 𝑘 = 𝑑 𝛹 𝜉 𝑑,𝑘 𝜃 − 𝛹 𝛼 𝑘 𝑑 𝛹 𝑘 𝜉 𝑑,𝑘 𝜃 − 𝛹 𝑘 𝛼 𝑘 𝛼 𝑘 を満たす𝛼 𝑘 ≠ 0が見つかれば 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃 , 𝝃 𝜙 , 𝜶, 𝜷 𝜕𝛼 𝑘 = 0 が解けることになる → 固定点反復法
  15. 15. 偏微分方程式の導出 15 𝜉 𝑑,𝑘 𝜃 の更新式(P.76 (3.89)式) 𝜉 𝑑,𝑘 𝜃 = 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 を𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 に代入後に 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 𝜕𝛼 𝑘 = 0 を解こうとすると、反復計算式は 𝛼 𝑘 = 𝑑 𝛹 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝛼 𝑘 𝑑 𝛹 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝑘 𝛼 𝑘 𝛼 𝑘 となる → P.114 (3.191)式 この場合、𝛼 𝑘の更新時に𝜉 𝑑,𝑘 𝜃 も更新することになる
  16. 16. 偏微分方程式の導出 16 𝛽𝑣に関しても導出手順は全く同じ(P.115 (3.192)~(3.194)式) ただし 𝛽 = 𝛽1 = ⋯ = 𝛽 𝑉 として、𝛽を推定した方がよい場合もある(この場合も導出手順はほとんど 同じ)
  17. 17. 目次 17 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  18. 18. ニュートン・ラフソン法とは 18 𝜕𝐹 𝜶 𝜕𝜶 = 𝟎 を満たす𝜶を 𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶 𝒈 𝜶 = 𝜕𝐹 𝜶 𝜕𝜶 𝜶= 𝜶 𝑯 𝜶 = 𝜕2 𝐹 𝜶 𝜕𝜶𝜕𝜶′ 𝜶= 𝜶 の反復計算で求めるアルゴリズム(P.116 (3.198)~(3.200)式) ここでは 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃 , 𝝃 𝜙 , 𝜶, 𝜷 𝜕𝜶 = 𝟎, 𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃 , 𝝃 𝜙 , 𝜶, 𝜷 𝜕𝜷 = 𝟎 が解きたい(偏微分)方程式
  19. 19. 偏微分方程式の導出 19 ニュートン・ラフソン法の問題点としてヘッセ行列 𝑯 𝜶 の逆行列演算の計算量の問題がある しかし、LDAの場合はトリガンマ関数𝛹 1 𝑥 を用いることで、解析的に逆 行列演算が可能である(PP.117 (3.201)式) 𝑯 𝜶 𝑘′ 𝑘 = 𝜕2 𝐹 𝜶 𝜕𝛼 𝑘′ 𝜕𝛼 𝑘 = 𝑀 𝛹 1 𝑘 𝛼 𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼 𝑘 ただし、 𝛹 1 𝑥 = 𝑑𝛹 𝑥 𝑑𝑥 = 𝑑 log 𝛤 𝑥 𝑑𝑥2
  20. 20. 偏微分方程式の導出 20 𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する (PP.117 (3.202)~(3.209)式を参照) 𝛽𝑣に関しても導出手順は全く同じ 固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼 𝑘, 𝛽𝑣は常に 正の値となる(P.114 (3.191)式を使った場合) 一方、ニュートン・ラフソン法の場合、𝛼 𝑘, 𝛽𝑣が負の値になる可能性がある → 固定点反復法がお勧めとのこと
  21. 21. 目次 21 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  22. 22. 確率的変分ベイズ法の学習アルゴリズム(復習) 22 ◎確率的変分ベイズ法の擬似アルゴリズム(P.99より抜粋) ココの話 𝑀個の文書全てではなく一つの文書𝑑に関する情報のみを 使ってパラメータを更新
  23. 23. ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法 23 ニュートン・ラフソン法の反復計算の中で全文書の情報を用いているのは どこか? 𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶 𝒈 𝜶 = 𝜕𝐹 𝜶 𝜕𝜶 𝜶= 𝜶 𝑯 𝜶 = 𝜕2 𝐹 𝜶 𝜕𝜶𝜕𝜶′ 𝜶= 𝜶
  24. 24. ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法 24 𝑯 𝜶 はP.117 (3.201)式 𝑯 𝜶 𝑘′ 𝑘 = 𝜕2 𝐹 𝜶 𝜕𝛼 𝑘′ 𝜕𝛼 𝑘 = 𝑀 𝛹 1 𝑘 𝛼 𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼 𝑘 より𝜶にしか依存しない 𝒈 𝜶 はP.116 (3.196)式 𝑔 𝛼 𝑘 = 𝑀 𝛹 𝑘 𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝑑 𝛹 𝜉 𝑑,𝑘 𝜃 − 𝛹 𝑘 𝜉 𝑑,𝑘 𝜃 より第二項がそれに該当する → 第二項を確率的最適化の考えにしたがって以下のように変更する (P.119 (3.212)~(3.213)式) 𝑔 𝛼 𝑘 = 𝑀 𝛹 𝑘 𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝑀 𝛹 𝜉 𝑑,𝑘 𝜃 − 𝛹 𝑘 𝜉 𝑑,𝑘 𝜃 𝜶 = 𝜶 − 𝜈𝑠 𝑯−1 𝜶 𝒈 𝜶
  25. 25. 目次 25 • 3.6.1節 対称/非対称Dirichlet分布の性質 • 3.6.2節 変分ベイズ法におけるDirichlet分布の パラメータ推定 • 3.6.3節 固定点反復法 • 3.6.4節 ニュートン・ラフソン法 • 3.6.5節 逐次学習-確率的ニュートン・ラフソン法 • 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
  26. 26. 周辺化ギブスサンプリングの学習アルゴリズム(復習) 26 ◎周辺化ギブスサンプリングの擬似アルゴリズム(P.57より抜粋) ココの話
  27. 27. Dirichlet分布のパラメータ推定の方針 27 𝜶, 𝜷にさらに事前分布を仮定する? → Dirichlet分布のパラメータに対して共役な確率分布を設定できない ここでは、よく用いられる方法として点推定による方法を紹介する
  28. 28. Dirichlet分布のパラメータ推定のための目的関数 28 以下の周辺尤度を𝜶, 𝜷に対して最大化する 𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 𝑑𝜽𝑑𝝓 PP.120~121 (3.214)~(3.215)式を経てP.121 (3.216)式が得られる 𝑝 𝒘, 𝒛 𝑠 𝜶, 𝜷 = 𝑘 log 𝛤 𝑣 𝛽𝑣 𝑣 𝛤 𝛽𝑣 − log 𝛤 𝑣 𝑛 𝑘,𝑣 𝑠 + 𝛽𝑣 𝑣 𝛤 𝑛 𝑘,𝑣 𝑠 + 𝛽𝑣 + 𝑑 log 𝛤 𝑘 𝛼 𝑘 𝑘 𝛤 𝛼 𝑘 − log 𝛤 𝑘 𝑛 𝑑,𝑘 𝑠 + 𝛼 𝑘 𝑘 𝛤 𝑛 𝑑,𝑘 𝑠 + 𝛼 𝑘 ただし、 𝑛 𝑘,𝑣 𝑠 = 𝑑 𝑖 𝛿 𝑧 𝑑,𝑖 𝑠 = 𝑘, 𝑤 𝑑,𝑖 = 𝑣 , 𝑛 𝑑,𝑘 𝑠 = 𝑖 𝛿 𝑧 𝑑,𝑖 𝑠 = 𝑘 例えば、固定点反復法で周辺尤度を最大化する𝜶, 𝜷を𝜶 𝑠 , 𝜷 𝑠 とする
  29. 29. (近似的な)経験ベイズ法による推定 29 目的関数として𝑝 𝒘 𝜶, 𝜷 の下限(P.122 (3.218)式) 𝑝 𝒘 𝜶, 𝜷 ≥ 𝑘 log 𝛤 𝑣 𝛽𝑣 𝑣 𝛤 𝛽𝑣 − log 𝛤 𝑣 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣 𝑣 𝛤 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣 + 𝑑 log 𝛤 𝑘 𝛼 𝑘 𝑘 𝛤 𝛼 𝑘 − log 𝛤 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 𝑘 𝛤 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 を設定するやり方もある ただし、 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 = 𝑖 𝑞 𝑧 𝑑,𝑖 = 𝑘 , 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 = 𝑑 𝑖 𝑞 𝑧 𝑑,𝑖 = 𝑘 𝛿 𝑤 𝑑,𝑖 = 𝑣 𝑞 𝒛 として • 周辺化ギブスサンプリングによって得られたサンプル分布 • 周辺化変分ベイズ法で推定された𝑞 𝑧 𝑑,𝑖 を用いればよい

×