Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20150730 トピ本第4回 3.4節

8,454 views

Published on

トピックモデルによる統計的潜在意味解析読書会
第4回 3.4節

Published in: Data & Analytics
  • Be the first to comment

20150730 トピ本第4回 3.4節

  1. 1. 第4回 トピックモデルによる統計的潜在意味解析 読書会 3.4 逐次ベイズ学習―変分近似法の場合― @MOTOGRILL 2015.07.30
  2. 2. LDAの確率的変分ベイズ法 KL情報量を最小にする近似事後分布q(z, θ, Φ)を求める 変分下限Fを最大にする近似事後分布q(z, θ, Φ)を求める 𝑞 𝜙 𝑘 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 𝑞 𝜃 𝑑 = 𝐷𝑖𝑟 𝜃 𝑑 𝜉 𝑑 𝜃 𝑞 𝑧 𝑑,𝑖 = 𝑘 勾配降下法により𝜉 𝑘 𝜙 を求める 確率的勾配降下法により𝜉 𝑘 𝜙 を求める 同義(メリット:目的関数の結合分布化) 変分法 オンライン化 ドキュメントd毎に推計全ドキュメントに対して推計 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.99)(3.90)(3.96)
  3. 3. 勾配降下法 最適化問題 𝑥∗ = argmin 𝑥 𝑓 𝑥 (3.132) 数値解 𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝛻𝑥 𝑓 𝑥(𝑠−1) (3.133) ステップサイズ 勾配 𝛻𝑥 = 𝜕 𝜕𝑥 = 𝜕 𝜕𝑥1 𝜕 𝜕𝑥2 ⋮ しかし、目的関数が 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 で n が大きいと 勾配の計算にかかるコストが大きい 𝑓 𝜉 = 𝑑=1 𝑀 𝑖=1 𝑛 𝑑 𝑓 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 𝜉観測データ 𝑤 𝑑,𝑖 , 𝑧 𝑑,𝑖 目的関数
  4. 4. 確率的勾配降下法 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 = 𝑛 𝑖=1 𝑛 1 𝑛 𝑓𝑖 𝑥 𝑝 𝑖 = 1 𝑛 𝑛𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑖~𝑝 𝑖 = 1 𝑛 サンプリング近似 𝑛𝑓𝑖 𝑥 (確率的)勾配 𝑛𝛻𝑥 𝑓𝑖 𝑥𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻𝑥 𝑓𝑖 𝑥(𝑠−1) 確率的勾配降下法 真の勾配と確率的勾配との差:𝜈 𝑠−1 𝛻𝑥 𝑓𝑖 𝑥 𝑠−1 − 𝛻𝑥 𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑠−1 𝜈 𝑠 に対する制約: (局所)最適解を得るために 𝑠=1 ∞ 𝜈 𝑠 = ∞, 𝑠=1 ∞ 𝜈 𝑠 2 < ∞ よく用いられる :𝜈 𝑠 𝜈 𝑠 = 𝑎 𝑏 + 𝑠 𝜅 𝑎 > 0, 𝑏 > 0, 𝜅 ∈ (0.5,1 (3.137) (3.138) (3.136)
  5. 5. http://qiita.com/kenmatsu4/items/d282054ddedbd68fecb0
  6. 6. 統計的学習と確率的勾配降下法 統計的学習 𝜙∗ = argmax 𝜙 1 𝑛 𝑖=1 𝑛 log 𝑝 𝑥𝑖 𝜙 (3.8) KL情報量の最小化 最適化問題: 確率的最適化: 𝜙(𝑠) = 𝜙(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻 𝜙 log 𝑝 𝑥𝑖 𝜙 𝑠−1
  7. 7. 自然勾配法 勾配を最適化問題の解として定義 argmax 𝛿𝜃: 𝛿𝜃 2≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜖 𝛻𝜃 𝑓 𝜃 2 𝛻𝜃 𝑓 𝜃 = 𝜈𝛻𝜃 𝑓 𝜃 𝜈 ベクトルの内積 制約条件 𝛻𝜃 𝑓 𝜃𝛿𝜃∗ は の定数倍 𝛻𝜃 𝑓 𝜃 𝛿𝜃 𝛿𝜃 2 = 𝜖 𝛿𝜃に対する制約をKL情報量を用いて確率分布間の距離で与える 統計モデルの最適化に応用 argmax 𝛿𝜃:𝐾𝐿 𝑝 𝑥 𝜃 ∥𝑝 𝑥 𝜃 + 𝛿𝜃 ≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃勾配: (3.142) (3.140) (3.141)
  8. 8. フィッシャーの情報行列 𝐺 𝜃 = − 𝑝 𝑥 𝜃 𝛻𝜃 2 log 𝑝 𝑥 𝜃 𝑑𝑥 𝐺𝑗,𝑖 𝜃 = − 𝑝 𝑥 𝜃 𝜕2 𝜕𝜃𝑗 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 𝑑𝑥 = 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑗 log 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 ⊺ 𝑑𝑥 (3.143) (3.144) (3.146) KL情報量をフィッシャーの情報行列𝐺 𝜃 を用いて近似 𝐾𝐿 𝑝 𝑥 𝜃 ∥ 𝑝 𝑥 𝜃 + 𝛿𝜃 ≈ 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃 近似した最適化問題の解としての自然勾配 (3.147) argmax 𝛿𝜃: 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜈𝐺 𝜃 −1 𝛻𝜃 𝑓 𝜃 (3.150) θの更新式: 𝜃 𝑠 = 𝜃 𝑠−1 + 𝜈 𝑠−1 𝐺 𝜃 𝑠−1 −1 𝛻𝜃 𝑓 𝑝 𝑥 𝜃 𝑠−1 (3.151)
  9. 9. LDAに対する自然勾配法 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 = Γ 𝑣=1 𝑉 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 Γ 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 𝜙 𝑘,𝑣 𝜉 𝑘,𝑣 𝜙 −1 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.96) 𝐺 𝜉 = − 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝛻2 𝜉 𝑘 𝜙 log 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝑑𝜙 𝑘 argmax 𝛿𝜉: 1 2 𝛿𝜉⊺ 𝐺 𝜉 𝛿𝜉≤𝜖 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 ⊺ 𝛿𝜉 = 𝜈𝐺 𝜉 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝜉 𝑘 (𝑠+1) = 𝜉 𝑘 (𝑠) + 𝜈 𝑠 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 𝑠 (3.156) 𝜈 𝑠 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) (3.155) (3.152)~(3.154), (3.104)
  10. 10. LDAの確率的最適化 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) LDAの勾配: 全ドキュメントに対する平均 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 サンプリングされたドキュメントの値から近似 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) 𝑣成分ごとに𝜉の更新式を書き下すと 𝜉 𝑘,𝑣 (𝑠+1) = 𝜉 𝑘,𝑣 (𝑠) + 𝜈 𝑠 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣 (𝑠) (3.159)
  11. 11. おまけ LDAの自然勾配の𝑣成分が式(3.155)になることの確認 𝐺 𝜉 𝑘 ∙ 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 = 𝜕 𝜕𝜉 𝑘 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 勾配 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ 𝑋 𝑣′𝐺𝑣,𝑣′ 両辺の𝑣成分 (左辺) 𝑣′=1 𝑉 𝑋 𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.154) (右辺) 𝑣′=1 𝑉 𝔼 𝑞 𝑧 𝑛 𝑘,𝑣′ + 𝛽𝑣′ − 𝜉 𝑘,𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.104)

×