Prml Hackathon

2,055 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,055
On SlideShare
0
From Embeds
0
Number of Embeds
478
Actions
Shares
0
Downloads
23
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Prml Hackathon

  1. 1. Slice Samplingを用いた LDAの推論アルゴリズムの高速化 坪坂正志 m(dot)tsubosaka@gmail.com Blog/twitter ID: tsubosaka
  2. 2. LDA • LDAの推論では潜在変数 に関して、条件付 + き確率 = … ∝ ( + )を + 計算する – T. L. Griffiths and M. Steyvers. Finding scientific topics. In PNAS, 101, pp. 5228—5235, 2004 • トピック数Kが多いときに各トピックに対して確 率を計算するのはコストが高い
  3. 3. cf:既存の高速化手法 • Ian Porteous, David Newman, Alexander Ihler, Arthur Asuncion, Padhraic Smyth and Max Welling. Fast Collapsed Gibbs Sampling For Latent Dirichlet Allocation, In SIGKDD, 2008 – 最大10倍ぐらいの高速化 • Limin Yao, David Mimno and Andrew McCallum. Efficient Methods for Topic Model Inference on Streaming Document Collections, In SIGKDD, 2009 – 最大20倍ぐらいの高速化
  4. 4. Slice Sampling • ∝ ()()の形で書ける分布からをサ ンプリングする手法 • 1. ~(0, )で一様乱数をサンプリング(こ こでは現在の値) • 2. ≥ なるに関して()に従ってをサ ンプルする
  5. 5. LDAへの適応 • = + とする。 • 一様乱数~(0, )を発生させ、 ≥ − なるの集合をとする – 文章ごとのトピック頻度をソートした配列を保持し ておけば、この操作は容易にできる + • = に比例する確率でからをサ + ンプリングする
  6. 6. = 200
  7. 7. = 200
  8. 8. まとめ • サンプリング速度はナイーブなギブスサンプ ラーと比較して2-3倍程度に高速化された • Perplexityの収束はギブスサンプラーの方が 高速 • 既存の高速化手法には及ばなかったものの スライスサンプリングが割と汎用的に使える 手法であることを確認できた

×