• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Prml Hackathon
 

Prml Hackathon

on

  • 2,277 views

 

Statistics

Views

Total Views
2,277
Views on SlideShare
1,828
Embed Views
449

Actions

Likes
0
Downloads
22
Comments
0

3 Embeds 449

http://d.hatena.ne.jp 441
http://www.slideshare.net 4
http://webcache.googleusercontent.com 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Prml Hackathon Prml Hackathon Presentation Transcript

    • Slice Samplingを用いた LDAの推論アルゴリズムの高速化 坪坂正志 m(dot)tsubosaka@gmail.com Blog/twitter ID: tsubosaka
    • LDA • LDAの推論では潜在変数 に関して、条件付 + き確率 = … ∝ ( + )を + 計算する – T. L. Griffiths and M. Steyvers. Finding scientific topics. In PNAS, 101, pp. 5228—5235, 2004 • トピック数Kが多いときに各トピックに対して確 率を計算するのはコストが高い
    • cf:既存の高速化手法 • Ian Porteous, David Newman, Alexander Ihler, Arthur Asuncion, Padhraic Smyth and Max Welling. Fast Collapsed Gibbs Sampling For Latent Dirichlet Allocation, In SIGKDD, 2008 – 最大10倍ぐらいの高速化 • Limin Yao, David Mimno and Andrew McCallum. Efficient Methods for Topic Model Inference on Streaming Document Collections, In SIGKDD, 2009 – 最大20倍ぐらいの高速化
    • Slice Sampling • ∝ ()()の形で書ける分布からをサ ンプリングする手法 • 1. ~(0, )で一様乱数をサンプリング(こ こでは現在の値) • 2. ≥ なるに関して()に従ってをサ ンプルする
    • LDAへの適応 • = + とする。 • 一様乱数~(0, )を発生させ、 ≥ − なるの集合をとする – 文章ごとのトピック頻度をソートした配列を保持し ておけば、この操作は容易にできる + • = に比例する確率でからをサ + ンプリングする
    • = 200
    • = 200
    • まとめ • サンプリング速度はナイーブなギブスサンプ ラーと比較して2-3倍程度に高速化された • Perplexityの収束はギブスサンプラーの方が 高速 • 既存の高速化手法には及ばなかったものの スライスサンプリングが割と汎用的に使える 手法であることを確認できた