Your SlideShare is downloading. ×
0
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Deim2012 issei sato
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Deim2012 issei sato

8,655

Published on

Published in: Technology, Business
0 Comments
32 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
8,655
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
164
Comments
0
Likes
32
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Statistical Machine LearningTopic Modelingand Bayesian Nonparametrics 確率的潜在変数モデル最前線 DEIM2012チュートリル 東京大学 情報基盤センター 助教 佐藤一誠@issei_sato 1
  • 2. 本発表の仮定• 参加者は、Topic model, LDAという単語を聞いた ことがある程度• 参加者は、自分の分野への応用に興味がある• Bayesian Nonparametricsは時間の都合上カット (ごめんなさい) 2
  • 3. 本発表の流れ• 統計的機械学習• Latent Dirichlet Allocation• Topic modelの応用例 3
  • 4. Topic modelの概要 • Topic modelとは? – 文書の確率的生成モデル – (基本的には)単語の共起性をモデル化 – (やっていることは)単語のクラスタリング – しかし、なぜか様々な分野で登場している • 応用(適用)範囲は? – データのあるところなら – シンボルデータでなくても良い(Bag of Words表現) – データ解析の主要技術になりうるKDD2011 Topic model チュートリアル http://www.cs.princeton.edu/~blei/kdd-tutorial.pdf 4
  • 5. 学習=抽象化問題: 2 x  3x  1  0 2 解ける! の根x*は? ax  bx  c  0 2 の根x*は?  b  b  4ac 2 x*  2a 5
  • 6. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ モデル空間 6
  • 7. Topic model[1/2] W1=統計 文書 w1 w2 w3単語頻度分布 W3=学習 W2=文法 7
  • 8. Topic model[2/2] W1=統計 文書 Topic1topic1 topic2Topic 分布Topicって何? Topic1 W3=学習部分Simplex空間の基底 W2=文法 8
  • 9. Topic model[2/2]  W1=統計 文書 j  Topic1Latent Dirichlet Allocation(LDA) [Blei+,2001] z j ,i t topic1 topic2 w j ,i cvcv Topic 分布 Topicって何? Topic1 W3=学習 部分Simplex空間の基底 W2=文法 9
  • 10. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ 学習アルゴリズムの研究 学習モデルの研究 モデル空間 10
  • 11. KL-divergence 最小化 真の分布 モデル q( x | θ*)  arg min KL[ p * ( x) || q( x |  )] q( x |  )KL[ p * ( x) || q( x |  )]  p * ( x) log p * ( x)dx   p * ( x) log q( x |  )dx N 1 q( x | θ*)  arg min  N  log q( x | θ ) i q( x | θ ) i 1 経験分布による近似=最尤推定 11
  • 12. ベイズ推定• 点推定 p(θ|D) p * ( x) を q( x | θ*) で表現する θ θ*• ベイズ推定 p( x | D)   p( x |  ) p( | D)d 事後分布 1   KL[ p * ( x) || q( x |  )] p( )e Z の経験分布による近似 12
  • 13. ベイズ推定 p( x | D)   p( x |  ) p( | D)dMCMC:  s ~ p( | D) s 1 p ( x | D)   p ( x |  s ) S s 1Variational Bayes: q ( )  arg min KL[q( ) || p( | D)] VB q ( ) p( x | D)   p( x |  )q( )d 13
  • 14. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う 汎化性能 データ モデル空間 14
  • 15. 汎化誤差とPerplexity [1/2]ED [ KL[ p * ( x) || p( x | D)]] p * ( x)  ED [  p * ( x) log dx] p ( x | D) N 1    log p( xi | D ) test train N i 1汎化誤差が小さいモデル=良いモデル 15
  • 16. 汎化誤差とPerplexity [2/2]Perplexity: トピックモデルの評価手法  1 N train ppl  exp   log p( xi | D ) test  N i 1  分岐数を表す(低いほうが良い)e.g. 総選択肢=1000でppl=100だと選択肢の数が1/10に減った 16
  • 17. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ 学習アルゴリズムの研究 学習モデルの研究 モデル空間 17
  • 18. 潜在変数とグラフィカルモデル データ数N x1 z1  2 Class 1 x1 Class 2 生成過程 潜在変数 zi kxi ~ p( x | zi , ) xi 4 Class 3 Class 4 N 18
  • 19. Latent Dirichlet Allocation (LDA) Blei +, JMLR2003 目的:多重トピック文書モデル 19
  • 20. LDAで重要な3つの点wj 頻度ベクトル wj 文書 j (Bag of Words) Topic1 1t wj 1 2 3 j 単語分布 2j Topic1 1 2 Topic 分布 V次元単語空間 20
  • 21. Dirichlet 分布 K次元Simplex空間上の分布 T (   t ) T t 1 Dir ( ;  )  T t 1  t  ( t ) t 1 t 1 ~ Dir ( ) 21
  • 22. 文書-Topic分布:文書jでTopic tの出現確率  j,t  j ~ Dir ( ) j  1,..., JTopic-単語分布:Topic tで単語vの出現確率 t ,v t ~ Dir ( ) t  1,..., T文書jで単語vの出現確率 T  t 1 j ,t t ,v 22
  • 23. LDAのグラフィカルモデル 生成過程 j  w j ,i ~ t 潜在変数z j ,i (  t ) ~  j z j ,i  j ~ Dir ( ) w j ,i t nj Tt ~ Dir ( ) J 23
  • 24. 潜在変数の仮定:単語は各々トピックを持つ Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.The apple forms a tree that is smalland deciduous, reaching 3 to 12 metres (9.8 to39 ft) tall, with a broad, often densely twiggycrown. 24
  • 25. 潜在変数の仮定:単語は各々トピックを持つ Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.The apple forms a tree that is smalland deciduous, reaching 3 to 12 metres (9.8 to39 ft) tall, with a broad, often densely twiggycrown. 25
  • 26. 工学的な利点:疎から疎への射影Bag of words Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.Bag of Topics 5 1 1 4 4 2 1 10 1 2 2 5 5 5 1 5 5 26
  • 27. ニュース記事Unigram model Mixture of Unigram pLSI LDA 27
  • 28. 映画鑑賞データMoU pLSI LDA 28
  • 29. SVM-2値分類 29
  • 30. Rethinking LDA: Why Priors Matter Wallach +, NIPS2009目的:Dirichlet分布のParameterに関する分析 30
  • 31. Dirichlet parameter settings  j ~ Dir ( )Asymmetric   (1 ,  2 ,..., T ) j Symmetric 0 0 0 z j ,i   ( , ,..., ) T T TAsymmetric   (1 ,  2 ,..., V ) w j ,i t TSymmetric 0 0 0 J  ( , ,..., ) t ~ Dir ( ) V V V 31
  • 32. A-α S-βA-α A-βS-α S-βS-α A-β αがAsymmetricであるほうが良い 32
  • 33. Asymmetric αではStop Wordsがまとまる 33
  • 34. 34
  • 35. LDA meets SubmodularEl-Arni+, KDD2009Turning Down the Noise in the BlogosphereYue+, NIPS2011Linear Submodular Banditsand their Application to Diversified Retrieval 目的:多様性のある要素集合の抽出 35
  • 36. 劣モジュラ関数(Submodular function)• A,B:集合, R:実数値の集合• 集合関数 F(A): A→RF(A∪{a}) - F(A) ≧ F(B∪{a}) - F(B) for all a and sets A⊆B• 情報のカバー率の性質を現すのに適している – 情報が少ないほうが1つの情報の影響が強い• 劣モジュラ関数最大化のGreedy解法 F(AGreedy )≧(1-1/e)F(A*)≒0.63F(A*) 36
  • 37. LDA-based 劣モジュラ関数[1/2]文書集合DによるTopic tのカバー率 F ( D; t )  1  1  θd ,t d D 劣モジュラ関数 になっている Topic tが文書集合Dに 1度も現れない確率 Topic tが文書集合Dに 少なくとも1度現れる確率 37
  • 38. LDA-based 劣モジュラ関数[2/2]トピックの重み付け和で集合関数を定義: F ( D)   wt F ( D; t ) wt  R  t劣モジュラ関数の線形和⇒劣モジュラ関数F(D)を最大にする集合Dを探す(s.t. |D|≦K) →トピックカバー率を最大にする集合Dを探す →多様性のある集合Dを抽出できる 38
  • 39. Collaborative Topic modelingWang+,KDD2011 Best paperCollaborative Topic modelingfor Recommending Scientific Articles 目的:Topic分布を考慮した文書推薦http://www.cs.princeton.edu/~chongw/citeulike/ 39
  • 40. Collaborative Filtering • 行列分解アプローチ u v Products 低ランク近似 1 1 ? 3 ? ? 5 ? ? 1 V ui vj ? ? 2 5 ? ≒ UUsers ri , j 3 ? ? 2 ? ? 2 ? 4 ? J I 40
  • 41. Collaborative Topic Modeling• Product=文書ならば文書のトピック情報を入れ たい u j  v ui z j ,n vj t ri , j T w j ,n J I  J 41
  • 42. Collaborative Topic Modeling• Product=文書ならば文書のトピック情報を入れ たい u j  v ui z j ,n vj t ri , j T w j ,n I  J 42
  • 43. Collaborative Topic Modeling u j  v ui z j ,n vj t ri , j T w j ,n I  J 43
  • 44. 44
  • 45. User profile example 1 45
  • 46. Topic Model with Power-law [Sato+,KDD2010]• 文書のPower-lawの性質をPitman-Yor過程を 用いてモデル化: PY(a,d,LDA) 500 words document 46
  • 47. Human Action Recognition by Semi-latent Topic Models [Wang,PAMI2009]Video sequence Motion words Bag of words ↓ representationtrack and stabilizeeach human figure 47
  • 48. LDAの学習アルゴリズム• Blei+,JMLR2003 – Latent Dirichlet Allocation – Variational Bayes inference• Griffiths+,PNAS2004 – Finding scientifictopics – Collapsed Gibbs sampler• Teh+, NIPS2006 – Collapsed variational Bayesian Inference Algorithm for Latent Dirichlet Allocation• Asuncion+,UAI2009 – On smoothing and inference for topic models – Collapsed Variational Bayes Zero 48
  • 49. オンライン学習• Samper• Yao+,KDD2009 – Efficient Methods for Topic Model Inference on Streaming Document Collections• Canini+,AISTATS2009 – Online Inference of Topics with Latent Dirichlet Allocation• Variational Bayes• Hoffman+,NIPS2010 – Online Learning for Latent Dirichlet Allocation• Sato+,NIPS2010 – Deterministic Single-pass Algorithm for LDA 49
  • 50. 並列学習• Zhai+, WWW2012 – Using Variational Inference and MapReduce to Scale Topic Modeling• Asuncion+, Statistical Methodology2011 – Asynchronous Distributed Estimation of Topic Models for Document Analysis• Smola, VLDB2010 – An Architecture for Parallel Topic Models• Newman+, JMLR2009 – Distributed Algorithms for Topic Models• Ihler+, TKDE2009 – Understanding Errors in Approximate Distributed Latent Dirichlet Allocation 50
  • 51. LDA学習レシピ• Collapsed Gibbs sampler or Collapsed Variational Bayes Zeroを使う• Dirichlet parameter – α: asynmmetricを使う – β: symmetric(でもよい) – 学習はFixed point iterationを使う Minka2000, Estimating a Dirichlet distribution [Asuncion+,UAI2009][Sato+,NIPS2010]参照 51
  • 52. Topic Modeling レシピ• Bag of XXX を考える• 拡張元モデルを内包するモデル化を心がける• 学習はCollapsed Gibbs sampler を使う• 余裕があれば(Collapsed) Variational Bayes• ただし、高次元の実ベクトルのサンプリングは 避ける – Collapsing(積分消去) – 高次元実ベクトルを点推定する 52
  • 53. Q and A 53

×