Deim2012 issei sato

10,143 views

Published on

Published in: Technology, Business
0 Comments
37 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
10,143
On SlideShare
0
From Embeds
0
Number of Embeds
198
Actions
Shares
0
Downloads
179
Comments
0
Likes
37
Embeds 0
No embeds

No notes for slide

Deim2012 issei sato

  1. 1. Statistical Machine LearningTopic Modelingand Bayesian Nonparametrics 確率的潜在変数モデル最前線 DEIM2012チュートリル 東京大学 情報基盤センター 助教 佐藤一誠@issei_sato 1
  2. 2. 本発表の仮定• 参加者は、Topic model, LDAという単語を聞いた ことがある程度• 参加者は、自分の分野への応用に興味がある• Bayesian Nonparametricsは時間の都合上カット (ごめんなさい) 2
  3. 3. 本発表の流れ• 統計的機械学習• Latent Dirichlet Allocation• Topic modelの応用例 3
  4. 4. Topic modelの概要 • Topic modelとは? – 文書の確率的生成モデル – (基本的には)単語の共起性をモデル化 – (やっていることは)単語のクラスタリング – しかし、なぜか様々な分野で登場している • 応用(適用)範囲は? – データのあるところなら – シンボルデータでなくても良い(Bag of Words表現) – データ解析の主要技術になりうるKDD2011 Topic model チュートリアル http://www.cs.princeton.edu/~blei/kdd-tutorial.pdf 4
  5. 5. 学習=抽象化問題: 2 x  3x  1  0 2 解ける! の根x*は? ax  bx  c  0 2 の根x*は?  b  b  4ac 2 x*  2a 5
  6. 6. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ モデル空間 6
  7. 7. Topic model[1/2] W1=統計 文書 w1 w2 w3単語頻度分布 W3=学習 W2=文法 7
  8. 8. Topic model[2/2] W1=統計 文書 Topic1topic1 topic2Topic 分布Topicって何? Topic1 W3=学習部分Simplex空間の基底 W2=文法 8
  9. 9. Topic model[2/2]  W1=統計 文書 j  Topic1Latent Dirichlet Allocation(LDA) [Blei+,2001] z j ,i t topic1 topic2 w j ,i cvcv Topic 分布 Topicって何? Topic1 W3=学習 部分Simplex空間の基底 W2=文法 9
  10. 10. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ 学習アルゴリズムの研究 学習モデルの研究 モデル空間 10
  11. 11. KL-divergence 最小化 真の分布 モデル q( x | θ*)  arg min KL[ p * ( x) || q( x |  )] q( x |  )KL[ p * ( x) || q( x |  )]  p * ( x) log p * ( x)dx   p * ( x) log q( x |  )dx N 1 q( x | θ*)  arg min  N  log q( x | θ ) i q( x | θ ) i 1 経験分布による近似=最尤推定 11
  12. 12. ベイズ推定• 点推定 p(θ|D) p * ( x) を q( x | θ*) で表現する θ θ*• ベイズ推定 p( x | D)   p( x |  ) p( | D)d 事後分布 1   KL[ p * ( x) || q( x |  )] p( )e Z の経験分布による近似 12
  13. 13. ベイズ推定 p( x | D)   p( x |  ) p( | D)dMCMC:  s ~ p( | D) s 1 p ( x | D)   p ( x |  s ) S s 1Variational Bayes: q ( )  arg min KL[q( ) || p( | D)] VB q ( ) p( x | D)   p( x |  )q( )d 13
  14. 14. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う 汎化性能 データ モデル空間 14
  15. 15. 汎化誤差とPerplexity [1/2]ED [ KL[ p * ( x) || p( x | D)]] p * ( x)  ED [  p * ( x) log dx] p ( x | D) N 1    log p( xi | D ) test train N i 1汎化誤差が小さいモデル=良いモデル 15
  16. 16. 汎化誤差とPerplexity [2/2]Perplexity: トピックモデルの評価手法  1 N train ppl  exp   log p( xi | D ) test  N i 1  分岐数を表す(低いほうが良い)e.g. 総選択肢=1000でppl=100だと選択肢の数が1/10に減った 16
  17. 17. 統計的機械学習• 数理モデルによる抽象化• 目的:データや人の経験を数理モデルにより 抽象化することで、未知の問題解決を行う データ 学習アルゴリズムの研究 学習モデルの研究 モデル空間 17
  18. 18. 潜在変数とグラフィカルモデル データ数N x1 z1  2 Class 1 x1 Class 2 生成過程 潜在変数 zi kxi ~ p( x | zi , ) xi 4 Class 3 Class 4 N 18
  19. 19. Latent Dirichlet Allocation (LDA) Blei +, JMLR2003 目的:多重トピック文書モデル 19
  20. 20. LDAで重要な3つの点wj 頻度ベクトル wj 文書 j (Bag of Words) Topic1 1t wj 1 2 3 j 単語分布 2j Topic1 1 2 Topic 分布 V次元単語空間 20
  21. 21. Dirichlet 分布 K次元Simplex空間上の分布 T (   t ) T t 1 Dir ( ;  )  T t 1  t  ( t ) t 1 t 1 ~ Dir ( ) 21
  22. 22. 文書-Topic分布:文書jでTopic tの出現確率  j,t  j ~ Dir ( ) j  1,..., JTopic-単語分布:Topic tで単語vの出現確率 t ,v t ~ Dir ( ) t  1,..., T文書jで単語vの出現確率 T  t 1 j ,t t ,v 22
  23. 23. LDAのグラフィカルモデル 生成過程 j  w j ,i ~ t 潜在変数z j ,i (  t ) ~  j z j ,i  j ~ Dir ( ) w j ,i t nj Tt ~ Dir ( ) J 23
  24. 24. 潜在変数の仮定:単語は各々トピックを持つ Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.The apple forms a tree that is smalland deciduous, reaching 3 to 12 metres (9.8 to39 ft) tall, with a broad, often densely twiggycrown. 24
  25. 25. 潜在変数の仮定:単語は各々トピックを持つ Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.The apple forms a tree that is smalland deciduous, reaching 3 to 12 metres (9.8 to39 ft) tall, with a broad, often densely twiggycrown. 25
  26. 26. 工学的な利点:疎から疎への射影Bag of words Apple is an American multinational corporation that designs and sells consumer electronics, computer software, and personal computers.Bag of Topics 5 1 1 4 4 2 1 10 1 2 2 5 5 5 1 5 5 26
  27. 27. ニュース記事Unigram model Mixture of Unigram pLSI LDA 27
  28. 28. 映画鑑賞データMoU pLSI LDA 28
  29. 29. SVM-2値分類 29
  30. 30. Rethinking LDA: Why Priors Matter Wallach +, NIPS2009目的:Dirichlet分布のParameterに関する分析 30
  31. 31. Dirichlet parameter settings  j ~ Dir ( )Asymmetric   (1 ,  2 ,..., T ) j Symmetric 0 0 0 z j ,i   ( , ,..., ) T T TAsymmetric   (1 ,  2 ,..., V ) w j ,i t TSymmetric 0 0 0 J  ( , ,..., ) t ~ Dir ( ) V V V 31
  32. 32. A-α S-βA-α A-βS-α S-βS-α A-β αがAsymmetricであるほうが良い 32
  33. 33. Asymmetric αではStop Wordsがまとまる 33
  34. 34. 34
  35. 35. LDA meets SubmodularEl-Arni+, KDD2009Turning Down the Noise in the BlogosphereYue+, NIPS2011Linear Submodular Banditsand their Application to Diversified Retrieval 目的:多様性のある要素集合の抽出 35
  36. 36. 劣モジュラ関数(Submodular function)• A,B:集合, R:実数値の集合• 集合関数 F(A): A→RF(A∪{a}) - F(A) ≧ F(B∪{a}) - F(B) for all a and sets A⊆B• 情報のカバー率の性質を現すのに適している – 情報が少ないほうが1つの情報の影響が強い• 劣モジュラ関数最大化のGreedy解法 F(AGreedy )≧(1-1/e)F(A*)≒0.63F(A*) 36
  37. 37. LDA-based 劣モジュラ関数[1/2]文書集合DによるTopic tのカバー率 F ( D; t )  1  1  θd ,t d D 劣モジュラ関数 になっている Topic tが文書集合Dに 1度も現れない確率 Topic tが文書集合Dに 少なくとも1度現れる確率 37
  38. 38. LDA-based 劣モジュラ関数[2/2]トピックの重み付け和で集合関数を定義: F ( D)   wt F ( D; t ) wt  R  t劣モジュラ関数の線形和⇒劣モジュラ関数F(D)を最大にする集合Dを探す(s.t. |D|≦K) →トピックカバー率を最大にする集合Dを探す →多様性のある集合Dを抽出できる 38
  39. 39. Collaborative Topic modelingWang+,KDD2011 Best paperCollaborative Topic modelingfor Recommending Scientific Articles 目的:Topic分布を考慮した文書推薦http://www.cs.princeton.edu/~chongw/citeulike/ 39
  40. 40. Collaborative Filtering • 行列分解アプローチ u v Products 低ランク近似 1 1 ? 3 ? ? 5 ? ? 1 V ui vj ? ? 2 5 ? ≒ UUsers ri , j 3 ? ? 2 ? ? 2 ? 4 ? J I 40
  41. 41. Collaborative Topic Modeling• Product=文書ならば文書のトピック情報を入れ たい u j  v ui z j ,n vj t ri , j T w j ,n J I  J 41
  42. 42. Collaborative Topic Modeling• Product=文書ならば文書のトピック情報を入れ たい u j  v ui z j ,n vj t ri , j T w j ,n I  J 42
  43. 43. Collaborative Topic Modeling u j  v ui z j ,n vj t ri , j T w j ,n I  J 43
  44. 44. 44
  45. 45. User profile example 1 45
  46. 46. Topic Model with Power-law [Sato+,KDD2010]• 文書のPower-lawの性質をPitman-Yor過程を 用いてモデル化: PY(a,d,LDA) 500 words document 46
  47. 47. Human Action Recognition by Semi-latent Topic Models [Wang,PAMI2009]Video sequence Motion words Bag of words ↓ representationtrack and stabilizeeach human figure 47
  48. 48. LDAの学習アルゴリズム• Blei+,JMLR2003 – Latent Dirichlet Allocation – Variational Bayes inference• Griffiths+,PNAS2004 – Finding scientifictopics – Collapsed Gibbs sampler• Teh+, NIPS2006 – Collapsed variational Bayesian Inference Algorithm for Latent Dirichlet Allocation• Asuncion+,UAI2009 – On smoothing and inference for topic models – Collapsed Variational Bayes Zero 48
  49. 49. オンライン学習• Samper• Yao+,KDD2009 – Efficient Methods for Topic Model Inference on Streaming Document Collections• Canini+,AISTATS2009 – Online Inference of Topics with Latent Dirichlet Allocation• Variational Bayes• Hoffman+,NIPS2010 – Online Learning for Latent Dirichlet Allocation• Sato+,NIPS2010 – Deterministic Single-pass Algorithm for LDA 49
  50. 50. 並列学習• Zhai+, WWW2012 – Using Variational Inference and MapReduce to Scale Topic Modeling• Asuncion+, Statistical Methodology2011 – Asynchronous Distributed Estimation of Topic Models for Document Analysis• Smola, VLDB2010 – An Architecture for Parallel Topic Models• Newman+, JMLR2009 – Distributed Algorithms for Topic Models• Ihler+, TKDE2009 – Understanding Errors in Approximate Distributed Latent Dirichlet Allocation 50
  51. 51. LDA学習レシピ• Collapsed Gibbs sampler or Collapsed Variational Bayes Zeroを使う• Dirichlet parameter – α: asynmmetricを使う – β: symmetric(でもよい) – 学習はFixed point iterationを使う Minka2000, Estimating a Dirichlet distribution [Asuncion+,UAI2009][Sato+,NIPS2010]参照 51
  52. 52. Topic Modeling レシピ• Bag of XXX を考える• 拡張元モデルを内包するモデル化を心がける• 学習はCollapsed Gibbs sampler を使う• 余裕があれば(Collapsed) Variational Bayes• ただし、高次元の実ベクトルのサンプリングは 避ける – Collapsing(積分消去) – 高次元実ベクトルを点推定する 52
  53. 53. Q and A 53

×