SlideShare a Scribd company logo
Topic Models, LDA and all that

                               肖智博

                           DLMU-ITREC


                         April 21, 2011




肖智博 (DLMU-ITREC)      Topic Models, LDA and all that   April 21, 2011   1 / 35
目录


1   Introduction


2   Latent Dirichlet Allocation


3   后验概率逼近方法


4   图像领域的主题模型


5   参考文献




     肖智博 (DLMU-ITREC)         Topic Models, LDA and all that   April 21, 2011   2 / 35
Introduction




肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   3 / 35
主题模型(topic model)



 ∙ LDA(Latent Dirichlet Allocation)是最简单的主题模型。
 ∙ 主题模型为自动组织、理解、检索大量电子问题提供了一种可行的
      方法。
LDA的作用:
 1    发掘语料库中隐藏的主题模式;
 2    根据主题对文档进行标注;
 3    利用标注对文档进行组织、整理、归纳和检索。




     肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   4 / 35
什么是主题 (topic)
   主



 ∙ 从词汇的角度讲:
    ∙ 是一篇文章或者几篇文章共同的代表
    ∙ 隐含语义
    ∙ 共同出现词语的一种模式
    ∙ 共同出现词语的一种聚类
    ∙ 一种弱的分类类表
 ∙ 从概率分布的角度讲:
    ∙ 每个主题都是对所有词的一个概率分布;
    ∙ 主题对同时出现的词赋予较高的概率;
    ∙ 同时出现的词互相之间有某种关联性




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   5 / 35
主题模型



从机器学习的角度来讲,主题模型是将层次贝叶斯网络应用到数据(文
档或者图像)的典型应用。
 ∙ 每篇文档包括多个主题;
 ∙ 隐含变量起到表示文档间主题结构的作用;
 ∙ 主题模型基于bag-of-word或者bag-of-feature假设;
 ∙ 所以,词的顺序是没有意义的。




 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   6 / 35
主题模型的例子




∙ 每个文档都是所有主题的一个随机混合(random mixture)
∙ 每个词都是从一个主题中产生

 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   7 / 35
主题模型的例子




∙ 现实中,观测数据仅仅是文档
∙ 目的是推 断 潜在的主题结构
     推

 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   8 / 35
Latent Dirichlet Allocation




肖智博 (DLMU-ITREC)         Topic Models, LDA and all that   April 21, 2011   9 / 35
Latent Dirichlet Allocation




   肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   10 / 35
Why Latent?




贝叶斯网络通过如下几个方面描述变量之间的关系:
 ∙ 连接结点的边和边的指向;
 ∙ 结点的概率分布――先验分布和后验分布。
对于无法准确描述的变量关系通过引入隐 含结点 来解决。
                   隐
LDA中,通过隐含结点的后 验概率来描述词的共现现象,并且对其赋予
            后
较高的概率。




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   11 / 35
主题模型:前人工作

有效的找到语料库中大量文档的简短描述,同时保留其内部的统计特
征,为分类、文摘、异常点检测和相似性检验提供基础。
 ∙ 1983年— tf-idf
   统计词频,无法捕捉到文档内部和文档间的统计特征;
 ∙ 1990年— LSI(Latent Semantic Indexing)
   在词与文档(term-by-document)矩阵上使用SVD,tf-idf 的线性组合,
   能捕捉到一些语法特征;
 ∙ 1999年— pLSI(aka Aspect Model 内容模型)
   参数随着语料库的容量增长,容易过拟合,在文档层面没有一个统
   计模型,无法对文档指定概率;
 ∙ 2003年— LDA
   bag-of-word假设,同时考虑词和文档交换性的混合模型



  肖智博 (DLMU-ITREC)     Topic Models, LDA and all that   April 21, 2011   12 / 35
Graphical Model




  ∙ 结点代表变量,边代表可能的依赖关系
  ∙ 隐含结点为空心,观测结点为实心
  ∙ 盒子表示重复结构
                                                           N
                                                          ∏︁
                      P(y , x1 , . . . , xn ) = P(y )             P(xn |y )
                                                          n=1



   肖智博 (DLMU-ITREC)              Topic Models, LDA and all that               April 21, 2011   13 / 35
LDA in graphical model




   肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   14 / 35
LDA过程

对于语料库������中的每个文档w ,LDA是如下的变参数层次贝叶斯网络:
 1    选择单词的个数N ∼ Poission(������)
 2    选择文档中话题比率������ ∼ Dir(������)
 3    对于每个单词wn
        1   选择话题zn ∼ Multi(������)
        2   从分布p(wn |zn , ������)中选择单词wn




     肖智博 (DLMU-ITREC)     Topic Models, LDA and all that   April 21, 2011   15 / 35
The “Actual” LDA过程




 1    将语料库中的每个文档表示成词汇计数的向量模型
 2    建立LDA模型
 3    通过逼近方法计算这个模型
 4    评价模型
 5    模型应用




     肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   16 / 35
Topic Model解释




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   17 / 35
Topic Model主题指定示意




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   18 / 35
Latent Dirichlet Allocation




  ∙ Dirichlet起到了“平滑”的作用
      ∙ ������ ∼ Dir (������)保证了每个文档中都包含了所有话题
      ∙ ������ ∼ Dir (������)保证了每个话题包含所有词汇
  ∙ Dirichelt和Multinomial是共轭的
  ∙ ������控制着������的均值和稀疏度




   肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   19 / 35
Dirichlet Distribution — ������




            ������i 控制分布的聚集程度
       ∑︀
  ∙
  ∙ 当������ < 1的时候,越来越稀疏

      肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   20 / 35
Dirichlet Distribution — samples




   肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   21 / 35
LDA — 后验概率估计方法




利用后验概率来估计参数
 ∙ Mean field Variational Inference
 ∙ Collapse Gibbs sampling




  肖智博 (DLMU-ITREC)        Topic Models, LDA and all that   April 21, 2011   22 / 35
LDA — 结果




 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   23 / 35
LDA — 结果




 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   24 / 35
主题模型的后续改进以及演化



∙ LDA可以嵌 入 到 其 他 更 复 杂 的 模 型 中 ,反应数据间的结构
       嵌
∙ 可以根据来源不同,产 生 数 据 的 概 率 分 布 也不同
           产
∙ 根据应用的不同,后 验 分 布 可以应用于各种场合
          后

∙ 主题的演化与跟踪(Dynamic TM, Temporal TM)
∙ 相关主题间的发现(Correlated TM)
∙ 将TM应用于信息检索、分类、推荐等




 肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   25 / 35
Why does LDA ”work”?



为什么LDA的后验分布可以将属于一个主题的词放在一起?
 ∙ LDA中,作为先验分布的Dirichlet在一定程度上鼓励话题的“稀疏
   性”
 ∙ 多数文章中,每篇文章的确仅有几个主题
 ∙ 由于主题数目≪词汇数目,所以词汇会产生类似聚类的“共同出
   现”效应
 ∙ 贝叶斯网络模型的条件独立性




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   26 / 35
Approximation Inference for LDA




肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   27 / 35
如何得到LDA中的参数— 推断



LDA模型中最重要的计算任务是计算隐含变量的后验概率
                                              p(������, z, w |������, ������)
                     p(������, z|w , ������, ������) =
                                                p(w |������, ������)

近似推断方法有两种:
 ∙ 变分法(Variational Inference)
 ∙ 抽样法(Gibbs Sampling)




  肖智博 (DLMU-ITREC)           Topic Models, LDA and all that         April 21, 2011   28 / 35
推断方法

∙ 判定方法(变分、优化)
   ∙ Mean Field, Belief Propagation
   ∙ Variational Bayes, Expectation Propagation
   ∙ 计算量小,不精确,可以给出边界
∙ 随机方法(抽样)
   ∙ Metropolis-Hasting, Gibbs, MCMC, etc
   ∙ 计算量大,但相对精确




 肖智博 (DLMU-ITREC)        Topic Models, LDA and all that   April 21, 2011   29 / 35
LDA in Vision




肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   30 / 35
Main difficulties



要解决的问题:
  ∙ 什么作为词?
  ∙ 什么是文档?
  ∙ 什么作为主题?
解决方案:
  ∙ 简单做法:每副图像作为一个文档,图像块(image patches)作
    为codebook当做词
  ∙ Spatial Latent Dirichlet Allocation




   肖智博 (DLMU-ITREC)        Topic Models, LDA and all that   April 21, 2011   31 / 35
将LDA直接应用到图像领域




将图像做为文档,将图像中的部分视为词汇。具体处理过程如下:
 1    抽取局部特征
 2    利用局部特征构建codebook,通常采用简单的聚类方法将相似特征
      聚类
 3    在bag-of-feature假设下,利用codebook将图像分割




     肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   32 / 35
Spatial LDA




  ∙ bag-of-word假设无法反应图像中的空间位置信息
  ∙ 被LDA训练出来的模型通常会将共同出现的词赋予相同主题,但
   是,图像领域这样假设不恰当(汽车和天空经常同时出现)
  ∙ 在LDA中小概率的词语通常会被指定到高概率的主题中,在图像
   中,小块的图像极有可能被指定到大块图像的主题中




  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   33 / 35
Spatial LDA
SLDA通过将文档作为隐含变量达到将空间信息和时间信息引入模型的
目的:
         ci ∼ Normal(cd , ������); cjd = (gjd , xjd , yjd )


gjd 是文档j所在图像的索引,(xjd , yjd )是文档的位置




Figure: 将空间信息加入文档的方法。(a): 将图像分割成不重叠的区域,每个
区域当成一个文档。每个区域中的图像块被指定到对应文档。(b): 一个图像块
被多个区域重叠覆盖。(c): 每个图像对应一个点。如果一个图像块举例一个文
档近,则有较高概率被指定到该文档。

  肖智博 (DLMU-ITREC)   Topic Models, LDA and all that   April 21, 2011   34 / 35
部分参考文献
∙ D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of
  Machine Learning Research, 3:993-1022, January 2003.
∙ D. Blei and M. Jordan. Variational inference for Dirichlet process
  mixtures. Journal of Bayesian Analysis, 1:121-144, 2006.
∙ M. Steyvers and T. Griffiths. Probabilistic Topic Models. In Latent
  Semantic Analysis: A Road to Meaning, T. Landauer, Mcnamara, S.
  Dennis, and W. Kintsch eds. Laurence Erlbaum, 2006.
∙ Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet
  processes. Journal of the American Statistical Association,
  101:1566-1581, 2006.
∙ J. Zhu, A. Ahmed and E. P. Xing. MedLDA: Maximum Margin
  Supervised Topic Models for Regression and Classification. The 26th
  International Conference on Machine Learning, 2009.
∙ D. Blei and J. Lafferty. Dynamic topic models. In International
  Conference on Machine Learning, 2006.
 肖智博 (DLMU-ITREC)        Topic Models, LDA and all that   April 21, 2011   35 / 35

More Related Content

What's hot

word embeddings and applications to machine translation and sentiment analysis
word embeddings and applications to machine translation and sentiment analysisword embeddings and applications to machine translation and sentiment analysis
word embeddings and applications to machine translation and sentiment analysis
Mostapha Benhenda
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - ΕργασίεςΣυστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
Theodoros Leftheroudis
 
Stationary & Non stationary signal.pptx
Stationary & Non stationary signal.pptxStationary & Non stationary signal.pptx
Stationary & Non stationary signal.pptx
RCCIITAEIE
 

What's hot (20)

Nlp and transformer (v3s)
Nlp and transformer (v3s)Nlp and transformer (v3s)
Nlp and transformer (v3s)
 
Implementation of Designed Encoder and Decoder for Golay Code
Implementation of Designed Encoder and Decoder for Golay CodeImplementation of Designed Encoder and Decoder for Golay Code
Implementation of Designed Encoder and Decoder for Golay Code
 
ΠΛΗ31 ΜΑΘΗΜΑ 3.4
ΠΛΗ31 ΜΑΘΗΜΑ 3.4ΠΛΗ31 ΜΑΘΗΜΑ 3.4
ΠΛΗ31 ΜΑΘΗΜΑ 3.4
 
Repatino code - hamming code (7,4) - chapter four
Repatino code - hamming code (7,4) - chapter fourRepatino code - hamming code (7,4) - chapter four
Repatino code - hamming code (7,4) - chapter four
 
Signals and systems-3
Signals and systems-3Signals and systems-3
Signals and systems-3
 
Demystifying NLP Transformers: Understanding the Power and Architecture behin...
Demystifying NLP Transformers: Understanding the Power and Architecture behin...Demystifying NLP Transformers: Understanding the Power and Architecture behin...
Demystifying NLP Transformers: Understanding the Power and Architecture behin...
 
word embeddings and applications to machine translation and sentiment analysis
word embeddings and applications to machine translation and sentiment analysisword embeddings and applications to machine translation and sentiment analysis
word embeddings and applications to machine translation and sentiment analysis
 
Fast Fourier Transform
Fast Fourier TransformFast Fourier Transform
Fast Fourier Transform
 
απαντήσεις ασκήσεων κεφ. ψηφιακά ηλεκτρονικά
απαντήσεις ασκήσεων κεφ. ψηφιακά ηλεκτρονικάαπαντήσεις ασκήσεων κεφ. ψηφιακά ηλεκτρονικά
απαντήσεις ασκήσεων κεφ. ψηφιακά ηλεκτρονικά
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - ΕργασίεςΣυστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6 - Εργασίες
 
Plh21 typologio
Plh21 typologioPlh21 typologio
Plh21 typologio
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 10
 
Des
DesDes
Des
 
ΠΛΗ31 ΜΑΘΗΜΑ 2.2
ΠΛΗ31 ΜΑΘΗΜΑ 2.2ΠΛΗ31 ΜΑΘΗΜΑ 2.2
ΠΛΗ31 ΜΑΘΗΜΑ 2.2
 
Stationary & Non stationary signal.pptx
Stationary & Non stationary signal.pptxStationary & Non stationary signal.pptx
Stationary & Non stationary signal.pptx
 
Coding theory updated
Coding theory updatedCoding theory updated
Coding theory updated
 
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6
Συστήματα Ψηφιακών Ηλεκτρονικών Θεωρία ΚΕΦ 6
 
Απαντήσεις ερωτήσεων και ασκήσεων κεφαλαίων Ηλεκτρονικών Επικοινωνιών
Απαντήσεις ερωτήσεων και ασκήσεων κεφαλαίων Ηλεκτρονικών ΕπικοινωνιώνΑπαντήσεις ερωτήσεων και ασκήσεων κεφαλαίων Ηλεκτρονικών Επικοινωνιών
Απαντήσεις ερωτήσεων και ασκήσεων κεφαλαίων Ηλεκτρονικών Επικοινωνιών
 
Basics of coding theory
Basics of coding theoryBasics of coding theory
Basics of coding theory
 
DIGITAL ELECTRONICS
DIGITAL ELECTRONICSDIGITAL ELECTRONICS
DIGITAL ELECTRONICS
 

Viewers also liked

Analysis of Metadata and Topic Modeling for
Analysis of Metadata and Topic Modeling forAnalysis of Metadata and Topic Modeling for
Analysis of Metadata and Topic Modeling for
Jigar Mehta
 

Viewers also liked (20)

Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
LDA Beginner's Tutorial
LDA Beginner's TutorialLDA Beginner's Tutorial
LDA Beginner's Tutorial
 
LDA
LDALDA
LDA
 
PCA vs LDA
PCA vs LDAPCA vs LDA
PCA vs LDA
 
Topic Models - LDA and Correlated Topic Models
Topic Models - LDA and Correlated Topic ModelsTopic Models - LDA and Correlated Topic Models
Topic Models - LDA and Correlated Topic Models
 
Text Mining using LDA with Context
Text Mining using LDA with ContextText Mining using LDA with Context
Text Mining using LDA with Context
 
Topic Modeling for Learning Analytics Researchers LAK15 Tutorial
Topic Modeling for Learning Analytics Researchers LAK15 TutorialTopic Modeling for Learning Analytics Researchers LAK15 Tutorial
Topic Modeling for Learning Analytics Researchers LAK15 Tutorial
 
LDA presentation
LDA presentationLDA presentation
LDA presentation
 
word2vec, LDA, and introducing a new hybrid algorithm: lda2vec
word2vec, LDA, and introducing a new hybrid algorithm: lda2vecword2vec, LDA, and introducing a new hybrid algorithm: lda2vec
word2vec, LDA, and introducing a new hybrid algorithm: lda2vec
 
Understandig PCA and LDA
Understandig PCA and LDAUnderstandig PCA and LDA
Understandig PCA and LDA
 
Topic Modeling
Topic ModelingTopic Modeling
Topic Modeling
 
LDA入門
LDA入門LDA入門
LDA入門
 
Analysis of Metadata and Topic Modeling for
Analysis of Metadata and Topic Modeling forAnalysis of Metadata and Topic Modeling for
Analysis of Metadata and Topic Modeling for
 
Collaborative Personalized Twitter Search with Topic-Language Models
Collaborative Personalized Twitter Search with Topic-Language ModelsCollaborative Personalized Twitter Search with Topic-Language Models
Collaborative Personalized Twitter Search with Topic-Language Models
 
A Topic Model for Traffic Speed Data Analysis
A Topic Model for Traffic Speed Data AnalysisA Topic Model for Traffic Speed Data Analysis
A Topic Model for Traffic Speed Data Analysis
 
Face recognition using LDA
Face recognition using LDAFace recognition using LDA
Face recognition using LDA
 
Dictionary-based named entity recognition
Dictionary-based named entity recognitionDictionary-based named entity recognition
Dictionary-based named entity recognition
 
Topic model, LDA and all that
Topic model, LDA and all thatTopic model, LDA and all that
Topic model, LDA and all that
 
Topics Modeling
Topics ModelingTopics Modeling
Topics Modeling
 
Latent dirichletallocation presentation
Latent dirichletallocation presentationLatent dirichletallocation presentation
Latent dirichletallocation presentation
 

Similar to Topic Models, LDA and all that

管理資訊系統之資訊架構
管理資訊系統之資訊架構管理資訊系統之資訊架構
管理資訊系統之資訊架構
5045033
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDB
Monster Supreme
 

Similar to Topic Models, LDA and all that (18)

数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
数据结构(用面向对象方法与C++语言描述第二版)殷人昆编著清华大学出版社
 
Sphinx 全文检索实践指南
Sphinx 全文检索实践指南Sphinx 全文检索实践指南
Sphinx 全文检索实践指南
 
资源整合与Web2.0
资源整合与Web2.0资源整合与Web2.0
资源整合与Web2.0
 
Kevenjiaoda
KevenjiaodaKevenjiaoda
Kevenjiaoda
 
资源整合与Web2.0
资源整合与Web2.0资源整合与Web2.0
资源整合与Web2.0
 
管理資訊系統之資訊架構
管理資訊系統之資訊架構管理資訊系統之資訊架構
管理資訊系統之資訊架構
 
Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)Text clustering (information retrieval, in chinese)
Text clustering (information retrieval, in chinese)
 
Metadata4shenzhen Final
Metadata4shenzhen FinalMetadata4shenzhen Final
Metadata4shenzhen Final
 
Web 2 0 At Dc 2008
Web 2 0 At Dc 2008Web 2 0 At Dc 2008
Web 2 0 At Dc 2008
 
20160602 典藏目錄的語意與連結
20160602 典藏目錄的語意與連結20160602 典藏目錄的語意與連結
20160602 典藏目錄的語意與連結
 
Information Retrieval
Information RetrievalInformation Retrieval
Information Retrieval
 
Dci vs aggregate_dddtw_2021-0.3-16-9
Dci vs aggregate_dddtw_2021-0.3-16-9Dci vs aggregate_dddtw_2021-0.3-16-9
Dci vs aggregate_dddtw_2021-0.3-16-9
 
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
理解和利用关联数据 --图情档博(LAM)作为关联数据的提供者和消费者
 
OOAD
OOADOOAD
OOAD
 
《资源描述与检索》:从入门到实施
《资源描述与检索》:从入门到实施《资源描述与检索》:从入门到实施
《资源描述与检索》:从入门到实施
 
hibernate
hibernatehibernate
hibernate
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDB
 
Linux c++ 编程之链接与装载 -提高篇--v0.3--20120509
Linux c++ 编程之链接与装载 -提高篇--v0.3--20120509Linux c++ 编程之链接与装载 -提高篇--v0.3--20120509
Linux c++ 编程之链接与装载 -提高篇--v0.3--20120509
 

Recently uploaded

🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
微信 tytyqqww业务接单
 
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求** 小红在英国攻读硕士学位时,由于某门专业课程的难...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求**  小红在英国攻读硕士学位时,由于某门专业课程的难...出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求**  小红在英国攻读硕士学位时,由于某门专业课程的难...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求** 小红在英国攻读硕士学位时,由于某门专业课程的难...
微信 tytyqqww业务接单
 
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
微信 tytyqqww业务接单
 
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
微信 tytyqqww业务接单
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
微信 tytyqqww业务接单
 
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
微信 tytyqqww业务接单
 
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科** 如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科**  如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科**  如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科** 如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
微信 tytyqqww业务接单
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源** 在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源**  在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源**  在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源** 在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
微信 tytyqqww业务接单
 
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
微信 tytyqqww业务接单
 

Recently uploaded (17)

黑客改大学毕业成绩!挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
黑客改大学毕业成绩!挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】黑客改大学毕业成绩!挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
黑客改大学毕业成绩!挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
 
挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
挂科后,我真的很担心自己的成绩。如果可以的话,能不能请黑客帮个忙修改一下?【微 tytyqqww 信】
 
🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
🔍揭秘:黑客改成绩单,学历认证无阻碍! 听说有人找“高手”改成绩?还能顺利回国获得学历认证哦~ 🤔[闪亮]真的假的?别不信。最近几起案例都证实了它是真实存...
 
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
 
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求** 小红在英国攻读硕士学位时,由于某门专业课程的难...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求**  小红在英国攻读硕士学位时,由于某门专业课程的难...出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求**  小红在英国攻读硕士学位时,由于某门专业课程的难...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,通过重修达到学位要求** 小红在英国攻读硕士学位时,由于某门专业课程的难...
 
想问下,如果找黑客改成绩,回国后还能不能正常认证学历啊?【微 tytyqqww 信】
想问下,如果找黑客改成绩,回国后还能不能正常认证学历啊?【微 tytyqqww 信】想问下,如果找黑客改成绩,回国后还能不能正常认证学历啊?【微 tytyqqww 信】
想问下,如果找黑客改成绩,回国后还能不能正常认证学历啊?【微 tytyqqww 信】
 
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
黑客来助力,成绩轻松改🎉 回国学历认证无忧解烦恼!|黑科技为你保驾护航,留学路上更顺畅。不用再担心烦人的成绩单问题啦~ #IT技术 #网络安全【微 tyt...
 
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
🎉黑客修改成绩大揭秘! 🚀💥你知道吗?这些天的努力,竟然被一个小小的改变毁掉了。别让坏运气影响到你未来哦~ #改变命运 #掌控命运 #逆天改命 #运气不好...
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
 
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
 
🔥 黑客大揭秘!改写成绩,轻松搞定! 🚀[闪亮的星星] 想知道学霸怎么学、学渣如何逆袭吗?我们带你深入调查:一个神秘黑客组织,他们如何入侵各大平台数据,修...
🔥 黑客大揭秘!改写成绩,轻松搞定! 🚀[闪亮的星星] 想知道学霸怎么学、学渣如何逆袭吗?我们带你深入调查:一个神秘黑客组织,他们如何入侵各大平台数据,修...🔥 黑客大揭秘!改写成绩,轻松搞定! 🚀[闪亮的星星] 想知道学霸怎么学、学渣如何逆袭吗?我们带你深入调查:一个神秘黑客组织,他们如何入侵各大平台数据,修...
🔥 黑客大揭秘!改写成绩,轻松搞定! 🚀[闪亮的星星] 想知道学霸怎么学、学渣如何逆袭吗?我们带你深入调查:一个神秘黑客组织,他们如何入侵各大平台数据,修...
 
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科** 如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科**  如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科**  如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
黑客改GPA,改成绩单,出国改成绩,破解教务系统,多次挂科** 如果一个学生多次挂科,尤其是在不同学期或不同课程中,这可能会给招生官留下学习态度不端正或...
 
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
 
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源** 在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源**  在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源**  在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩.重修过程中的学术支持和资源** 在重修过程中,学校通常会提供学术支持和资源帮助学生更好地完...
 
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
 
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
 

Topic Models, LDA and all that

  • 1. Topic Models, LDA and all that 肖智博 DLMU-ITREC April 21, 2011 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 1 / 35
  • 2. 目录 1 Introduction 2 Latent Dirichlet Allocation 3 后验概率逼近方法 4 图像领域的主题模型 5 参考文献 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 2 / 35
  • 3. Introduction 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 3 / 35
  • 4. 主题模型(topic model) ∙ LDA(Latent Dirichlet Allocation)是最简单的主题模型。 ∙ 主题模型为自动组织、理解、检索大量电子问题提供了一种可行的 方法。 LDA的作用: 1 发掘语料库中隐藏的主题模式; 2 根据主题对文档进行标注; 3 利用标注对文档进行组织、整理、归纳和检索。 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 4 / 35
  • 5. 什么是主题 (topic) 主 ∙ 从词汇的角度讲: ∙ 是一篇文章或者几篇文章共同的代表 ∙ 隐含语义 ∙ 共同出现词语的一种模式 ∙ 共同出现词语的一种聚类 ∙ 一种弱的分类类表 ∙ 从概率分布的角度讲: ∙ 每个主题都是对所有词的一个概率分布; ∙ 主题对同时出现的词赋予较高的概率; ∙ 同时出现的词互相之间有某种关联性 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 5 / 35
  • 6. 主题模型 从机器学习的角度来讲,主题模型是将层次贝叶斯网络应用到数据(文 档或者图像)的典型应用。 ∙ 每篇文档包括多个主题; ∙ 隐含变量起到表示文档间主题结构的作用; ∙ 主题模型基于bag-of-word或者bag-of-feature假设; ∙ 所以,词的顺序是没有意义的。 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 6 / 35
  • 7. 主题模型的例子 ∙ 每个文档都是所有主题的一个随机混合(random mixture) ∙ 每个词都是从一个主题中产生 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 7 / 35
  • 8. 主题模型的例子 ∙ 现实中,观测数据仅仅是文档 ∙ 目的是推 断 潜在的主题结构 推 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 8 / 35
  • 9. Latent Dirichlet Allocation 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 9 / 35
  • 10. Latent Dirichlet Allocation 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 10 / 35
  • 11. Why Latent? 贝叶斯网络通过如下几个方面描述变量之间的关系: ∙ 连接结点的边和边的指向; ∙ 结点的概率分布――先验分布和后验分布。 对于无法准确描述的变量关系通过引入隐 含结点 来解决。 隐 LDA中,通过隐含结点的后 验概率来描述词的共现现象,并且对其赋予 后 较高的概率。 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 11 / 35
  • 12. 主题模型:前人工作 有效的找到语料库中大量文档的简短描述,同时保留其内部的统计特 征,为分类、文摘、异常点检测和相似性检验提供基础。 ∙ 1983年— tf-idf 统计词频,无法捕捉到文档内部和文档间的统计特征; ∙ 1990年— LSI(Latent Semantic Indexing) 在词与文档(term-by-document)矩阵上使用SVD,tf-idf 的线性组合, 能捕捉到一些语法特征; ∙ 1999年— pLSI(aka Aspect Model 内容模型) 参数随着语料库的容量增长,容易过拟合,在文档层面没有一个统 计模型,无法对文档指定概率; ∙ 2003年— LDA bag-of-word假设,同时考虑词和文档交换性的混合模型 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 12 / 35
  • 13. Graphical Model ∙ 结点代表变量,边代表可能的依赖关系 ∙ 隐含结点为空心,观测结点为实心 ∙ 盒子表示重复结构 N ∏︁ P(y , x1 , . . . , xn ) = P(y ) P(xn |y ) n=1 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 13 / 35
  • 14. LDA in graphical model 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 14 / 35
  • 15. LDA过程 对于语料库������中的每个文档w ,LDA是如下的变参数层次贝叶斯网络: 1 选择单词的个数N ∼ Poission(������) 2 选择文档中话题比率������ ∼ Dir(������) 3 对于每个单词wn 1 选择话题zn ∼ Multi(������) 2 从分布p(wn |zn , ������)中选择单词wn 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 15 / 35
  • 16. The “Actual” LDA过程 1 将语料库中的每个文档表示成词汇计数的向量模型 2 建立LDA模型 3 通过逼近方法计算这个模型 4 评价模型 5 模型应用 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 16 / 35
  • 17. Topic Model解释 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 17 / 35
  • 18. Topic Model主题指定示意 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 18 / 35
  • 19. Latent Dirichlet Allocation ∙ Dirichlet起到了“平滑”的作用 ∙ ������ ∼ Dir (������)保证了每个文档中都包含了所有话题 ∙ ������ ∼ Dir (������)保证了每个话题包含所有词汇 ∙ Dirichelt和Multinomial是共轭的 ∙ ������控制着������的均值和稀疏度 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 19 / 35
  • 20. Dirichlet Distribution — ������ ������i 控制分布的聚集程度 ∑︀ ∙ ∙ 当������ < 1的时候,越来越稀疏 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 20 / 35
  • 21. Dirichlet Distribution — samples 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 21 / 35
  • 22. LDA — 后验概率估计方法 利用后验概率来估计参数 ∙ Mean field Variational Inference ∙ Collapse Gibbs sampling 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 22 / 35
  • 23. LDA — 结果 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 23 / 35
  • 24. LDA — 结果 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 24 / 35
  • 25. 主题模型的后续改进以及演化 ∙ LDA可以嵌 入 到 其 他 更 复 杂 的 模 型 中 ,反应数据间的结构 嵌 ∙ 可以根据来源不同,产 生 数 据 的 概 率 分 布 也不同 产 ∙ 根据应用的不同,后 验 分 布 可以应用于各种场合 后 ∙ 主题的演化与跟踪(Dynamic TM, Temporal TM) ∙ 相关主题间的发现(Correlated TM) ∙ 将TM应用于信息检索、分类、推荐等 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 25 / 35
  • 26. Why does LDA ”work”? 为什么LDA的后验分布可以将属于一个主题的词放在一起? ∙ LDA中,作为先验分布的Dirichlet在一定程度上鼓励话题的“稀疏 性” ∙ 多数文章中,每篇文章的确仅有几个主题 ∙ 由于主题数目≪词汇数目,所以词汇会产生类似聚类的“共同出 现”效应 ∙ 贝叶斯网络模型的条件独立性 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 26 / 35
  • 27. Approximation Inference for LDA 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 27 / 35
  • 28. 如何得到LDA中的参数— 推断 LDA模型中最重要的计算任务是计算隐含变量的后验概率 p(������, z, w |������, ������) p(������, z|w , ������, ������) = p(w |������, ������) 近似推断方法有两种: ∙ 变分法(Variational Inference) ∙ 抽样法(Gibbs Sampling) 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 28 / 35
  • 29. 推断方法 ∙ 判定方法(变分、优化) ∙ Mean Field, Belief Propagation ∙ Variational Bayes, Expectation Propagation ∙ 计算量小,不精确,可以给出边界 ∙ 随机方法(抽样) ∙ Metropolis-Hasting, Gibbs, MCMC, etc ∙ 计算量大,但相对精确 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 29 / 35
  • 30. LDA in Vision 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 30 / 35
  • 31. Main difficulties 要解决的问题: ∙ 什么作为词? ∙ 什么是文档? ∙ 什么作为主题? 解决方案: ∙ 简单做法:每副图像作为一个文档,图像块(image patches)作 为codebook当做词 ∙ Spatial Latent Dirichlet Allocation 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 31 / 35
  • 32. 将LDA直接应用到图像领域 将图像做为文档,将图像中的部分视为词汇。具体处理过程如下: 1 抽取局部特征 2 利用局部特征构建codebook,通常采用简单的聚类方法将相似特征 聚类 3 在bag-of-feature假设下,利用codebook将图像分割 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 32 / 35
  • 33. Spatial LDA ∙ bag-of-word假设无法反应图像中的空间位置信息 ∙ 被LDA训练出来的模型通常会将共同出现的词赋予相同主题,但 是,图像领域这样假设不恰当(汽车和天空经常同时出现) ∙ 在LDA中小概率的词语通常会被指定到高概率的主题中,在图像 中,小块的图像极有可能被指定到大块图像的主题中 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 33 / 35
  • 34. Spatial LDA SLDA通过将文档作为隐含变量达到将空间信息和时间信息引入模型的 目的: ci ∼ Normal(cd , ������); cjd = (gjd , xjd , yjd ) gjd 是文档j所在图像的索引,(xjd , yjd )是文档的位置 Figure: 将空间信息加入文档的方法。(a): 将图像分割成不重叠的区域,每个 区域当成一个文档。每个区域中的图像块被指定到对应文档。(b): 一个图像块 被多个区域重叠覆盖。(c): 每个图像对应一个点。如果一个图像块举例一个文 档近,则有较高概率被指定到该文档。 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 34 / 35
  • 35. 部分参考文献 ∙ D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993-1022, January 2003. ∙ D. Blei and M. Jordan. Variational inference for Dirichlet process mixtures. Journal of Bayesian Analysis, 1:121-144, 2006. ∙ M. Steyvers and T. Griffiths. Probabilistic Topic Models. In Latent Semantic Analysis: A Road to Meaning, T. Landauer, Mcnamara, S. Dennis, and W. Kintsch eds. Laurence Erlbaum, 2006. ∙ Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101:1566-1581, 2006. ∙ J. Zhu, A. Ahmed and E. P. Xing. MedLDA: Maximum Margin Supervised Topic Models for Regression and Classification. The 26th International Conference on Machine Learning, 2009. ∙ D. Blei and J. Lafferty. Dynamic topic models. In International Conference on Machine Learning, 2006. 肖智博 (DLMU-ITREC) Topic Models, LDA and all that April 21, 2011 35 / 35