Probablistic LSA(pLSA)
Graphical model
文書d(∈ D) と語 w(∈ W) は、トピック z(∈ Z) を介して条件付き独立
文書数を M(= #
D)、語数を N = #
W とし、文書中の語ごとにトピック
があると仮定
p(d, w) は非対称なモデル (a) でも対称なモデル (b) でも表現・実装可能
M (= #D)
N (= #W)
z wd
(b) symmetric model
M (= #D)
N (= #W)
z wd
(a) asymmetric model
Figure: Graphical model of pLSA
11 / 35
12.
Probablistic LSA(pLSA)
LSA andpLSA
P ∶= (p(di, wj)), U ∶= (p(di|zj)) ∈ M(#
D, #
Z), V ∶= (p(wi|zj)) ∈
M(#
W, #
Z), 𝛴 ∶= ⊕ p(zi) ∈ M(#
Z, #
Z) とおくと、P = U 𝛴t
V
条件付き独立の仮定により、uij はトピック j から文書 i が現れる確率、
vij はトピック j から語 i が現れる確率となり、U, V の成分を明瞭に解
釈可能
(どの成分も確率なので、負の値も現れない)
トピック Z から語 W が語毎に生成されるので、文書に複数のトピック
が含まれることを許容
最尤推定を用いるので、最適化の根拠が明瞭
EM-algorithm は局所解に陥りうるが、tempering により緩和可能
EM-algorithm の反復に必要な計算量は、SVD に比べてさほど多くない
12 / 35
Reference I
David Andrzejewski.Expectation Maximization. url:
http://pages.cs.wisc.edu/~andrzeje/research/em.pdf.
David M. Blei, Andrew Y. Ng, and Michael I. Jordan. “Latent Dirichlet Allocation”. In:
J. Mach. Learn. Res. 3 (2003), pp. 993–1022. url:
http://jmlr.org/papers/v3/blei03a.html.
Thomas L. Griffiths and Mark Steyvers. “Finding scientific topics”. In: Proceedings of
the National Academy of Sciences 101 (2004), pp. 5228–5235. doi:
10.1073/pnas.0307752101.
Thomas Hofmann. “Probabilistic Latent Semantic Analysis”. In: Proceedings of the
Fifteenth Conference on Uncertainty in Artificial Intelligence. 1999, pp. 289–296.
Thomas Hofmann. “Probabilistic Latent Semantic Indexing”. In: Proceedings of the
22Nd Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval. 1999. doi: 10.1145/312624.312649.
Thomas Hofmann. “Unsupervised Learning by Probabilistic Latent Semantic Analysis”.
In: Machine Learning 42 (), pp. 177–196. doi: 10.1023/A:1007617005950.
Liangjie Hong. A Tutorial on Probabilistic Latent Semantic Analysis. 2012. url:
http://arxiv.org/abs/1212.3900.
39 / 35