SlideShare a Scribd company logo
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Additive Regularization of
Matrix Factorization for
Probabilistic Topic Modeling
(Аддитивная регуляризация тематических моделей)
Konstantin Vorontsov
Yandex • CC RAS • MIPT • HSE • MSU
Analysis of Images, Social Networks and Texts
Ekaterinburg, 10–12 April 2014
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 1 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Содержание
1 Основы вероятностного тематического моделирования
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
2 Аддитивная регуляризация тематических моделей
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
3 Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 2 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Задача вероятностного тематического моделирования (ВТМ)
Тема — это набор терминов, неслучайно часто совместно
встречающихся в относительно узком подмножестве документов.
Дано:
W — словарь, множество слов (терминов)
D — множество (коллекция, корпус) текстовых документов
ndw — сколько раз термин w ∈W встретился в документе d ∈D
Найти:
p(w|t) — какими терминами w определяется каждая тема t
p(t|d) — к каким темам t относится каждый документ d
Критерии:
внутренний — точность описания коллекции моделью p(w|d)
внешний — качество решения конечной задачи
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 3 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Цели вероятностного тематического моделирования (ВТМ)
Тематический поиск документов и объектов
по тексту любой длины или по любому объекту
Категоризация, классификация, аннотирование,
суммаризация текстовых документов
Приложения:
Поиск научной информации
Выявление трендов и фронта исследований
Поиск специалистов (expert search), рецензентов, проектов
Анализ и агрегирование новостных потоков
Рубрикация документов, изображений, видео, музыки
Рекомендующие системы, коллаборативная фильтрация
Аннотация генома и другие задачи биоинформатики
Анализ дискретизированных биомедицинских сигналов
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 4 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Развитие ВТМ: учёт дополнительной информации
повышение адекватности тематической модели
выявление семантики нетекстовых объектов
Виды дополнительной информации:
последовательность слов документа d: {w1, . . . , wnd
}
разбиение документа на предложения, разделы
метаданные: год, авторы, источник, и т.д.
цитаты и/или гиперссылки: исходящие, входящие
рубрикатор(ы)
словари, тезаурусы, онтологии предметных областей
изображения внутри документов
именованные сущности в тексте документов
пользователи документов
теги, ключевые слова, привязанные к документам
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 5 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Развитие ВТМ: расширение функциональных возможностей
как строить комбинированные и многоцелевые модели?
как учитывать все дополнительные данные сразу?
как моделировать изменения тем во времени?
как обеспечивать интерпретируемость тем?
как определять правильное число тем?
как восстанавливать иерархию тем?
как автоматически именовать темы?
как учитывать лингвистические знания?
как строить модели на десятки тысяч тем?
как строить модели сверхбольших коллекций?
как делать визуализацию и навигацию по темам?
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 6 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Цели сегодняшней лекции
«Представляется важной задача освобождения всюду, где это
возможно, от излишних вероятностных допущений»
— А. Н. Колмогоров, создатель современной теории вероятностей
(Теория информации и теория алгоритмов, 1987.)
1 Рассказать о разновидностях тематических моделей.
2 Показать простой и мощный математический аппарат
для построения сложных тематических моделей.
3 При этом обойтись без распределений Дирихле,
байесовского вывода, графических моделей и интегралов.
4 Снизить для исследователей «порог вхождения» в область
вероятностного тематического моделирования.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 7 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Вероятностная тематическая модель
Порождение слов документа d из p(w|d) =
t∈T
p(w|t)p(t|d)
Ра а а а -а а а
а . М а а а а а а а
а а а а
GC- GA- а а а а а . На
а а а , а а а а а а
а ( а , а а а ) а а а
а. М а а а а а а а а а . О
а а а а , а
а а . Е а а а
( а а а а а).
‫)݀|ݐ(݌‬
‫:)ݐ|ݓ(݌‬
‫ݐ‬ଵ, … , ‫ݐ‬௡೏
‫ݓ‬ଵ, … , ‫ݓ‬௡೏
:
0.018 а а а
0.013
0.011 а
… … … …
0.023
0.016
0.009
… … … …
0.014 а
0.009
0.006 а
… … … …
‫ݐ‬ଵ ‫ݐ‬ଶଵ ‫ݐ‬ଷଵଷ ‫ݐ‬ସଷଵ‫ݐ‬ହଷଵ
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 8 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Задача тематического моделирования коллекции документов
Базовые предположения:
коллекция D — выборка троек (di , wi , ti )n
i=1 ∼ p(d, w, t)
di , wi — наблюдаемые, темы ti — скрытые
гипотеза условной независимости: p(w|d, t) = p(w|t)
Вероятностная модель порождения документов:
p(w|d) =
t∈T
p(w|t)
φwt
p(t|d)
θtd
φwt ≡ p(w|t) — распределение терминов в темах t ∈T;
θtd ≡ p(t|d) — распределение тем в документах d ∈D.
Прямая задача: по φwt, θtd сгенерировать документ d.
Обратная задача: по ˆp(w|d) ≡ ndw
nd
найти параметры φwt, θtd .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 9 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Принцип максимума правдоподобия
Задача: максимизировать логарифм правдоподобия
L (Φ, Θ) =
d∈D w∈d
ndw ln
t∈T
φwtθtd → max
Φ,Θ
,
при ограничениях неотрицательности и нормировки
φwt 0;
w∈W
φwt = 1; θtd 0;
t∈T
θtd = 1
Это задача стохастического матричного разложения:
F
W ×D
≈ Φ
W ×T
· Θ
T×D
F = ˆp(w|d) W ×D
— известная матрица исходных данных,
Φ = φwt W ×T
— искомая матрица терминов тем φwt =p(w|t),
Θ = θtd T×D
— искомая матрица тем документов θtd =p(t|d).
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 10 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Probabilistic Latent Semantic Analysis [Hofmann, 1999]
Теорема
Если Φ, Θ — решение задачи максимизации правдоподобия,
то оно удовлетворяет системе уравнений



E-шаг: ndwt = ndw
φwtθtd
s∈T
φws θsd
; — вспомогательные переменные
M-шаг: φwt =
nwt
nt
; nwt =
d∈D
ndwt; nt =
w∈W
nwt;
θtd =
ntd
nd
; ntd =
w∈d
ndwt; nd =
t∈T
ntd ;
EM-алгоритм — чередование E- и M-шага до сходимости.
Это решение системы уравнений методом простых итераций.
Идея на будущее: можно использовать и другие методы!
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 11 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Вероятностная интерпретация шагов ЕМ-алгоритма
Е-шаг — это формула Байеса:
p(t|d, w) =
φwtθtd
s∈T
φws θsd
ndwt = ndw p(t|d, w) — оценка числа троек (d, w, t) в коллекции
М-шаг — это частотные оценки условных вероятностей:
φwt =
nwt
nt
≡
d∈D
ndwt
d∈D w∈d
ndwt
, θtd =
ntd
nd
≡
w∈d
ndwt
w∈W t∈T
ndwt
,
Краткая запись через знак пропорциональности ∝:
p(t|d, w) ∝ φwtθtd ; φwt ∝ nwt; θtd ∝ ntd ;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 12 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Рациональный ЕМ-алгоритм
Идея: E-шаг встраивается внутрь М-шага
Вход: коллекция D, число тем |T|, число итераций imax;
Выход: матрицы терминов тем Θ и тем документов Φ;
1 инициализация φwt, θtd для всех d ∈ D, w ∈ W , t ∈ T;
2 для всех итераций i = 1, . . . , imax
3 nwt, ntd , nt, nd := 0 для всех d ∈ D, w ∈ W , t ∈ T;
4 для всех документов d ∈ D и всех слов w ∈ d
5 p(t|d, w) =
φwtθtd
s φws θsd
для всех t ∈ T;
6 nwt, ntd , nt, nd += ndw p(t|d, w) для всех t ∈ T;
7 φwt := nwt/nt для всех w ∈ W , t ∈ T;
8 θtd := ntd /nd для всех d ∈ D, t ∈ T;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 13 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Онлайновый EM-алгоритм (для больших коллекций)
1 инициализировать φwt для всех w ∈ W , t ∈ T;
2 nwt := 0, nt := 0 для всех w ∈ W , t ∈ T;
3 для всех пачек документов Dj, j = 1, . . . , J
4 ˜nwt := 0, ˜nt := 0 для всех w ∈ W , t ∈ T;
5 для всех документов d из пачки Dj
6 инициализировать θtd для всех t ∈ T;
7 повторять
8 p(t|d, w) =
φwtθtd
s φwsθsd
для всех w ∈ d, t ∈ T;
9 θtd := 1
nd
w∈d
ndw p(t|d, w) для всех t ∈ T;
10 пока θd не сойдётся;
11 ˜nwt, ˜nt += ndw p(t|d, w) для всех w ∈ d, t ∈ T;
12 nwt := ρj nwt + ˜nwt; nt := ρj nt + ˜nt для всех w ∈ W , t ∈ T;
13 φwt := nwt/nt для всех w ∈ W , t ∈ T;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 14 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Латентное размещение Дирихле [Blei, Ng, Jordan, 2003]
Оценки условных вероятностей φwt ≡ p(w|t), θtd ≡ p(t|d):
в PLSA — несмещённые оценки максимума правдоподобия:
φwt =
nwt
nt
, θtd =
ntd
nd
в LDA — сглаженные байесовские оценки:
φwt =
nwt + βw
nt + β0
, θtd =
ntd + αt
nd + α0
.
Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for
topic models // Int’l conf. on Uncertainty in Artificial Intelligence, 2009.
Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для
вероятностного тематического моделирования // Машинное обучение
и анализ данных, 2013. — T. 1, № 6. — С. 657–686.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 15 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Динамические модели, учитывающие время
Jianwen Zhang, Yangqiu Song, Changshui Zhang, Shixia Liu Evolutionary
Hierarchical Dirichlet Processes for Multiple Correlated Time-varying
Corpora // KDD’10, July 25–28, 2010.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 16 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Динамические модели эволюции тем
Weiwei Cui, Shixia Liu, Li Tan, Conglei Shi, Yangqiu Song, Zekai J. Gao, Xin
Tong, Huamin Qu TextFlow: Towards Better Understanding of Evolving Topics
in Text // IEEE Transactions On Visualization And Computer Graphics,
Vol. 17, No. 12, December 2011.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 17 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Совмещение динамической и n-граммной модели
Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped
Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 18 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Совмещение динамической и n-граммной модели
Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped
Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 19 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Модели, учитывающие цитирования или гиперссылки
Учёт ссылок уточняет тематическую модель
Тематическая модель выявляет самые влиятельные ссылки
Laura Dietz, Steffen Bickel, Tobias Scheffer. Unsupervised prediction of citation
influences // ICML-2007, Pp. 233–240.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 20 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Выявление взаимосвязей между темами
D. Blei, J. Lafferty. A correlated topic model of Science // Annals of Applied
Statistics, 2007. Vol. 1, Pp. 17-35.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 21 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Многоязычные модели
I. Vuli´c, W. De Smet, J. Tang, M.-F. Moens. Probabilistic topic modeling in
multilingual settings: a short overview of its methodology with applications //
NIPS, 7–8 December 2012. — Pp. 1–11.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 22 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Визуализация тематической модели
A. Chaney, D. Blei. Visualizing topic models // International AAAI Conference
on Social Media and Weblogs, 2012.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 23 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Визуализация тематической модели
Группирование ядер из слов в каждой теме
Jason Chuang, Christopher D. Manning, Jeffrey Heer.
Termite: Visualization Techniques for Assessing Textual Topic Models //
Advanced Visual Interfaces, 2012
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 24 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Резюме по краткому обзору тематическим моделей
Их много, они разные, их трудно комбинировать
Математический аппарат местами выносит мозг...
Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad.
Knowledge discovery through directed probabilistic topic models: a survey.
Frontiers of Computer Science in China, Vol. 4, No. 2., 2010, Pp. 280–301.
(русский перевод на www.MachineLearning.ru)
Topic Modeling Bibliography: http://mimno.infosci.cornell.edu/topics.html
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 25 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Задача построения ВТМ — некорректно поставленная
Неединственность матричного разложения:
ΦΘ = (ΦS)(S−1
Θ) = Φ′
Θ′
для любых ST×T таких, что Φ′, Θ′ — стохастические.
Эксперимент. Произведение ΦΘ восстанавливается устойчиво,
матрица Φ и матрица Θ — только когда сильно разрежены:
PLSA LDA PLSA LDA
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
β, α = 0.01
D
ΦΘ
D
Φ
D
Θ
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
β, α = 0,01
DΦΘ
DΦ
DΘ
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
α, β = 0.1
DΦΘ
DΦ
DΘ
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
α, β = 0.1
D
ΦΘ
D
Φ
DΘ
неразреженность Φ неразреженность Φ неразреженность Θ неразреженность Θ
Вывод: вводить дополнительные ограничения можно и нужно!
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 26 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Аддитивная регуляризация тематической модели
Пусть, наряду с правдоподобием, требуется максимизировать
ещё n критериев Ri (Φ, Θ), i = 1, . . . , n — регуляризаторов.
Метод многокритериальной оптимизации — скаляризация.
Задача: максимизировать регуляризованное правдоподобие
d∈D w∈d
ndw ln
t∈T
φwtθtd
log-likelihood L (Φ,Θ)
+
n
i=1
τi Ri (Φ, Θ)
R(Φ,Θ)
→ max
Φ,Θ
,
при ограничениях неотрицательности и нормировки
φwt 0;
w∈W
φwt = 1; θtd 0;
t∈T
θtd = 1
где τi > 0 — коэффициенты регуляризации.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 27 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Обоснование регуляризованного ЕМ-алгоритма PLSA
Теорема
Если Φ, Θ — решение задачи максимизации регуляризованного
правдоподобия, то оно удовлетворяет системе уравнений



E-шаг: ndwt = ndw
φwtθtd
s∈T
φws θsd
;
M-шаг:
φwt =
nwt
nt
; nwt =
d∈D
ndwt + φwt
∂R
∂φwt +
; nt =
w∈W
nwt;
θtd =
ntd
nd
; ntd =
w∈d
ndwt + θtd
∂R
∂θtd +
; nd =
t∈T
ntd
При R(Φ, Θ) = 0 это формулы EM-алгоритма для PLSA.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 28 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Математический ликбез. Дивергенция Кульбака–Лейблера
Функция расстояния между распределениями P = (pi )n
i=1 и Q = (qi )n
i=1:
KL(P Q) ≡ KLi (pi qi ) =
n
i=1
pi ln
pi
qi
.
1. KL(P Q) 0; KL(P Q) = 0 ⇔ P = Q;
2. Минимизация KL эквивалентна максимизации правдоподобия:
KL(P Q(α)) =
n
i=1
pi ln
pi
qi (α)
→ min
α
⇐⇒
n
i=1
pi ln qi (α) → max
α
.
3. Если KL(P Q) < KL(Q P), то P сильнее вложено в Q, чем Q в P:
0 50 100 150 200
0
0.01
0.02
0.03
0.04
0 50 100 150 200
0
0.005
0.010
0.015
0.020
0 50 100 150 200
0
0.005
0.010
0.015
0.020
P PP
Q
Q Q
KL(P Q) = 0.442
KL(Q P) = 2.966
KL(P Q) = 0.444
KL(Q P) = 0.444
KL(P Q) = 2.969
KL(Q P) = 2.969
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 29 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №1: Сглаживание (совпадает с LDA)
Гипотеза сглаженности:
распределения φwt близки к заданным распределениям βw
распределения θtd близки к заданным распределениям αt
t∈T
KLw (βw φwt ) → min
Φ
;
d∈D
KLt(αt θtd ) → min
Θ
.
Максимизируем сумму этих регуляризаторов:
R(Φ, Θ) = β0
t∈T w∈W
βw ln φwt + α0
d∈D t∈T
αt ln θtd → max .
Подставляем, получаем формулы М-шага LDA:
φwt ∝ nwt + β0βw , θtd ∝ ntd + α0αt.
Этого вы не найдёте в D.Blei, A.Ng, M.Jordan. Latent Dirichlet allocation //
Journal of Machine Learning Research, 2003. — Vol. 3. — Pp. 993–1022.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 30 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №2: Частичное обучение (обобщение LDA)
Пусть имеется дополнительная информация от экспертов:
1) списки тем Td ⊂ T для некоторых документов d ∈ D0,
2) списки терминов Wt ⊂ W для некоторых тем t ∈ T0.
φ0
wt — распределение, равномерное на Wt
θ0
td — распределение, равномерное на Td
Максимизируем сумму этих регуляризаторов:
R(Φ, Θ) = β0
t∈T0 w∈Wt
φ0
wt ln φwt + α0
d∈D0 t∈Td
θ0
td ln θtd → max
Подставляем, получаем обобщение LDA:
φwt ∝ nwt + β0φ0
wt θtd ∝ ntd + α0θ0
td
Nigam K., McCallum A., Thrun S., Mitchell T. Text classification from labeled
and unlabeled documents using EM // Machine Learning, 2000, no. 2–3.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 31 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №2: Частичное обучение (второе обобщение LDA)
Идея: вместо логарифма можно взять любую другую
монотонно возрастающую функцию µ
R(Φ, Θ) = β0
t∈T0 w∈Wt
φ0
wtµ(φwt)+α0
d∈D0 t∈Td
θ0
td µ(θtd ) → max .
Подставляем, получаем ещё одно обобщение LDA:
φwt ∝ nwt + β0φ0
wtφwtµ′
(φwt) θtd ∝ ntd + α0θ0
td θtd µ′
(θtd ).
При µ(z) = z максимизируется сумма ковариаций cov(θ0
d , θd ).
Преимущество ковариационного регуляризатора:
Если θ0
td равномерно на Td , то ковариация не накладывает
ограничений на распределение θtd между темами из Td .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 32 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №3: Разреживание (третье обобщение LDA)
Гипотеза разреженности: среди φwt, θtd много нулей.
Чем сильнее разрежено распределение, тем ниже его энтропия.
Максимальной энтропией обладает равномерное распределение.
Максимизируем дивергенцию между распределениями βw , αt
(равномерными?) и искомыми распределениями φwt, θtd :
R(Φ, Θ) = −β0
t∈T w∈W
βw ln φwt − α0
d∈D t∈T
αt ln θtd → max .
Подставляем, получаем «анти-LDA»:
φwt ∝ nwt − β0βw +
, θtd ∝ ntd − α0αt +
.
Varadarajan J., Emonet R., Odobez J.-M. A sparsity constraint for topic
models — application to temporal activity mining // NIPS-2010 Workshop on
Practical Applications of Sparse Modeling: Open Issues and New Directions.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 33 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №4: Удаление незначимых тем
Гипотеза: если тема собрала мало слов, то она не нужна.
Разреживаем распределение p(t) = d p(d)θtd, максимизируя
KL-дивергенцию между p(t) и равномерным распределением:
R(Θ) = −τ
t∈T
ln
d∈D
p(d)θtd → max .
Подставляем, получаем:
θtd ∝ ntd − τ
nd
nt
θtd
+
.
Строки матрицы Θ могут целиком обнуляться для тем t,
собравших мало слов по коллекции, nt = d w ndwt.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 34 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №5: Декорреляция
Гипотеза некоррелированности тем:
чем различнее темы, тем лучше они интерпретируются.
Минимизируем ковариации между вектор-столбцами φt:
R(Φ) = −
τ
2
t∈T s∈Tt w∈W
φwtφws → max .
Подставляем, получаем ещё один вариант разреживания —
постепенное контрастирование строк матрицы Φ:
φwt ∝ nwt − τφwt
s∈Tt
φws
+
.
Tan Y., Ou Z. Topic-weak-correlated latent Dirichlet allocation // 7th Int’l
Symp. Chinese Spoken Language Processing (ISCSLP), 2010. — Pp. 224–228.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 35 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №6: Максимизация когерентности тем
Гипотеза: тема лучше интерпретируется, если она содержит
когерентные (часто встречающиеся рядом) слова u, w ∈ W .
Пусть Cuw — оценка когерентности, например ˆp(w|u) = Nuw
Nu
.
Согласуем φwt с оценками ˆp(w|t) по когерентным словам,
ˆp(w|t) = u p(w|u)p(u|t) = 1
nt u Cuw nut;
R(Φ, Θ) = τ
t∈T
nt
w∈W
ˆp(w|t) ln φwt → max .
Подставляем, получаем ещё один вариант сглаживания:
φwt ∝ nwt + τ
u∈W w
Cuw nut.
Mimno D., Wallach H. M., Talley E., Leenders M., McCallum A. Optimizing
semantic coherence in topic models // Empirical Methods in Natural Language
Processing, EMNLP-2011. — Pp. 262–272.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 36 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №7: Связи между документами
Гипотеза: чем больше ndc — число ссылок из d на c,
тем более близки тематики документов d и c.
Минимизируем ковариации между вектор-столбцами связанных
документов θd , θc:
R(Φ, Θ) = τ
d,c∈D
ndccov(θd, θc) → max,
Подставляем, получаем ещё один вариант сглаживания:
θtd ∝ ntd + τθtd
c∈D
ndc θtc.
Dietz L., Bickel S., Scheffer T. Unsupervised prediction of citation influences //
ICML 2007. — Pp. 233–240.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 37 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №8: Классификация документов
Пусть C — множество классов документов (категории, авторы,
ссылки, годы, пользователи,. . . )
Гипотеза:
классификация документа d объясняется его темами:
p(c|d) =
t∈T
p(c|t)p(t|d) =
t∈T
ψctθtd .
Минимизируем дивергенцию между моделью p(c|d)
и «эмпирической частотой» классов в документах mdc :
R(Ψ, Θ) = τ
d∈D c∈C
mdc ln
t∈T
ψctθtd → max .
Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for
multi-label document classification // Machine Learning, 2012, no. 1–2.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 38 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №8: Классификация документов
ЕМ-алгоритм дополняется оцениванием параметров ψct.
Е-шаг. По формуле Байеса:
p(t|d, w) =
φwtθtd
s∈T
φws θsd
p(t|d, c) =
ψctθtd
s∈T
ψcs θsd
М-шаг. Максимизация регуляризованного правдоподобия:
φwt ∝ nwt nwt =
d∈D
ndw p(t|d, w)
θtd ∝ ntd + τmtd ntd =
w∈W
ndw p(t|d, w) mtd =
c∈C
mdc p(t|d, c)
ψct ∝ mct mct =
d∈D
mdc p(t|d, c)
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 39 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №9: Категоризация документов
Снова регуляризатор для классификации:
R(Ψ, Θ) = τ
d∈D c∈C
mdc ln
t∈T
ψctθtd → max
Недостаток: для «эмпирической частоты классов»
приходится необоснованно брать равномерное распределение:
mdc = nd
1
|Cd |[c ∈ Cd ]
Ковариационный регуляризатор:
R(Ψ, Θ) = τ
d∈D c∈C
mdc
t∈T
ψctθtd → max
приводит к естественному аналитическому решению
ψct = c = c∗
(t) , c∗
(t) = arg max
c∈C
d∈D
mdc θtd
Эффект: Каждая категория c распадается на свои темы.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 40 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №10: Динамическая тематическая модель
Y — моменты времени (например, годы публикаций),
y(d) — метка времени документа d,
Dy ⊂ D — все документы, относящиеся к моменту y ∈ Y .
Гипотеза 1: распределение p(t|y) =
d∈Dy
θtd p(d) разрежено:
R1(Θ) = −τ1
y∈Y t∈T
ln p(t|y) → max .
Эффект — разреживание тем t с малым p(t|y(d)):
θtd ∝ ntd − τ1
θtd p(d)
p(t|y(d)) +
.
Гипотеза 2: p(t|y) меняются плавно, с редкими скачками:
R2(Θ) = −τ2
y∈Y t∈T
p(t|y) − p(t|y−1) → max .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 41 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Преимущества и ограничения
Преимущества АРТМ:
легко учитывать различную дополнительную информацию
больше свободы на этапе формализации требований
легко комбинировать регуляризаторы в любых сочетаниях
предельно упростился переход от модели к алгоритму:
Ограничения АРТМ:
ещё не все модели успели переформулировать в АРТМ ;)
надо подбирать много коэффициентов регуляризации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 42 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Подбор траектории регуляризации
Пусть задана линейная комбинация регуляризаторов:
R(Φ, Θ) =
n
i=1
τi Ri (Φ, Θ)
Задача: выбрать вектор коэффициентов τ = (τi )n
i=1
Ближайший аналог: «Regularization Path» в задачах
регрессии с L1- и L2-регуляризацией (Elastic Net)
Общие соображения о выборе траектории регуляризации:
1) мониторить много критериев качества в ходе итераций,
2) усиливать регуляризаторы постепенно,
3) сначала достичь сходимости нерегуляризованного PLSA,
4) чередовать регуляризаторы, если они мешают друг другу
5) ослаблять регуляризаторы, когда их цель уже достигнута
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 43 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Гипотеза о структуре интерпретируемых тем
1 Предметные темы разреженные, существенно различные,
имеют ядро, состоящее из терминов предметной области.
2 Фоновые темы плотные, содержат слова общей лексики.
W ×T-матрица Φ T×D-матрица Θ
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 44 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Комбинирование разреживания, сглаживания и декорреляции
Задача: улучшить интерпретируемость, не ухудшив перплексию
Набор регуляризаторов:
№1 сглаживание фоновых тем — столбцов Φ, строк Θ
№3 разреживание предметных тем — столбцов Φ, строк Θ
№4 удаление незначимых тем — строк Θ
№5 декоррелирование предметных тем — столбцов Φ
Данные: NIPS (Neural Information Processing System)
|D| = 1566 статей конференции NIPS на английском языке;
суммарной длины n ≈ 2.3 · 106,
словарь |W | ≈ 1.3 · 104.
контрольная коллекция: |D′| = 174.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 45 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Критерии качества модели
Перплексия контрольной коллекции: P = exp(−L /N)
Разреженность — доля нулевых элементов в Φ и Θ
Характеристики интерпретируемости тем:
когерентность темы: [Newman, 2010]
размер ядра темы: |Wt | = # w : p(t|w) > 0.25
чистота темы:
t∈Wt
p(w|t)
контрастность темы: 1
|Wt |
t∈Wt
p(t|w)
Вырожденность тематической модели:
число тем
доля фоновых слов в документах коллекции
Newman D., Lau J.H., Grieser K., Baldwin T. Automatic evaluation of topic
coherence // Human Language Technologies, HLT-2010, Pp. 100–108.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 46 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Комбинирование разреживания, сглаживания и декорреляции
Зависимости критериев качества от итераций ЕМ-алгоритма
(серый — PLSA, чёрный — ARTM)
2 000
2 200
2 400
2 600
2 800
3 000
3 200
3 400
3 600
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
перплексия разреженность
перплексия Фи Тета
99.0
99.2
99.4
99.6
99.8
100.0
100.2
100.4
100.6
100.8
101.0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
число тем доля фоновых слов
число тем доля фоновых слов
0 10 20 30 40 50 60 70 80 90
0
20
40
60
80
100
120
140
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
размер ядра контрастность, чистота
размер ядра контрастность чистота
0 10 20 30 40 50 60 70 80 90
0
0.2
0.4
0.6
0.8
1.0
1.2
0
0.05
0.10
0.15
0.20
0.25
когерентность ядра когерентность топов
ядро топ-10 топ-100
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 47 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Все те же, с удалением незначимых тем
Зависимости критериев качества от итераций ЕМ-алгоритма
(серый — PLSA, чёрный — ARTM)
2 000
2 200
2 400
2 600
2 800
3 000
3 200
3 400
3 600
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
перплексия разреженность
перплексия Фи Тета
20
30
40
50
60
70
80
90
100
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
число тем доля фоновых слов
число тем доля фоновых слов
0 10 20 30 40 50 60 70 80 90
0
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
размер ядра контрастность, чистота
размер ядра контрастность чистота
0 10 20 30 40 50 60 70 80 90
0
0.2
0.4
0.6
0.8
1.0
1.2
0
0.05
0.10
0.15
0.20
0.25
0.30
когерентность ядра когерентность топов
ядро топ-10 топ-100
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 48 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Выводы
Показана возможность одновременного:
усиления разреженности (до 98%)
улучшения интерпретируемости (когерентности) тем
повышения различности (чистоты и контрастности) тем
при размере ядер тем 50–150 слов
почти без потери перплексии (правдоподобия) модели
Подобраны траектории регуляризации:
разреживание включать постепенно после 10-20 итераций
сглаживание включать сразу
декорреляцию включать сразу и как можно сильнее
удаление незначимых тем включать постепенно,
никогда не совмещая с декорреляцией на одной итерации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 49 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Направления ближайших исследований
Лингвистическая регуляризация, отказ от «мешка слов»
учёт линейной структуры текста
учёт лингвистических ресурсов (тезаурусов, онтологий)
выделение терминов-словосочетаний
Разработка BigARTM — библиотеки с открытым кодом
параллельные вычисления
распределённое хранение коллекции
любые сочетания регуляризаторов
Открытые проблемы
глобальная оптимизация
иерархические модели
визуализация результатов поиска научной информации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 50 / 51
Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Воронцов Константин Вячеславович
voron@yandex-team.ru
Страницы на www.MachineLearning.ru:
Участник:Vokov
Вероятностные тематические модели
(курс лекций, К. В. Воронцов)
Тематическое моделирование
Воронцов К. В. Аддитивная регуляризация тематических моделей
коллекций текстовых документов // Доклады РАН, №3, 2014.
Vorontsov K. V., Potapenko A. A., Tutorial on Probabilistic Topic Modeling:
Additive Regularization for Stochastic Matrix Factorization // AIST’14.
Springer. 2014.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 51 / 51

More Related Content

What's hot

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
Lidia Pivovarova
 
Автоматическое доказательство теорем с помощью структурной индукции
Автоматическое доказательство теорем с помощью структурной индукцииАвтоматическое доказательство теорем с помощью структурной индукции
Автоматическое доказательство теорем с помощью структурной индукции
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
Vladimir Krylov
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
Lidia Pivovarova
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
Lidia Pivovarova
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации
Vladimir Burdaev
 

What's hot (10)

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Автоматическое доказательство теорем с помощью структурной индукции
Автоматическое доказательство теорем с помощью структурной индукцииАвтоматическое доказательство теорем с помощью структурной индукции
Автоматическое доказательство теорем с помощью структурной индукции
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
л 2 7
л 2 7л 2 7
л 2 7
 
3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации
 

Similar to Konstantion Vorontsov - Additive regularization of matrix decompositons and probabilistic topic modeling

Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Mail.ru Group
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Skolkovo Robotics Center
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Mark Shaphir
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
Grishan1
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
Ilia Karpov
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Fs knowledge base
Fs knowledge baseFs knowledge base
Fs knowledge base
Vladimir Burdaev
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Sequence mining
Sequence miningSequence mining
Sequence mining
Dmitrii Ignatov
 
Система поддержки исследований семантики паремий
Система поддержки исследований семантики паремийСистема поддержки исследований семантики паремий
Система поддержки исследований семантики паремий
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Антон Конушин (НИУ ВШЭ)
Антон Конушин (НИУ ВШЭ)Антон Конушин (НИУ ВШЭ)
Антон Конушин (НИУ ВШЭ)
Edutainme
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
NLPseminar
 
модель и моделирование
модель и моделированиемодель и моделирование
модель и моделированиеzarechneva
 
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаОсипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаGrigory Pomadchin
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Gleb Zakhodiakin
 
О том, как Computer Science нам жить помогает или современные приложения теор...
О том, как Computer Science нам жить помогает или современные приложения теор...О том, как Computer Science нам жить помогает или современные приложения теор...
О том, как Computer Science нам жить помогает или современные приложения теор...
maxkalachev
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
it-people
 

Similar to Konstantion Vorontsov - Additive regularization of matrix decompositons and probabilistic topic modeling (20)

Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
Сергей Николенко, Deloitte Analytics Institute, Высшая Школа Экономики, «От н...
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 
isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Fs knowledge base
Fs knowledge baseFs knowledge base
Fs knowledge base
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Sequence mining
Sequence miningSequence mining
Sequence mining
 
Система поддержки исследований семантики паремий
Система поддержки исследований семантики паремийСистема поддержки исследований семантики паремий
Система поддержки исследований семантики паремий
 
Антон Конушин (НИУ ВШЭ)
Антон Конушин (НИУ ВШЭ)Антон Конушин (НИУ ВШЭ)
Антон Конушин (НИУ ВШЭ)
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
модель и моделирование
модель и моделированиемодель и моделирование
модель и моделирование
 
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллектаОсипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
Осипов Г.С. Конспект лекций по дисциплине «системы искусственного интеллекта
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
О том, как Computer Science нам жить помогает или современные приложения теор...
О том, как Computer Science нам жить помогает или современные приложения теор...О том, как Computer Science нам жить помогает или современные приложения теор...
О том, как Computer Science нам жить помогает или современные приложения теор...
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Petsc+slepc slides
Petsc+slepc slidesPetsc+slepc slides
Petsc+slepc slides
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
 

More from AIST

Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  ImagesAlexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
AIST
 
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоныАлена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
AIST
 
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
AIST
 
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поискПавел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
AIST
 
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
AIST
 
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
AIST
 
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
AIST
 
Иосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBAИосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBA
AIST
 
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge ExchangeNikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
AIST
 
George Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product CategoriesGeorge Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product Categories
AIST
 
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech DisambiguationElena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
AIST
 
Marina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chantsMarina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chants
AIST
 
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First GlanceEdward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
AIST
 
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
AIST
 
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
AIST
 
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
AIST
 
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamediumValeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
AIST
 
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
AIST
 
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
AIST
 
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation DenoisingArtyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
AIST
 

More from AIST (20)

Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  ImagesAlexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray  Images
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray Images
 
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоныАлена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
Алена Ильина и Иван Бибилов, GoTo - GoTo школы, конкурсы и хакатоны
 
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
Станислав Кралин, Сайтсофт - Связанные открытые данные федеральных органов ис...
 
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поискПавел Браславский,Velpas - Velpas: мобильный визуальный поиск
Павел Браславский,Velpas - Velpas: мобильный визуальный поиск
 
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...
 
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...
 
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
Петр Ермаков, HeadHunter - Модерация резюме: от людей к роботам. Машинное обу...
 
Иосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBAИосиф Иткин, Exactpro - TBA
Иосиф Иткин, Exactpro - TBA
 
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge ExchangeNikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge Exchange
 
George Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product CategoriesGeorge Moiseev - Classification of E-commerce Websites by Product Categories
George Moiseev - Classification of E-commerce Websites by Product Categories
 
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech DisambiguationElena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
Elena Bruches - The Hybrid Approach to Part-of-Speech Disambiguation
 
Marina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chantsMarina Danshina - The methodology of automated decryption of znamenny chants
Marina Danshina - The methodology of automated decryption of znamenny chants
 
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First GlanceEdward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First Glance
 
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...
 
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...
 
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...
 
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamediumValeri Labunets - The bichromatic excitable Schrodinger metamedium
Valeri Labunets - The bichromatic excitable Schrodinger metamedium
 
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...
 
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...
 
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation DenoisingArtyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
 

Konstantion Vorontsov - Additive regularization of matrix decompositons and probabilistic topic modeling

  • 1. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Additive Regularization of Matrix Factorization for Probabilistic Topic Modeling (Аддитивная регуляризация тематических моделей) Konstantin Vorontsov Yandex • CC RAS • MIPT • HSE • MSU Analysis of Images, Social Networks and Texts Ekaterinburg, 10–12 April 2014 Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 1 / 51
  • 2. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Содержание 1 Основы вероятностного тематического моделирования Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей 2 Аддитивная регуляризация тематических моделей Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ 3 Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 2 / 51
  • 3. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Задача вероятностного тематического моделирования (ВТМ) Тема — это набор терминов, неслучайно часто совместно встречающихся в относительно узком подмножестве документов. Дано: W — словарь, множество слов (терминов) D — множество (коллекция, корпус) текстовых документов ndw — сколько раз термин w ∈W встретился в документе d ∈D Найти: p(w|t) — какими терминами w определяется каждая тема t p(t|d) — к каким темам t относится каждый документ d Критерии: внутренний — точность описания коллекции моделью p(w|d) внешний — качество решения конечной задачи Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 3 / 51
  • 4. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Цели вероятностного тематического моделирования (ВТМ) Тематический поиск документов и объектов по тексту любой длины или по любому объекту Категоризация, классификация, аннотирование, суммаризация текстовых документов Приложения: Поиск научной информации Выявление трендов и фронта исследований Поиск специалистов (expert search), рецензентов, проектов Анализ и агрегирование новостных потоков Рубрикация документов, изображений, видео, музыки Рекомендующие системы, коллаборативная фильтрация Аннотация генома и другие задачи биоинформатики Анализ дискретизированных биомедицинских сигналов Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 4 / 51
  • 5. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Развитие ВТМ: учёт дополнительной информации повышение адекватности тематической модели выявление семантики нетекстовых объектов Виды дополнительной информации: последовательность слов документа d: {w1, . . . , wnd } разбиение документа на предложения, разделы метаданные: год, авторы, источник, и т.д. цитаты и/или гиперссылки: исходящие, входящие рубрикатор(ы) словари, тезаурусы, онтологии предметных областей изображения внутри документов именованные сущности в тексте документов пользователи документов теги, ключевые слова, привязанные к документам Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 5 / 51
  • 6. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Развитие ВТМ: расширение функциональных возможностей как строить комбинированные и многоцелевые модели? как учитывать все дополнительные данные сразу? как моделировать изменения тем во времени? как обеспечивать интерпретируемость тем? как определять правильное число тем? как восстанавливать иерархию тем? как автоматически именовать темы? как учитывать лингвистические знания? как строить модели на десятки тысяч тем? как строить модели сверхбольших коллекций? как делать визуализацию и навигацию по темам? Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 6 / 51
  • 7. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Цели сегодняшней лекции «Представляется важной задача освобождения всюду, где это возможно, от излишних вероятностных допущений» — А. Н. Колмогоров, создатель современной теории вероятностей (Теория информации и теория алгоритмов, 1987.) 1 Рассказать о разновидностях тематических моделей. 2 Показать простой и мощный математический аппарат для построения сложных тематических моделей. 3 При этом обойтись без распределений Дирихле, байесовского вывода, графических моделей и интегралов. 4 Снизить для исследователей «порог вхождения» в область вероятностного тематического моделирования. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 7 / 51
  • 8. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Вероятностная тематическая модель Порождение слов документа d из p(w|d) = t∈T p(w|t)p(t|d) Ра а а а -а а а а . М а а а а а а а а а а а GC- GA- а а а а а . На а а а , а а а а а а а ( а , а а а ) а а а а. М а а а а а а а а а . О а а а а , а а а . Е а а а ( а а а а а). ‫)݀|ݐ(݌‬ ‫:)ݐ|ݓ(݌‬ ‫ݐ‬ଵ, … , ‫ݐ‬௡೏ ‫ݓ‬ଵ, … , ‫ݓ‬௡೏ : 0.018 а а а 0.013 0.011 а … … … … 0.023 0.016 0.009 … … … … 0.014 а 0.009 0.006 а … … … … ‫ݐ‬ଵ ‫ݐ‬ଶଵ ‫ݐ‬ଷଵଷ ‫ݐ‬ସଷଵ‫ݐ‬ହଷଵ Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 8 / 51
  • 9. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Задача тематического моделирования коллекции документов Базовые предположения: коллекция D — выборка троек (di , wi , ti )n i=1 ∼ p(d, w, t) di , wi — наблюдаемые, темы ti — скрытые гипотеза условной независимости: p(w|d, t) = p(w|t) Вероятностная модель порождения документов: p(w|d) = t∈T p(w|t) φwt p(t|d) θtd φwt ≡ p(w|t) — распределение терминов в темах t ∈T; θtd ≡ p(t|d) — распределение тем в документах d ∈D. Прямая задача: по φwt, θtd сгенерировать документ d. Обратная задача: по ˆp(w|d) ≡ ndw nd найти параметры φwt, θtd . Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 9 / 51
  • 10. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Принцип максимума правдоподобия Задача: максимизировать логарифм правдоподобия L (Φ, Θ) = d∈D w∈d ndw ln t∈T φwtθtd → max Φ,Θ , при ограничениях неотрицательности и нормировки φwt 0; w∈W φwt = 1; θtd 0; t∈T θtd = 1 Это задача стохастического матричного разложения: F W ×D ≈ Φ W ×T · Θ T×D F = ˆp(w|d) W ×D — известная матрица исходных данных, Φ = φwt W ×T — искомая матрица терминов тем φwt =p(w|t), Θ = θtd T×D — искомая матрица тем документов θtd =p(t|d). Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 10 / 51
  • 11. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Probabilistic Latent Semantic Analysis [Hofmann, 1999] Теорема Если Φ, Θ — решение задачи максимизации правдоподобия, то оно удовлетворяет системе уравнений    E-шаг: ndwt = ndw φwtθtd s∈T φws θsd ; — вспомогательные переменные M-шаг: φwt = nwt nt ; nwt = d∈D ndwt; nt = w∈W nwt; θtd = ntd nd ; ntd = w∈d ndwt; nd = t∈T ntd ; EM-алгоритм — чередование E- и M-шага до сходимости. Это решение системы уравнений методом простых итераций. Идея на будущее: можно использовать и другие методы! Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 11 / 51
  • 12. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Вероятностная интерпретация шагов ЕМ-алгоритма Е-шаг — это формула Байеса: p(t|d, w) = φwtθtd s∈T φws θsd ndwt = ndw p(t|d, w) — оценка числа троек (d, w, t) в коллекции М-шаг — это частотные оценки условных вероятностей: φwt = nwt nt ≡ d∈D ndwt d∈D w∈d ndwt , θtd = ntd nd ≡ w∈d ndwt w∈W t∈T ndwt , Краткая запись через знак пропорциональности ∝: p(t|d, w) ∝ φwtθtd ; φwt ∝ nwt; θtd ∝ ntd ; Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 12 / 51
  • 13. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Рациональный ЕМ-алгоритм Идея: E-шаг встраивается внутрь М-шага Вход: коллекция D, число тем |T|, число итераций imax; Выход: матрицы терминов тем Θ и тем документов Φ; 1 инициализация φwt, θtd для всех d ∈ D, w ∈ W , t ∈ T; 2 для всех итераций i = 1, . . . , imax 3 nwt, ntd , nt, nd := 0 для всех d ∈ D, w ∈ W , t ∈ T; 4 для всех документов d ∈ D и всех слов w ∈ d 5 p(t|d, w) = φwtθtd s φws θsd для всех t ∈ T; 6 nwt, ntd , nt, nd += ndw p(t|d, w) для всех t ∈ T; 7 φwt := nwt/nt для всех w ∈ W , t ∈ T; 8 θtd := ntd /nd для всех d ∈ D, t ∈ T; Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 13 / 51
  • 14. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Онлайновый EM-алгоритм (для больших коллекций) 1 инициализировать φwt для всех w ∈ W , t ∈ T; 2 nwt := 0, nt := 0 для всех w ∈ W , t ∈ T; 3 для всех пачек документов Dj, j = 1, . . . , J 4 ˜nwt := 0, ˜nt := 0 для всех w ∈ W , t ∈ T; 5 для всех документов d из пачки Dj 6 инициализировать θtd для всех t ∈ T; 7 повторять 8 p(t|d, w) = φwtθtd s φwsθsd для всех w ∈ d, t ∈ T; 9 θtd := 1 nd w∈d ndw p(t|d, w) для всех t ∈ T; 10 пока θd не сойдётся; 11 ˜nwt, ˜nt += ndw p(t|d, w) для всех w ∈ d, t ∈ T; 12 nwt := ρj nwt + ˜nwt; nt := ρj nt + ˜nt для всех w ∈ W , t ∈ T; 13 φwt := nwt/nt для всех w ∈ W , t ∈ T; Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 14 / 51
  • 15. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Латентное размещение Дирихле [Blei, Ng, Jordan, 2003] Оценки условных вероятностей φwt ≡ p(w|t), θtd ≡ p(t|d): в PLSA — несмещённые оценки максимума правдоподобия: φwt = nwt nt , θtd = ntd nd в LDA — сглаженные байесовские оценки: φwt = nwt + βw nt + β0 , θtd = ntd + αt nd + α0 . Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Int’l conf. on Uncertainty in Artificial Intelligence, 2009. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных, 2013. — T. 1, № 6. — С. 657–686. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 15 / 51
  • 16. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Динамические модели, учитывающие время Jianwen Zhang, Yangqiu Song, Changshui Zhang, Shixia Liu Evolutionary Hierarchical Dirichlet Processes for Multiple Correlated Time-varying Corpora // KDD’10, July 25–28, 2010. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 16 / 51
  • 17. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Динамические модели эволюции тем Weiwei Cui, Shixia Liu, Li Tan, Conglei Shi, Yangqiu Song, Zekai J. Gao, Xin Tong, Huamin Qu TextFlow: Towards Better Understanding of Evolving Topics in Text // IEEE Transactions On Visualization And Computer Graphics, Vol. 17, No. 12, December 2011. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 17 / 51
  • 18. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Совмещение динамической и n-граммной модели Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 18 / 51
  • 19. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Совмещение динамической и n-граммной модели Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 19 / 51
  • 20. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Модели, учитывающие цитирования или гиперссылки Учёт ссылок уточняет тематическую модель Тематическая модель выявляет самые влиятельные ссылки Laura Dietz, Steffen Bickel, Tobias Scheffer. Unsupervised prediction of citation influences // ICML-2007, Pp. 233–240. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 20 / 51
  • 21. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Выявление взаимосвязей между темами D. Blei, J. Lafferty. A correlated topic model of Science // Annals of Applied Statistics, 2007. Vol. 1, Pp. 17-35. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 21 / 51
  • 22. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Многоязычные модели I. Vuli´c, W. De Smet, J. Tang, M.-F. Moens. Probabilistic topic modeling in multilingual settings: a short overview of its methodology with applications // NIPS, 7–8 December 2012. — Pp. 1–11. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 22 / 51
  • 23. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Визуализация тематической модели A. Chaney, D. Blei. Visualizing topic models // International AAAI Conference on Social Media and Weblogs, 2012. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 23 / 51
  • 24. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Визуализация тематической модели Группирование ядер из слов в каждой теме Jason Chuang, Christopher D. Manning, Jeffrey Heer. Termite: Visualization Techniques for Assessing Textual Topic Models // Advanced Visual Interfaces, 2012 Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 24 / 51
  • 25. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Цели, задачи, тенденции Модели PLSA и LDA. ЕМ-алгоритм Обзор тематических моделей Резюме по краткому обзору тематическим моделей Их много, они разные, их трудно комбинировать Математический аппарат местами выносит мозг... Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad. Knowledge discovery through directed probabilistic topic models: a survey. Frontiers of Computer Science in China, Vol. 4, No. 2., 2010, Pp. 280–301. (русский перевод на www.MachineLearning.ru) Topic Modeling Bibliography: http://mimno.infosci.cornell.edu/topics.html Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 25 / 51
  • 26. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Задача построения ВТМ — некорректно поставленная Неединственность матричного разложения: ΦΘ = (ΦS)(S−1 Θ) = Φ′ Θ′ для любых ST×T таких, что Φ′, Θ′ — стохастические. Эксперимент. Произведение ΦΘ восстанавливается устойчиво, матрица Φ и матрица Θ — только когда сильно разрежены: PLSA LDA PLSA LDA 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 β, α = 0.01 D ΦΘ D Φ D Θ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 β, α = 0,01 DΦΘ DΦ DΘ 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 α, β = 0.1 DΦΘ DΦ DΘ 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 α, β = 0.1 D ΦΘ D Φ DΘ неразреженность Φ неразреженность Φ неразреженность Θ неразреженность Θ Вывод: вводить дополнительные ограничения можно и нужно! Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 26 / 51
  • 27. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Аддитивная регуляризация тематической модели Пусть, наряду с правдоподобием, требуется максимизировать ещё n критериев Ri (Φ, Θ), i = 1, . . . , n — регуляризаторов. Метод многокритериальной оптимизации — скаляризация. Задача: максимизировать регуляризованное правдоподобие d∈D w∈d ndw ln t∈T φwtθtd log-likelihood L (Φ,Θ) + n i=1 τi Ri (Φ, Θ) R(Φ,Θ) → max Φ,Θ , при ограничениях неотрицательности и нормировки φwt 0; w∈W φwt = 1; θtd 0; t∈T θtd = 1 где τi > 0 — коэффициенты регуляризации. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 27 / 51
  • 28. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Обоснование регуляризованного ЕМ-алгоритма PLSA Теорема Если Φ, Θ — решение задачи максимизации регуляризованного правдоподобия, то оно удовлетворяет системе уравнений    E-шаг: ndwt = ndw φwtθtd s∈T φws θsd ; M-шаг: φwt = nwt nt ; nwt = d∈D ndwt + φwt ∂R ∂φwt + ; nt = w∈W nwt; θtd = ntd nd ; ntd = w∈d ndwt + θtd ∂R ∂θtd + ; nd = t∈T ntd При R(Φ, Θ) = 0 это формулы EM-алгоритма для PLSA. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 28 / 51
  • 29. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Математический ликбез. Дивергенция Кульбака–Лейблера Функция расстояния между распределениями P = (pi )n i=1 и Q = (qi )n i=1: KL(P Q) ≡ KLi (pi qi ) = n i=1 pi ln pi qi . 1. KL(P Q) 0; KL(P Q) = 0 ⇔ P = Q; 2. Минимизация KL эквивалентна максимизации правдоподобия: KL(P Q(α)) = n i=1 pi ln pi qi (α) → min α ⇐⇒ n i=1 pi ln qi (α) → max α . 3. Если KL(P Q) < KL(Q P), то P сильнее вложено в Q, чем Q в P: 0 50 100 150 200 0 0.01 0.02 0.03 0.04 0 50 100 150 200 0 0.005 0.010 0.015 0.020 0 50 100 150 200 0 0.005 0.010 0.015 0.020 P PP Q Q Q KL(P Q) = 0.442 KL(Q P) = 2.966 KL(P Q) = 0.444 KL(Q P) = 0.444 KL(P Q) = 2.969 KL(Q P) = 2.969 Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 29 / 51
  • 30. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №1: Сглаживание (совпадает с LDA) Гипотеза сглаженности: распределения φwt близки к заданным распределениям βw распределения θtd близки к заданным распределениям αt t∈T KLw (βw φwt ) → min Φ ; d∈D KLt(αt θtd ) → min Θ . Максимизируем сумму этих регуляризаторов: R(Φ, Θ) = β0 t∈T w∈W βw ln φwt + α0 d∈D t∈T αt ln θtd → max . Подставляем, получаем формулы М-шага LDA: φwt ∝ nwt + β0βw , θtd ∝ ntd + α0αt. Этого вы не найдёте в D.Blei, A.Ng, M.Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research, 2003. — Vol. 3. — Pp. 993–1022. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 30 / 51
  • 31. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №2: Частичное обучение (обобщение LDA) Пусть имеется дополнительная информация от экспертов: 1) списки тем Td ⊂ T для некоторых документов d ∈ D0, 2) списки терминов Wt ⊂ W для некоторых тем t ∈ T0. φ0 wt — распределение, равномерное на Wt θ0 td — распределение, равномерное на Td Максимизируем сумму этих регуляризаторов: R(Φ, Θ) = β0 t∈T0 w∈Wt φ0 wt ln φwt + α0 d∈D0 t∈Td θ0 td ln θtd → max Подставляем, получаем обобщение LDA: φwt ∝ nwt + β0φ0 wt θtd ∝ ntd + α0θ0 td Nigam K., McCallum A., Thrun S., Mitchell T. Text classification from labeled and unlabeled documents using EM // Machine Learning, 2000, no. 2–3. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 31 / 51
  • 32. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №2: Частичное обучение (второе обобщение LDA) Идея: вместо логарифма можно взять любую другую монотонно возрастающую функцию µ R(Φ, Θ) = β0 t∈T0 w∈Wt φ0 wtµ(φwt)+α0 d∈D0 t∈Td θ0 td µ(θtd ) → max . Подставляем, получаем ещё одно обобщение LDA: φwt ∝ nwt + β0φ0 wtφwtµ′ (φwt) θtd ∝ ntd + α0θ0 td θtd µ′ (θtd ). При µ(z) = z максимизируется сумма ковариаций cov(θ0 d , θd ). Преимущество ковариационного регуляризатора: Если θ0 td равномерно на Td , то ковариация не накладывает ограничений на распределение θtd между темами из Td . Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 32 / 51
  • 33. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №3: Разреживание (третье обобщение LDA) Гипотеза разреженности: среди φwt, θtd много нулей. Чем сильнее разрежено распределение, тем ниже его энтропия. Максимальной энтропией обладает равномерное распределение. Максимизируем дивергенцию между распределениями βw , αt (равномерными?) и искомыми распределениями φwt, θtd : R(Φ, Θ) = −β0 t∈T w∈W βw ln φwt − α0 d∈D t∈T αt ln θtd → max . Подставляем, получаем «анти-LDA»: φwt ∝ nwt − β0βw + , θtd ∝ ntd − α0αt + . Varadarajan J., Emonet R., Odobez J.-M. A sparsity constraint for topic models — application to temporal activity mining // NIPS-2010 Workshop on Practical Applications of Sparse Modeling: Open Issues and New Directions. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 33 / 51
  • 34. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №4: Удаление незначимых тем Гипотеза: если тема собрала мало слов, то она не нужна. Разреживаем распределение p(t) = d p(d)θtd, максимизируя KL-дивергенцию между p(t) и равномерным распределением: R(Θ) = −τ t∈T ln d∈D p(d)θtd → max . Подставляем, получаем: θtd ∝ ntd − τ nd nt θtd + . Строки матрицы Θ могут целиком обнуляться для тем t, собравших мало слов по коллекции, nt = d w ndwt. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 34 / 51
  • 35. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №5: Декорреляция Гипотеза некоррелированности тем: чем различнее темы, тем лучше они интерпретируются. Минимизируем ковариации между вектор-столбцами φt: R(Φ) = − τ 2 t∈T s∈Tt w∈W φwtφws → max . Подставляем, получаем ещё один вариант разреживания — постепенное контрастирование строк матрицы Φ: φwt ∝ nwt − τφwt s∈Tt φws + . Tan Y., Ou Z. Topic-weak-correlated latent Dirichlet allocation // 7th Int’l Symp. Chinese Spoken Language Processing (ISCSLP), 2010. — Pp. 224–228. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 35 / 51
  • 36. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №6: Максимизация когерентности тем Гипотеза: тема лучше интерпретируется, если она содержит когерентные (часто встречающиеся рядом) слова u, w ∈ W . Пусть Cuw — оценка когерентности, например ˆp(w|u) = Nuw Nu . Согласуем φwt с оценками ˆp(w|t) по когерентным словам, ˆp(w|t) = u p(w|u)p(u|t) = 1 nt u Cuw nut; R(Φ, Θ) = τ t∈T nt w∈W ˆp(w|t) ln φwt → max . Подставляем, получаем ещё один вариант сглаживания: φwt ∝ nwt + τ u∈W w Cuw nut. Mimno D., Wallach H. M., Talley E., Leenders M., McCallum A. Optimizing semantic coherence in topic models // Empirical Methods in Natural Language Processing, EMNLP-2011. — Pp. 262–272. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 36 / 51
  • 37. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №7: Связи между документами Гипотеза: чем больше ndc — число ссылок из d на c, тем более близки тематики документов d и c. Минимизируем ковариации между вектор-столбцами связанных документов θd , θc: R(Φ, Θ) = τ d,c∈D ndccov(θd, θc) → max, Подставляем, получаем ещё один вариант сглаживания: θtd ∝ ntd + τθtd c∈D ndc θtc. Dietz L., Bickel S., Scheffer T. Unsupervised prediction of citation influences // ICML 2007. — Pp. 233–240. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 37 / 51
  • 38. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №8: Классификация документов Пусть C — множество классов документов (категории, авторы, ссылки, годы, пользователи,. . . ) Гипотеза: классификация документа d объясняется его темами: p(c|d) = t∈T p(c|t)p(t|d) = t∈T ψctθtd . Минимизируем дивергенцию между моделью p(c|d) и «эмпирической частотой» классов в документах mdc : R(Ψ, Θ) = τ d∈D c∈C mdc ln t∈T ψctθtd → max . Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multi-label document classification // Machine Learning, 2012, no. 1–2. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 38 / 51
  • 39. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №8: Классификация документов ЕМ-алгоритм дополняется оцениванием параметров ψct. Е-шаг. По формуле Байеса: p(t|d, w) = φwtθtd s∈T φws θsd p(t|d, c) = ψctθtd s∈T ψcs θsd М-шаг. Максимизация регуляризованного правдоподобия: φwt ∝ nwt nwt = d∈D ndw p(t|d, w) θtd ∝ ntd + τmtd ntd = w∈W ndw p(t|d, w) mtd = c∈C mdc p(t|d, c) ψct ∝ mct mct = d∈D mdc p(t|d, c) Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 39 / 51
  • 40. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №9: Категоризация документов Снова регуляризатор для классификации: R(Ψ, Θ) = τ d∈D c∈C mdc ln t∈T ψctθtd → max Недостаток: для «эмпирической частоты классов» приходится необоснованно брать равномерное распределение: mdc = nd 1 |Cd |[c ∈ Cd ] Ковариационный регуляризатор: R(Ψ, Θ) = τ d∈D c∈C mdc t∈T ψctθtd → max приводит к естественному аналитическому решению ψct = c = c∗ (t) , c∗ (t) = arg max c∈C d∈D mdc θtd Эффект: Каждая категория c распадается на свои темы. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 40 / 51
  • 41. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Регуляризатор №10: Динамическая тематическая модель Y — моменты времени (например, годы публикаций), y(d) — метка времени документа d, Dy ⊂ D — все документы, относящиеся к моменту y ∈ Y . Гипотеза 1: распределение p(t|y) = d∈Dy θtd p(d) разрежено: R1(Θ) = −τ1 y∈Y t∈T ln p(t|y) → max . Эффект — разреживание тем t с малым p(t|y(d)): θtd ∝ ntd − τ1 θtd p(d) p(t|y(d)) + . Гипотеза 2: p(t|y) меняются плавно, с редкими скачками: R2(Θ) = −τ2 y∈Y t∈T p(t|y) − p(t|y−1) → max . Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 41 / 51
  • 42. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Преимущества и ограничения Преимущества АРТМ: легко учитывать различную дополнительную информацию больше свободы на этапе формализации требований легко комбинировать регуляризаторы в любых сочетаниях предельно упростился переход от модели к алгоритму: Ограничения АРТМ: ещё не все модели успели переформулировать в АРТМ ;) надо подбирать много коэффициентов регуляризации Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 42 / 51
  • 43. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Комбинирование регуляризаторов и ЕМ-алгоритм Примеры регуляризаторов Методология АРТМ Подбор траектории регуляризации Пусть задана линейная комбинация регуляризаторов: R(Φ, Θ) = n i=1 τi Ri (Φ, Θ) Задача: выбрать вектор коэффициентов τ = (τi )n i=1 Ближайший аналог: «Regularization Path» в задачах регрессии с L1- и L2-регуляризацией (Elastic Net) Общие соображения о выборе траектории регуляризации: 1) мониторить много критериев качества в ходе итераций, 2) усиливать регуляризаторы постепенно, 3) сначала достичь сходимости нерегуляризованного PLSA, 4) чередовать регуляризаторы, если они мешают друг другу 5) ослаблять регуляризаторы, когда их цель уже достигнута Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 43 / 51
  • 44. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Гипотеза о структуре интерпретируемых тем 1 Предметные темы разреженные, существенно различные, имеют ядро, состоящее из терминов предметной области. 2 Фоновые темы плотные, содержат слова общей лексики. W ×T-матрица Φ T×D-матрица Θ Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 44 / 51
  • 45. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Комбинирование разреживания, сглаживания и декорреляции Задача: улучшить интерпретируемость, не ухудшив перплексию Набор регуляризаторов: №1 сглаживание фоновых тем — столбцов Φ, строк Θ №3 разреживание предметных тем — столбцов Φ, строк Θ №4 удаление незначимых тем — строк Θ №5 декоррелирование предметных тем — столбцов Φ Данные: NIPS (Neural Information Processing System) |D| = 1566 статей конференции NIPS на английском языке; суммарной длины n ≈ 2.3 · 106, словарь |W | ≈ 1.3 · 104. контрольная коллекция: |D′| = 174. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 45 / 51
  • 46. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Критерии качества модели Перплексия контрольной коллекции: P = exp(−L /N) Разреженность — доля нулевых элементов в Φ и Θ Характеристики интерпретируемости тем: когерентность темы: [Newman, 2010] размер ядра темы: |Wt | = # w : p(t|w) > 0.25 чистота темы: t∈Wt p(w|t) контрастность темы: 1 |Wt | t∈Wt p(t|w) Вырожденность тематической модели: число тем доля фоновых слов в документах коллекции Newman D., Lau J.H., Grieser K., Baldwin T. Automatic evaluation of topic coherence // Human Language Technologies, HLT-2010, Pp. 100–108. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 46 / 51
  • 47. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Комбинирование разреживания, сглаживания и декорреляции Зависимости критериев качества от итераций ЕМ-алгоритма (серый — PLSA, чёрный — ARTM) 2 000 2 200 2 400 2 600 2 800 3 000 3 200 3 400 3 600 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 перплексия разреженность перплексия Фи Тета 99.0 99.2 99.4 99.6 99.8 100.0 100.2 100.4 100.6 100.8 101.0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 число тем доля фоновых слов число тем доля фоновых слов 0 10 20 30 40 50 60 70 80 90 0 20 40 60 80 100 120 140 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 размер ядра контрастность, чистота размер ядра контрастность чистота 0 10 20 30 40 50 60 70 80 90 0 0.2 0.4 0.6 0.8 1.0 1.2 0 0.05 0.10 0.15 0.20 0.25 когерентность ядра когерентность топов ядро топ-10 топ-100 Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 47 / 51
  • 48. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Все те же, с удалением незначимых тем Зависимости критериев качества от итераций ЕМ-алгоритма (серый — PLSA, чёрный — ARTM) 2 000 2 200 2 400 2 600 2 800 3 000 3 200 3 400 3 600 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 перплексия разреженность перплексия Фи Тета 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 число тем доля фоновых слов число тем доля фоновых слов 0 10 20 30 40 50 60 70 80 90 0 20 40 60 80 100 120 140 160 180 200 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 размер ядра контрастность, чистота размер ядра контрастность чистота 0 10 20 30 40 50 60 70 80 90 0 0.2 0.4 0.6 0.8 1.0 1.2 0 0.05 0.10 0.15 0.20 0.25 0.30 когерентность ядра когерентность топов ядро топ-10 топ-100 Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 48 / 51
  • 49. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Выводы Показана возможность одновременного: усиления разреженности (до 98%) улучшения интерпретируемости (когерентности) тем повышения различности (чистоты и контрастности) тем при размере ядер тем 50–150 слов почти без потери перплексии (правдоподобия) модели Подобраны траектории регуляризации: разреживание включать постепенно после 10-20 итераций сглаживание включать сразу декорреляцию включать сразу и как можно сильнее удаление незначимых тем включать постепенно, никогда не совмещая с декорреляцией на одной итерации Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 49 / 51
  • 50. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Направления ближайших исследований Лингвистическая регуляризация, отказ от «мешка слов» учёт линейной структуры текста учёт лингвистических ресурсов (тезаурусов, онтологий) выделение терминов-словосочетаний Разработка BigARTM — библиотеки с открытым кодом параллельные вычисления распределённое хранение коллекции любые сочетания регуляризаторов Открытые проблемы глобальная оптимизация иерархические модели визуализация результатов поиска научной информации Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 50 / 51
  • 51. Основы вероятностного тематического моделирования Аддитивная регуляризация тематических моделей Регуляризация интерпретируемости тем Улучшение интерпретируемости тем Эксперименты, результаты, выводы Открытые проблемы, перспективы Воронцов Константин Вячеславович voron@yandex-team.ru Страницы на www.MachineLearning.ru: Участник:Vokov Вероятностные тематические модели (курс лекций, К. В. Воронцов) Тематическое моделирование Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН, №3, 2014. Vorontsov K. V., Potapenko A. A., Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’14. Springer. 2014. Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 51 / 51