Предложенная концепция построения нейронной сети на базе иерархической функциональной системы показала свою эффективность при разработке онтологий в различных информационных динамических предметных областях: медицина, экономика, мобильная связь и кластерный анализ многомерных данных. Вертикальные возмущения ФС позволяют эксперту найти когнитивные ситуации, которые не были им обнаружены при проектировании базы знаний.
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
Обновленная презентация моего основного курса в НИУ ВШЭ.
В рамках курса рассматриваются методы снижения размерности пространства (простой и множественный анализ соответствий, метод главных компонент, категориальный факторный анализ), сегментирования (деревья классификации, кластерный анализ, дискриминантный анализ), моделирования (регрессии и Conjoint) и прогнозирования (тренд, сезонность, цикличность, автокорреляция, авторегрессия, ARIMA).
"Современные методы анализа данных" читаются на 1-м курсе магистратуры ПМСАР факультета Социологии. Подробную программу курса можно посмотреть на сайте Вышки, а здесь мы представляем вашему вниманию короткую презентацию.
The model ontology subject domain in system "KARKAS" , consists of hierar-chy of classes of subject domain, communications between them (conclusion rules) which operate within the limits of this model. In system the interpretation mechanism ontology in the conditions of dynamic change of its parametres (a base class, communications between classes and interactions of objects of classes) is offered. The system is constructed by a modular principle and for this reason has possibility of connection of other additional modules. In architecture of system it is possi-ble to allocate following basic modules: the loader; the module for working out knowledge base; the consultation module; the module cluster analysis the data.
The subject domain model is considered as functional system in which the result makes organising impact on all stages of formation онтологии. Classes and communications be-tween it can be considered as a logic design of functional system.
In system "KARKAS" the functional system is the formalized reflexion of subject do-main in the form of hierarchical structure of a set of managing directors a component which co-operate among themselves for overall objective achievement.
A short introduction into Sequential Pattern Mining in Russia. We consider frequent and frequent closed sequences along with two algorithms (SPADE and PrefixSpan). A demographic case study is provided as well. One can find links and references to relevant literature and software. We mainly follow Han & Kamber Data Mining book (2nd edition, Chapter 8.3).
Краткое введение в Sequential Pattern Mining на русском языке. Рассматриваются алгоритмы для поиска частых и частых замкнутых последовательностей (SPADE и PrefixSpan) Кейс-стади на примере демографических последовательностей. Приведены ссылки на библиотеки и реализации некоторых базовых алгоритмов. Основное изложение по мотивам учебника Джиавея Хана и Мишелин Камбер.
Предложенная концепция построения нейронной сети на базе иерархической функциональной системы показала свою эффективность при разработке онтологий в различных информационных динамических предметных областях: медицина, экономика, мобильная связь и кластерный анализ многомерных данных. Вертикальные возмущения ФС позволяют эксперту найти когнитивные ситуации, которые не были им обнаружены при проектировании базы знаний.
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
Обновленная презентация моего основного курса в НИУ ВШЭ.
В рамках курса рассматриваются методы снижения размерности пространства (простой и множественный анализ соответствий, метод главных компонент, категориальный факторный анализ), сегментирования (деревья классификации, кластерный анализ, дискриминантный анализ), моделирования (регрессии и Conjoint) и прогнозирования (тренд, сезонность, цикличность, автокорреляция, авторегрессия, ARIMA).
"Современные методы анализа данных" читаются на 1-м курсе магистратуры ПМСАР факультета Социологии. Подробную программу курса можно посмотреть на сайте Вышки, а здесь мы представляем вашему вниманию короткую презентацию.
The model ontology subject domain in system "KARKAS" , consists of hierar-chy of classes of subject domain, communications between them (conclusion rules) which operate within the limits of this model. In system the interpretation mechanism ontology in the conditions of dynamic change of its parametres (a base class, communications between classes and interactions of objects of classes) is offered. The system is constructed by a modular principle and for this reason has possibility of connection of other additional modules. In architecture of system it is possi-ble to allocate following basic modules: the loader; the module for working out knowledge base; the consultation module; the module cluster analysis the data.
The subject domain model is considered as functional system in which the result makes organising impact on all stages of formation онтологии. Classes and communications be-tween it can be considered as a logic design of functional system.
In system "KARKAS" the functional system is the formalized reflexion of subject do-main in the form of hierarchical structure of a set of managing directors a component which co-operate among themselves for overall objective achievement.
A short introduction into Sequential Pattern Mining in Russia. We consider frequent and frequent closed sequences along with two algorithms (SPADE and PrefixSpan). A demographic case study is provided as well. One can find links and references to relevant literature and software. We mainly follow Han & Kamber Data Mining book (2nd edition, Chapter 8.3).
Краткое введение в Sequential Pattern Mining на русском языке. Рассматриваются алгоритмы для поиска частых и частых замкнутых последовательностей (SPADE и PrefixSpan) Кейс-стади на примере демографических последовательностей. Приведены ссылки на библиотеки и реализации некоторых базовых алгоритмов. Основное изложение по мотивам учебника Джиавея Хана и Мишелин Камбер.
Alexey Mikhaylichenko - Automatic Detection of Bone Contours in X-Ray ImagesAIST
This document summarizes an algorithm for automatically segmenting and detecting joints in x-ray images. The algorithm involves several steps: (1) computing an edge map of the image, (2) determining binarization thresholds, (3) thinning edges, (4) binarizing the image, and (5) chaining edges together. The algorithm is compared to the Canny edge detector and is shown to achieve a 74% success rate on joint images. Processing time is improved by implementing a multi-threaded version. Challenges include false edge detection and discontinuities between edge fragments.
Евгений Цымбалов, Webgames - Методы машинного обучения для задач игровой анал...AIST
ML is helping a large Russian game developer and publisher called WebGames analyze data from their free-to-play games. They collect over 80 million records daily from their 400k daily players across various platforms. They use ML for tasks like churn prediction, revenue prediction, user classification, A/B testing, balance, and recommendations. Specifically, they build 30 different models to predict LTV for users based on their behavior in the first 30 days. They also use kNN and cohort-based approaches for user classification and Bayesian A/B testing to dynamically adjust testing over time. Rule-based modeling and midgame support based on classification help balance games. Content recommendations are done through static and dynamic clustering.
Александр Москвичев, EveResearch - Алгоритмы анализа данных в маркетинговых и...AIST
The document discusses various economic models related to utility and consumer choice. It introduces concepts like cardinal and ordinal utility and discusses modeling utility as a probability of success. It also discusses simple models of consumer choice that involve choosing a product based on type and brand or type and price. Additionally, it discusses models where neighbors' choices or prices can influence individual choices and mentions discounts and bundles. Graphs are shown comparing product turnover before and after implementing a neighbors effect model.
1) Exactpro is a specialist QA firm focused on testing financial systems that was acquired by the London Stock Exchange Group in 2015.
2) The London Stock Exchange Group is a leading international exchange group that traces its history back to 1698 and has over 5,500 employees.
3) Exactpro uses automated testing tools like Sailfish and ClearTH to test systems, as well as techniques like formal verification, crowd-sourced testing, and machine learning.
Nikolay Karpov - Evolvable Semantic Platform for Facilitating Knowledge ExchangeAIST
This document describes an evolvable semantic platform called EXPERTIZE that was developed to facilitate knowledge exchange between experts at a university. EXPERTIZE analyzes unstructured text from news and matches it to the skills of university experts, as defined in their personal ontologies, in order to recommend relevant experts. It uses a latent Dirichlet allocation algorithm to perform the semantic matching. The system was implemented and evaluated, showing its ability to successfully recommend experts and categories for news items.
George Moiseev - Classification of E-commerce Websites by Product CategoriesAIST
This document describes a study that classified e-commerce websites by the products they sell. It discusses preprocessing web pages, extracting features using TF-IDF with additional weighting for tags, and classifying pages using a support vector machine. The results show that considering information from other pages in addition to the main page improved classification accuracy, with an average F-score of 0.81 for product type classification when using all page information with the tag weighting.
Elena Bruches - The Hybrid Approach to Part-of-Speech DisambiguationAIST
The document describes a hybrid approach to part-of-speech disambiguation that combines neural networks and manually crafted rules. The algorithm uses neural networks to generate a set of possible part-of-speech tags for each word, and rule-based tagging to generate another set. The final set of tags is the intersection of these two sets, or their union if the intersection is empty. The approach achieved 96.11% precision on one corpus and 86.39% precision on another larger corpus.
Marina Danshina - The methodology of automated decryption of znamenny chantsAIST
1. The researchers created an automated system called "Computer Semiography" to decode Znamenny chants. The system consists of 5 modules: inputting chants into a database, reviewing manuscripts, forming linguistic and translation models, decoding chants, and a music editor.
2. The system can decode chants using either linear or Znamenny notation by applying rules from dictionaries and books. Researchers first build dictionaries from sources then use them to transform manuscripts into a linear notation.
3. The methodology allows producing three main components for decoding chants: a dictionary with translation rules, a translated manuscript version, and language and translation models. The work developed software to input, edit, and view chants in the database
Edward Klyshinsky - The Corpus of Syntactic Co-occurences: the First GlanceAIST
The document discusses the Corpus of Syntactic Co-occurrences, which aims to provide a corpus for students learning Russian that contains correct word combinations. It notes existing corpora like the Russian National Corpus are too large and technical for beginners. The CoSyCo extracts unambiguous syntactic phrases from Russian texts that could help learners. It uses various news and technical texts totaling over 15 billion words. Examples of extracted phrases are provided. The CoSyCo site is mentioned and future plans outlined, such as enlarging the phrase list, filtering repeats and strange combinations, improving the design, and making the co-occurrence database clearer.
Galina Lavrentyeva - Anti-spoofing Methods for Automatic Speaker Verification...AIST
This document discusses anti-spoofing methods for automatic speaker verification systems. It summarizes various spoofing methods like replay attacks, voice conversion, and text-to-speech synthesis that attempt to manipulate biometric systems. The document then outlines the ASVspoof 2015 challenge on spoofing detection and the system submitted by the authors that achieved 2nd place. It details the authors' system including front-end preprocessing, feature extraction using magnitude, phase and high-level features, and back-end classifiers like SVM and neural networks. The system fused multiple feature types to achieve robust spoofing detection.
Oleksandr Frei and Murat Apishev - Parallel Non-blocking Deterministic Algori...AIST
This document describes parallel algorithms for topic modeling, including synchronous, asynchronous, and deterministic asynchronous algorithms. The synchronous offline algorithm splits the document collection into batches and has each thread process one batch at a time. The asynchronous online algorithm has processor threads process batches concurrently while a merger thread accumulates and merges results to recalculate model parameters. To make the algorithm deterministic, the deterministic asynchronous approach has each thread process batches and write results directly without a merger thread.
Kaytoue Mehdi - Finding duplicate labels in behavioral data: an application f...AIST
The document discusses identifying duplicate labels, or aliases, in behavioral data from e-sports games. It presents a method to analyze confusion matrices from predictive models to identify pairs of labels that concentrate confusion, indicating they may belong to the same player using different aliases. The method extracts fuzzy concepts from the confusion matrix and scores candidate pairs based on their cosine similarity to rank and filter the most likely alias pairs. Experimental settings on real e-sports datasets are also discussed.
Valeri Labunets - The bichromatic excitable Schrodinger metamediumAIST
This document describes research into modeling wave phenomena like particle motion and interference using a cellular automata approach called an excitable metamedium. It can simulate the Schrodinger equation by representing diffusion as complex numbers across cells. The researchers extended this to use triplet "color" numbers for diffusion coefficients, allowing visualization of properties like hue, saturation and lightness. Experiments demonstrated particle motion, interference and blending effects using different color diffusion values. Unusual geometries were also explored by changing the definition of the imaginary unit, affecting the behavior of color wave propagation in interesting ways.
Valeri Labunets - Fast multiparametric wavelet transforms and packets for ima...AIST
This document discusses multiparametric wavelet transforms (WDT). It describes the structure of WDT, which is characterized by two sets of coefficients (h-coefficients and g-coefficients) related by a matrix equation. It also discusses arbitrary cyclic wavelet transforms (AWT) and their representation using Jacobi-Givens rotations and stairs-like structures. An example of an 8-level AWT is presented using these concepts.
Alexander Karkishchenko - Threefold Symmetry Detection in Hexagonal Images Ba...AIST
This document discusses a method for detecting threefold symmetry in hexagonal images using finite Eisenstein fields. It begins with an introduction to symmetry detection and issues that arise when applying existing continuous techniques to digital images. It then describes finite Eisenstein fields, which are constructed as finite fields analogous to the complex integers. Elements of these fields correspond naturally to hexagons, allowing hexagonal images to be represented as functions over the fields. Polar coordinate transformations are introduced to represent field elements in exponential form, enabling the transfer of continuous symmetry detection methods to digital hexagonal images. In summary, the document proposes a novel approach for symmetry detection in hexagonal images based on the algebraic structure of finite Eisenstein fields.
Artyom Makovetskii - An Efficient Algorithm for Total Variation DenoisingAIST
This document summarizes a research paper that analyzes the total variation denoising algorithm. It presents the following key points:
1. The total variation denoising model aims to minimize the sum of a fidelity term measuring noise and a regularization term measuring total variation.
2. The solution space can be reduced from bounded variation functions to piecewise constant functions on a given partition.
3. Explicit solutions are described for small values of the regularization parameter λ using Strong-Chan formulas, and these solutions are used to iteratively reduce the problem size and λ value.
4. The properties of extremal functions are proved, including uniqueness and behavior at discontinuity points depending on the sign of neighboring
Artyom Makovetskii - An Efficient Algorithm for Total Variation Denoising
Konstantion Vorontsov - Additive regularization of matrix decompositons and probabilistic topic modeling
1. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Additive Regularization of
Matrix Factorization for
Probabilistic Topic Modeling
(Аддитивная регуляризация тематических моделей)
Konstantin Vorontsov
Yandex • CC RAS • MIPT • HSE • MSU
Analysis of Images, Social Networks and Texts
Ekaterinburg, 10–12 April 2014
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 1 / 51
2. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Содержание
1 Основы вероятностного тематического моделирования
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
2 Аддитивная регуляризация тематических моделей
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
3 Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 2 / 51
3. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Задача вероятностного тематического моделирования (ВТМ)
Тема — это набор терминов, неслучайно часто совместно
встречающихся в относительно узком подмножестве документов.
Дано:
W — словарь, множество слов (терминов)
D — множество (коллекция, корпус) текстовых документов
ndw — сколько раз термин w ∈W встретился в документе d ∈D
Найти:
p(w|t) — какими терминами w определяется каждая тема t
p(t|d) — к каким темам t относится каждый документ d
Критерии:
внутренний — точность описания коллекции моделью p(w|d)
внешний — качество решения конечной задачи
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 3 / 51
4. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Цели вероятностного тематического моделирования (ВТМ)
Тематический поиск документов и объектов
по тексту любой длины или по любому объекту
Категоризация, классификация, аннотирование,
суммаризация текстовых документов
Приложения:
Поиск научной информации
Выявление трендов и фронта исследований
Поиск специалистов (expert search), рецензентов, проектов
Анализ и агрегирование новостных потоков
Рубрикация документов, изображений, видео, музыки
Рекомендующие системы, коллаборативная фильтрация
Аннотация генома и другие задачи биоинформатики
Анализ дискретизированных биомедицинских сигналов
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 4 / 51
5. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Развитие ВТМ: учёт дополнительной информации
повышение адекватности тематической модели
выявление семантики нетекстовых объектов
Виды дополнительной информации:
последовательность слов документа d: {w1, . . . , wnd
}
разбиение документа на предложения, разделы
метаданные: год, авторы, источник, и т.д.
цитаты и/или гиперссылки: исходящие, входящие
рубрикатор(ы)
словари, тезаурусы, онтологии предметных областей
изображения внутри документов
именованные сущности в тексте документов
пользователи документов
теги, ключевые слова, привязанные к документам
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 5 / 51
6. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Развитие ВТМ: расширение функциональных возможностей
как строить комбинированные и многоцелевые модели?
как учитывать все дополнительные данные сразу?
как моделировать изменения тем во времени?
как обеспечивать интерпретируемость тем?
как определять правильное число тем?
как восстанавливать иерархию тем?
как автоматически именовать темы?
как учитывать лингвистические знания?
как строить модели на десятки тысяч тем?
как строить модели сверхбольших коллекций?
как делать визуализацию и навигацию по темам?
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 6 / 51
7. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Цели сегодняшней лекции
«Представляется важной задача освобождения всюду, где это
возможно, от излишних вероятностных допущений»
— А. Н. Колмогоров, создатель современной теории вероятностей
(Теория информации и теория алгоритмов, 1987.)
1 Рассказать о разновидностях тематических моделей.
2 Показать простой и мощный математический аппарат
для построения сложных тематических моделей.
3 При этом обойтись без распределений Дирихле,
байесовского вывода, графических моделей и интегралов.
4 Снизить для исследователей «порог вхождения» в область
вероятностного тематического моделирования.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 7 / 51
8. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Вероятностная тематическая модель
Порождение слов документа d из p(w|d) =
t∈T
p(w|t)p(t|d)
Ра а а а -а а а
а . М а а а а а а а
а а а а
GC- GA- а а а а а . На
а а а , а а а а а а
а ( а , а а а ) а а а
а. М а а а а а а а а а . О
а а а а , а
а а . Е а а а
( а а а а а).
)݀|ݐ(
:)ݐ|ݓ(
ݐଵ, … , ݐ
ݓଵ, … , ݓ
:
0.018 а а а
0.013
0.011 а
… … … …
0.023
0.016
0.009
… … … …
0.014 а
0.009
0.006 а
… … … …
ݐଵ ݐଶଵ ݐଷଵଷ ݐସଷଵݐହଷଵ
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 8 / 51
9. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Задача тематического моделирования коллекции документов
Базовые предположения:
коллекция D — выборка троек (di , wi , ti )n
i=1 ∼ p(d, w, t)
di , wi — наблюдаемые, темы ti — скрытые
гипотеза условной независимости: p(w|d, t) = p(w|t)
Вероятностная модель порождения документов:
p(w|d) =
t∈T
p(w|t)
φwt
p(t|d)
θtd
φwt ≡ p(w|t) — распределение терминов в темах t ∈T;
θtd ≡ p(t|d) — распределение тем в документах d ∈D.
Прямая задача: по φwt, θtd сгенерировать документ d.
Обратная задача: по ˆp(w|d) ≡ ndw
nd
найти параметры φwt, θtd .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 9 / 51
10. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Принцип максимума правдоподобия
Задача: максимизировать логарифм правдоподобия
L (Φ, Θ) =
d∈D w∈d
ndw ln
t∈T
φwtθtd → max
Φ,Θ
,
при ограничениях неотрицательности и нормировки
φwt 0;
w∈W
φwt = 1; θtd 0;
t∈T
θtd = 1
Это задача стохастического матричного разложения:
F
W ×D
≈ Φ
W ×T
· Θ
T×D
F = ˆp(w|d) W ×D
— известная матрица исходных данных,
Φ = φwt W ×T
— искомая матрица терминов тем φwt =p(w|t),
Θ = θtd T×D
— искомая матрица тем документов θtd =p(t|d).
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 10 / 51
11. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Probabilistic Latent Semantic Analysis [Hofmann, 1999]
Теорема
Если Φ, Θ — решение задачи максимизации правдоподобия,
то оно удовлетворяет системе уравнений
E-шаг: ndwt = ndw
φwtθtd
s∈T
φws θsd
; — вспомогательные переменные
M-шаг: φwt =
nwt
nt
; nwt =
d∈D
ndwt; nt =
w∈W
nwt;
θtd =
ntd
nd
; ntd =
w∈d
ndwt; nd =
t∈T
ntd ;
EM-алгоритм — чередование E- и M-шага до сходимости.
Это решение системы уравнений методом простых итераций.
Идея на будущее: можно использовать и другие методы!
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 11 / 51
12. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Вероятностная интерпретация шагов ЕМ-алгоритма
Е-шаг — это формула Байеса:
p(t|d, w) =
φwtθtd
s∈T
φws θsd
ndwt = ndw p(t|d, w) — оценка числа троек (d, w, t) в коллекции
М-шаг — это частотные оценки условных вероятностей:
φwt =
nwt
nt
≡
d∈D
ndwt
d∈D w∈d
ndwt
, θtd =
ntd
nd
≡
w∈d
ndwt
w∈W t∈T
ndwt
,
Краткая запись через знак пропорциональности ∝:
p(t|d, w) ∝ φwtθtd ; φwt ∝ nwt; θtd ∝ ntd ;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 12 / 51
13. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Рациональный ЕМ-алгоритм
Идея: E-шаг встраивается внутрь М-шага
Вход: коллекция D, число тем |T|, число итераций imax;
Выход: матрицы терминов тем Θ и тем документов Φ;
1 инициализация φwt, θtd для всех d ∈ D, w ∈ W , t ∈ T;
2 для всех итераций i = 1, . . . , imax
3 nwt, ntd , nt, nd := 0 для всех d ∈ D, w ∈ W , t ∈ T;
4 для всех документов d ∈ D и всех слов w ∈ d
5 p(t|d, w) =
φwtθtd
s φws θsd
для всех t ∈ T;
6 nwt, ntd , nt, nd += ndw p(t|d, w) для всех t ∈ T;
7 φwt := nwt/nt для всех w ∈ W , t ∈ T;
8 θtd := ntd /nd для всех d ∈ D, t ∈ T;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 13 / 51
14. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Онлайновый EM-алгоритм (для больших коллекций)
1 инициализировать φwt для всех w ∈ W , t ∈ T;
2 nwt := 0, nt := 0 для всех w ∈ W , t ∈ T;
3 для всех пачек документов Dj, j = 1, . . . , J
4 ˜nwt := 0, ˜nt := 0 для всех w ∈ W , t ∈ T;
5 для всех документов d из пачки Dj
6 инициализировать θtd для всех t ∈ T;
7 повторять
8 p(t|d, w) =
φwtθtd
s φwsθsd
для всех w ∈ d, t ∈ T;
9 θtd := 1
nd
w∈d
ndw p(t|d, w) для всех t ∈ T;
10 пока θd не сойдётся;
11 ˜nwt, ˜nt += ndw p(t|d, w) для всех w ∈ d, t ∈ T;
12 nwt := ρj nwt + ˜nwt; nt := ρj nt + ˜nt для всех w ∈ W , t ∈ T;
13 φwt := nwt/nt для всех w ∈ W , t ∈ T;
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 14 / 51
15. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Латентное размещение Дирихле [Blei, Ng, Jordan, 2003]
Оценки условных вероятностей φwt ≡ p(w|t), θtd ≡ p(t|d):
в PLSA — несмещённые оценки максимума правдоподобия:
φwt =
nwt
nt
, θtd =
ntd
nd
в LDA — сглаженные байесовские оценки:
φwt =
nwt + βw
nt + β0
, θtd =
ntd + αt
nd + α0
.
Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for
topic models // Int’l conf. on Uncertainty in Artificial Intelligence, 2009.
Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для
вероятностного тематического моделирования // Машинное обучение
и анализ данных, 2013. — T. 1, № 6. — С. 657–686.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 15 / 51
16. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Динамические модели, учитывающие время
Jianwen Zhang, Yangqiu Song, Changshui Zhang, Shixia Liu Evolutionary
Hierarchical Dirichlet Processes for Multiple Correlated Time-varying
Corpora // KDD’10, July 25–28, 2010.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 16 / 51
17. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Динамические модели эволюции тем
Weiwei Cui, Shixia Liu, Li Tan, Conglei Shi, Yangqiu Song, Zekai J. Gao, Xin
Tong, Huamin Qu TextFlow: Towards Better Understanding of Evolving Topics
in Text // IEEE Transactions On Visualization And Computer Graphics,
Vol. 17, No. 12, December 2011.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 17 / 51
18. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Совмещение динамической и n-граммной модели
Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped
Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 18 / 51
19. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Совмещение динамической и n-граммной модели
Shoaib Jameel, Wai Lam. An N-Gram Topic Model for Time-Stamped
Documents // 35’th ECIR 2013, Moscow, March 24–27. — pp. 292–304.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 19 / 51
20. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Модели, учитывающие цитирования или гиперссылки
Учёт ссылок уточняет тематическую модель
Тематическая модель выявляет самые влиятельные ссылки
Laura Dietz, Steffen Bickel, Tobias Scheffer. Unsupervised prediction of citation
influences // ICML-2007, Pp. 233–240.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 20 / 51
21. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Выявление взаимосвязей между темами
D. Blei, J. Lafferty. A correlated topic model of Science // Annals of Applied
Statistics, 2007. Vol. 1, Pp. 17-35.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 21 / 51
22. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Многоязычные модели
I. Vuli´c, W. De Smet, J. Tang, M.-F. Moens. Probabilistic topic modeling in
multilingual settings: a short overview of its methodology with applications //
NIPS, 7–8 December 2012. — Pp. 1–11.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 22 / 51
23. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Визуализация тематической модели
A. Chaney, D. Blei. Visualizing topic models // International AAAI Conference
on Social Media and Weblogs, 2012.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 23 / 51
24. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Визуализация тематической модели
Группирование ядер из слов в каждой теме
Jason Chuang, Christopher D. Manning, Jeffrey Heer.
Termite: Visualization Techniques for Assessing Textual Topic Models //
Advanced Visual Interfaces, 2012
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 24 / 51
25. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Цели, задачи, тенденции
Модели PLSA и LDA. ЕМ-алгоритм
Обзор тематических моделей
Резюме по краткому обзору тематическим моделей
Их много, они разные, их трудно комбинировать
Математический аппарат местами выносит мозг...
Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad.
Knowledge discovery through directed probabilistic topic models: a survey.
Frontiers of Computer Science in China, Vol. 4, No. 2., 2010, Pp. 280–301.
(русский перевод на www.MachineLearning.ru)
Topic Modeling Bibliography: http://mimno.infosci.cornell.edu/topics.html
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 25 / 51
26. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Задача построения ВТМ — некорректно поставленная
Неединственность матричного разложения:
ΦΘ = (ΦS)(S−1
Θ) = Φ′
Θ′
для любых ST×T таких, что Φ′, Θ′ — стохастические.
Эксперимент. Произведение ΦΘ восстанавливается устойчиво,
матрица Φ и матрица Θ — только когда сильно разрежены:
PLSA LDA PLSA LDA
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
β, α = 0.01
D
ΦΘ
D
Φ
D
Θ
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
β, α = 0,01
DΦΘ
DΦ
DΘ
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
α, β = 0.1
DΦΘ
DΦ
DΘ
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
α, β = 0.1
D
ΦΘ
D
Φ
DΘ
неразреженность Φ неразреженность Φ неразреженность Θ неразреженность Θ
Вывод: вводить дополнительные ограничения можно и нужно!
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 26 / 51
27. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Аддитивная регуляризация тематической модели
Пусть, наряду с правдоподобием, требуется максимизировать
ещё n критериев Ri (Φ, Θ), i = 1, . . . , n — регуляризаторов.
Метод многокритериальной оптимизации — скаляризация.
Задача: максимизировать регуляризованное правдоподобие
d∈D w∈d
ndw ln
t∈T
φwtθtd
log-likelihood L (Φ,Θ)
+
n
i=1
τi Ri (Φ, Θ)
R(Φ,Θ)
→ max
Φ,Θ
,
при ограничениях неотрицательности и нормировки
φwt 0;
w∈W
φwt = 1; θtd 0;
t∈T
θtd = 1
где τi > 0 — коэффициенты регуляризации.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 27 / 51
28. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Обоснование регуляризованного ЕМ-алгоритма PLSA
Теорема
Если Φ, Θ — решение задачи максимизации регуляризованного
правдоподобия, то оно удовлетворяет системе уравнений
E-шаг: ndwt = ndw
φwtθtd
s∈T
φws θsd
;
M-шаг:
φwt =
nwt
nt
; nwt =
d∈D
ndwt + φwt
∂R
∂φwt +
; nt =
w∈W
nwt;
θtd =
ntd
nd
; ntd =
w∈d
ndwt + θtd
∂R
∂θtd +
; nd =
t∈T
ntd
При R(Φ, Θ) = 0 это формулы EM-алгоритма для PLSA.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 28 / 51
29. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Математический ликбез. Дивергенция Кульбака–Лейблера
Функция расстояния между распределениями P = (pi )n
i=1 и Q = (qi )n
i=1:
KL(P Q) ≡ KLi (pi qi ) =
n
i=1
pi ln
pi
qi
.
1. KL(P Q) 0; KL(P Q) = 0 ⇔ P = Q;
2. Минимизация KL эквивалентна максимизации правдоподобия:
KL(P Q(α)) =
n
i=1
pi ln
pi
qi (α)
→ min
α
⇐⇒
n
i=1
pi ln qi (α) → max
α
.
3. Если KL(P Q) < KL(Q P), то P сильнее вложено в Q, чем Q в P:
0 50 100 150 200
0
0.01
0.02
0.03
0.04
0 50 100 150 200
0
0.005
0.010
0.015
0.020
0 50 100 150 200
0
0.005
0.010
0.015
0.020
P PP
Q
Q Q
KL(P Q) = 0.442
KL(Q P) = 2.966
KL(P Q) = 0.444
KL(Q P) = 0.444
KL(P Q) = 2.969
KL(Q P) = 2.969
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 29 / 51
30. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №1: Сглаживание (совпадает с LDA)
Гипотеза сглаженности:
распределения φwt близки к заданным распределениям βw
распределения θtd близки к заданным распределениям αt
t∈T
KLw (βw φwt ) → min
Φ
;
d∈D
KLt(αt θtd ) → min
Θ
.
Максимизируем сумму этих регуляризаторов:
R(Φ, Θ) = β0
t∈T w∈W
βw ln φwt + α0
d∈D t∈T
αt ln θtd → max .
Подставляем, получаем формулы М-шага LDA:
φwt ∝ nwt + β0βw , θtd ∝ ntd + α0αt.
Этого вы не найдёте в D.Blei, A.Ng, M.Jordan. Latent Dirichlet allocation //
Journal of Machine Learning Research, 2003. — Vol. 3. — Pp. 993–1022.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 30 / 51
31. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №2: Частичное обучение (обобщение LDA)
Пусть имеется дополнительная информация от экспертов:
1) списки тем Td ⊂ T для некоторых документов d ∈ D0,
2) списки терминов Wt ⊂ W для некоторых тем t ∈ T0.
φ0
wt — распределение, равномерное на Wt
θ0
td — распределение, равномерное на Td
Максимизируем сумму этих регуляризаторов:
R(Φ, Θ) = β0
t∈T0 w∈Wt
φ0
wt ln φwt + α0
d∈D0 t∈Td
θ0
td ln θtd → max
Подставляем, получаем обобщение LDA:
φwt ∝ nwt + β0φ0
wt θtd ∝ ntd + α0θ0
td
Nigam K., McCallum A., Thrun S., Mitchell T. Text classification from labeled
and unlabeled documents using EM // Machine Learning, 2000, no. 2–3.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 31 / 51
32. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №2: Частичное обучение (второе обобщение LDA)
Идея: вместо логарифма можно взять любую другую
монотонно возрастающую функцию µ
R(Φ, Θ) = β0
t∈T0 w∈Wt
φ0
wtµ(φwt)+α0
d∈D0 t∈Td
θ0
td µ(θtd ) → max .
Подставляем, получаем ещё одно обобщение LDA:
φwt ∝ nwt + β0φ0
wtφwtµ′
(φwt) θtd ∝ ntd + α0θ0
td θtd µ′
(θtd ).
При µ(z) = z максимизируется сумма ковариаций cov(θ0
d , θd ).
Преимущество ковариационного регуляризатора:
Если θ0
td равномерно на Td , то ковариация не накладывает
ограничений на распределение θtd между темами из Td .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 32 / 51
33. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №3: Разреживание (третье обобщение LDA)
Гипотеза разреженности: среди φwt, θtd много нулей.
Чем сильнее разрежено распределение, тем ниже его энтропия.
Максимальной энтропией обладает равномерное распределение.
Максимизируем дивергенцию между распределениями βw , αt
(равномерными?) и искомыми распределениями φwt, θtd :
R(Φ, Θ) = −β0
t∈T w∈W
βw ln φwt − α0
d∈D t∈T
αt ln θtd → max .
Подставляем, получаем «анти-LDA»:
φwt ∝ nwt − β0βw +
, θtd ∝ ntd − α0αt +
.
Varadarajan J., Emonet R., Odobez J.-M. A sparsity constraint for topic
models — application to temporal activity mining // NIPS-2010 Workshop on
Practical Applications of Sparse Modeling: Open Issues and New Directions.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 33 / 51
34. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №4: Удаление незначимых тем
Гипотеза: если тема собрала мало слов, то она не нужна.
Разреживаем распределение p(t) = d p(d)θtd, максимизируя
KL-дивергенцию между p(t) и равномерным распределением:
R(Θ) = −τ
t∈T
ln
d∈D
p(d)θtd → max .
Подставляем, получаем:
θtd ∝ ntd − τ
nd
nt
θtd
+
.
Строки матрицы Θ могут целиком обнуляться для тем t,
собравших мало слов по коллекции, nt = d w ndwt.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 34 / 51
35. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №5: Декорреляция
Гипотеза некоррелированности тем:
чем различнее темы, тем лучше они интерпретируются.
Минимизируем ковариации между вектор-столбцами φt:
R(Φ) = −
τ
2
t∈T s∈Tt w∈W
φwtφws → max .
Подставляем, получаем ещё один вариант разреживания —
постепенное контрастирование строк матрицы Φ:
φwt ∝ nwt − τφwt
s∈Tt
φws
+
.
Tan Y., Ou Z. Topic-weak-correlated latent Dirichlet allocation // 7th Int’l
Symp. Chinese Spoken Language Processing (ISCSLP), 2010. — Pp. 224–228.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 35 / 51
36. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №6: Максимизация когерентности тем
Гипотеза: тема лучше интерпретируется, если она содержит
когерентные (часто встречающиеся рядом) слова u, w ∈ W .
Пусть Cuw — оценка когерентности, например ˆp(w|u) = Nuw
Nu
.
Согласуем φwt с оценками ˆp(w|t) по когерентным словам,
ˆp(w|t) = u p(w|u)p(u|t) = 1
nt u Cuw nut;
R(Φ, Θ) = τ
t∈T
nt
w∈W
ˆp(w|t) ln φwt → max .
Подставляем, получаем ещё один вариант сглаживания:
φwt ∝ nwt + τ
u∈W w
Cuw nut.
Mimno D., Wallach H. M., Talley E., Leenders M., McCallum A. Optimizing
semantic coherence in topic models // Empirical Methods in Natural Language
Processing, EMNLP-2011. — Pp. 262–272.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 36 / 51
37. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №7: Связи между документами
Гипотеза: чем больше ndc — число ссылок из d на c,
тем более близки тематики документов d и c.
Минимизируем ковариации между вектор-столбцами связанных
документов θd , θc:
R(Φ, Θ) = τ
d,c∈D
ndccov(θd, θc) → max,
Подставляем, получаем ещё один вариант сглаживания:
θtd ∝ ntd + τθtd
c∈D
ndc θtc.
Dietz L., Bickel S., Scheffer T. Unsupervised prediction of citation influences //
ICML 2007. — Pp. 233–240.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 37 / 51
38. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №8: Классификация документов
Пусть C — множество классов документов (категории, авторы,
ссылки, годы, пользователи,. . . )
Гипотеза:
классификация документа d объясняется его темами:
p(c|d) =
t∈T
p(c|t)p(t|d) =
t∈T
ψctθtd .
Минимизируем дивергенцию между моделью p(c|d)
и «эмпирической частотой» классов в документах mdc :
R(Ψ, Θ) = τ
d∈D c∈C
mdc ln
t∈T
ψctθtd → max .
Rubin T. N., Chambers A., Smyth P., Steyvers M. Statistical topic models for
multi-label document classification // Machine Learning, 2012, no. 1–2.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 38 / 51
39. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №8: Классификация документов
ЕМ-алгоритм дополняется оцениванием параметров ψct.
Е-шаг. По формуле Байеса:
p(t|d, w) =
φwtθtd
s∈T
φws θsd
p(t|d, c) =
ψctθtd
s∈T
ψcs θsd
М-шаг. Максимизация регуляризованного правдоподобия:
φwt ∝ nwt nwt =
d∈D
ndw p(t|d, w)
θtd ∝ ntd + τmtd ntd =
w∈W
ndw p(t|d, w) mtd =
c∈C
mdc p(t|d, c)
ψct ∝ mct mct =
d∈D
mdc p(t|d, c)
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 39 / 51
40. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №9: Категоризация документов
Снова регуляризатор для классификации:
R(Ψ, Θ) = τ
d∈D c∈C
mdc ln
t∈T
ψctθtd → max
Недостаток: для «эмпирической частоты классов»
приходится необоснованно брать равномерное распределение:
mdc = nd
1
|Cd |[c ∈ Cd ]
Ковариационный регуляризатор:
R(Ψ, Θ) = τ
d∈D c∈C
mdc
t∈T
ψctθtd → max
приводит к естественному аналитическому решению
ψct = c = c∗
(t) , c∗
(t) = arg max
c∈C
d∈D
mdc θtd
Эффект: Каждая категория c распадается на свои темы.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 40 / 51
41. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Регуляризатор №10: Динамическая тематическая модель
Y — моменты времени (например, годы публикаций),
y(d) — метка времени документа d,
Dy ⊂ D — все документы, относящиеся к моменту y ∈ Y .
Гипотеза 1: распределение p(t|y) =
d∈Dy
θtd p(d) разрежено:
R1(Θ) = −τ1
y∈Y t∈T
ln p(t|y) → max .
Эффект — разреживание тем t с малым p(t|y(d)):
θtd ∝ ntd − τ1
θtd p(d)
p(t|y(d)) +
.
Гипотеза 2: p(t|y) меняются плавно, с редкими скачками:
R2(Θ) = −τ2
y∈Y t∈T
p(t|y) − p(t|y−1) → max .
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 41 / 51
42. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Преимущества и ограничения
Преимущества АРТМ:
легко учитывать различную дополнительную информацию
больше свободы на этапе формализации требований
легко комбинировать регуляризаторы в любых сочетаниях
предельно упростился переход от модели к алгоритму:
Ограничения АРТМ:
ещё не все модели успели переформулировать в АРТМ ;)
надо подбирать много коэффициентов регуляризации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 42 / 51
43. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Комбинирование регуляризаторов и ЕМ-алгоритм
Примеры регуляризаторов
Методология АРТМ
Подбор траектории регуляризации
Пусть задана линейная комбинация регуляризаторов:
R(Φ, Θ) =
n
i=1
τi Ri (Φ, Θ)
Задача: выбрать вектор коэффициентов τ = (τi )n
i=1
Ближайший аналог: «Regularization Path» в задачах
регрессии с L1- и L2-регуляризацией (Elastic Net)
Общие соображения о выборе траектории регуляризации:
1) мониторить много критериев качества в ходе итераций,
2) усиливать регуляризаторы постепенно,
3) сначала достичь сходимости нерегуляризованного PLSA,
4) чередовать регуляризаторы, если они мешают друг другу
5) ослаблять регуляризаторы, когда их цель уже достигнута
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 43 / 51
44. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Гипотеза о структуре интерпретируемых тем
1 Предметные темы разреженные, существенно различные,
имеют ядро, состоящее из терминов предметной области.
2 Фоновые темы плотные, содержат слова общей лексики.
W ×T-матрица Φ T×D-матрица Θ
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 44 / 51
45. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Комбинирование разреживания, сглаживания и декорреляции
Задача: улучшить интерпретируемость, не ухудшив перплексию
Набор регуляризаторов:
№1 сглаживание фоновых тем — столбцов Φ, строк Θ
№3 разреживание предметных тем — столбцов Φ, строк Θ
№4 удаление незначимых тем — строк Θ
№5 декоррелирование предметных тем — столбцов Φ
Данные: NIPS (Neural Information Processing System)
|D| = 1566 статей конференции NIPS на английском языке;
суммарной длины n ≈ 2.3 · 106,
словарь |W | ≈ 1.3 · 104.
контрольная коллекция: |D′| = 174.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 45 / 51
46. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Критерии качества модели
Перплексия контрольной коллекции: P = exp(−L /N)
Разреженность — доля нулевых элементов в Φ и Θ
Характеристики интерпретируемости тем:
когерентность темы: [Newman, 2010]
размер ядра темы: |Wt | = # w : p(t|w) > 0.25
чистота темы:
t∈Wt
p(w|t)
контрастность темы: 1
|Wt |
t∈Wt
p(t|w)
Вырожденность тематической модели:
число тем
доля фоновых слов в документах коллекции
Newman D., Lau J.H., Grieser K., Baldwin T. Automatic evaluation of topic
coherence // Human Language Technologies, HLT-2010, Pp. 100–108.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 46 / 51
47. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Комбинирование разреживания, сглаживания и декорреляции
Зависимости критериев качества от итераций ЕМ-алгоритма
(серый — PLSA, чёрный — ARTM)
2 000
2 200
2 400
2 600
2 800
3 000
3 200
3 400
3 600
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
перплексия разреженность
перплексия Фи Тета
99.0
99.2
99.4
99.6
99.8
100.0
100.2
100.4
100.6
100.8
101.0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
число тем доля фоновых слов
число тем доля фоновых слов
0 10 20 30 40 50 60 70 80 90
0
20
40
60
80
100
120
140
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
размер ядра контрастность, чистота
размер ядра контрастность чистота
0 10 20 30 40 50 60 70 80 90
0
0.2
0.4
0.6
0.8
1.0
1.2
0
0.05
0.10
0.15
0.20
0.25
когерентность ядра когерентность топов
ядро топ-10 топ-100
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 47 / 51
48. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Все те же, с удалением незначимых тем
Зависимости критериев качества от итераций ЕМ-алгоритма
(серый — PLSA, чёрный — ARTM)
2 000
2 200
2 400
2 600
2 800
3 000
3 200
3 400
3 600
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
перплексия разреженность
перплексия Фи Тета
20
30
40
50
60
70
80
90
100
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
число тем доля фоновых слов
число тем доля фоновых слов
0 10 20 30 40 50 60 70 80 90
0
20
40
60
80
100
120
140
160
180
200
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
размер ядра контрастность, чистота
размер ядра контрастность чистота
0 10 20 30 40 50 60 70 80 90
0
0.2
0.4
0.6
0.8
1.0
1.2
0
0.05
0.10
0.15
0.20
0.25
0.30
когерентность ядра когерентность топов
ядро топ-10 топ-100
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 48 / 51
49. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Выводы
Показана возможность одновременного:
усиления разреженности (до 98%)
улучшения интерпретируемости (когерентности) тем
повышения различности (чистоты и контрастности) тем
при размере ядер тем 50–150 слов
почти без потери перплексии (правдоподобия) модели
Подобраны траектории регуляризации:
разреживание включать постепенно после 10-20 итераций
сглаживание включать сразу
декорреляцию включать сразу и как можно сильнее
удаление незначимых тем включать постепенно,
никогда не совмещая с декорреляцией на одной итерации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 49 / 51
50. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Направления ближайших исследований
Лингвистическая регуляризация, отказ от «мешка слов»
учёт линейной структуры текста
учёт лингвистических ресурсов (тезаурусов, онтологий)
выделение терминов-словосочетаний
Разработка BigARTM — библиотеки с открытым кодом
параллельные вычисления
распределённое хранение коллекции
любые сочетания регуляризаторов
Открытые проблемы
глобальная оптимизация
иерархические модели
визуализация результатов поиска научной информации
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 50 / 51
51. Основы вероятностного тематического моделирования
Аддитивная регуляризация тематических моделей
Регуляризация интерпретируемости тем
Улучшение интерпретируемости тем
Эксперименты, результаты, выводы
Открытые проблемы, перспективы
Воронцов Константин Вячеславович
voron@yandex-team.ru
Страницы на www.MachineLearning.ru:
Участник:Vokov
Вероятностные тематические модели
(курс лекций, К. В. Воронцов)
Тематическое моделирование
Воронцов К. В. Аддитивная регуляризация тематических моделей
коллекций текстовых документов // Доклады РАН, №3, 2014.
Vorontsov K. V., Potapenko A. A., Tutorial on Probabilistic Topic Modeling:
Additive Regularization for Stochastic Matrix Factorization // AIST’14.
Springer. 2014.
Константин Воронцов (voron@forecsys.ru) Вероятностное тематическое моделирование 51 / 51