SlideShare a Scribd company logo
Относительная перплексия как мера качества
тематических моделей
Нижибицкий Евгений Алексеевич
Факультет ВМК МГУ имени М. В. Ломоносова
7 апреля 2014 г.
1 Введение
Тематическое моделирование
Оценки качества
Перплексия
2 Относительная перплексия
Определение
Свойства
3 Эксперименты
Модель и данные
Результат
4 Выводы
Введение
Тематическое моделирование
Строим модели коллекции текстовых документов, темы
описываются дискретным распределением на множестве
терминов, а документы — дискретными распределениями на
множестве тем.
Введение
Тематическое моделирование
• для каждого документа d из коллекции задано число ndw
вхождений слова w в d.
• опираемся на гипотезу условной независимости
p(w|t) = p(w|d, t)
• по формуле формулу полной вероятности:
p(w|d) =
t∈T
p(t|d)p(w|t)
• необходимо найти распределения p(t|d) и p(w|t) по
исходным данным (ndw).
Используем модель online LDA [Matthew D. Hoffman, David M.
Blei – Online Learning for Latent Dirichlet Allocation, 2010].
Готовая реализация — библиотека gensim под Python
(http://radimrehurek.com/gensim/).
Введение
Оценки качества
Насколько хорошо модель описывает данные:
• правдоподобие L
• перплексия P = exp(−L/N)
• information rate: R = − log2 L
N
• критерий Акаике: AIC = −2L + WT и др.
Интерпретируемость тем:
• метод пристального взгляда
• когерентность тем
Введение
Перплексия
Наиболее распространённым критерием является перплексия,
равная экспоненте от минус усреднённого логарифма
правдоподобия:
P = exp −
1
n
d∈D w∈d
ndw ln p(w|d) ,
где n — длина коллекции в словах. Перплексия зависит от
мощности словаря и распределения частот слов в коллекции
p(w) = nw/n, отсюда получаем ее недостатки:
• невозможно оценивать качество удаления стоп-слов
и нетематических слов
• нельзя сравнивать методы разреживания словаря
• нельзя сравнивать униграммные и n-граммные модели.
Относительная перплексия
Определение
Необходим критерий, основанный на значении правдоподобия,
но нечувствительный к изменению состава словаря.
Предлагается относительная перплексия, принимающая
значения из отрезка [0, 1] (чем меньше, тем лучше):
RP =
P − Pmin
Pmax − Pmin
,
где Pmin — минимальная перплексия униграммной модели
документов (p(w|d) = ndw/nd), а Pmax — максимальная
перплексия униграммной модели коллекции (p(w|d) = nw/n,
где nw — число вхождений слова w во всех документах
коллекции, nd — длина документа d).
Относительная перплексия
Свойства
Относительная перплексия уменьшается с ростом числа тем |T|,
достигая 0 при T = min{W, D}, когда тематическая модель
вырождается в униграммную модель документа, и 1 при T = 1,
когда она вырождается в униграммную модель коллекции.
Эксперименты
Модель и данные
Данные для экспериментов — коллекция статей научной
конференции NIPS за 1987–1999 гг. на английском языке.
В каждом эксперименте
1 при фиксированном числе тем из начального словаря
коллекции отбрасывалась его случайно выбранная десятая
часть до полного исчерпания словаря;
2 после каждого отбрасывания производилось обучение
модели (gensim);
3 полученные модели оценивались с помощью перплексии и
относительной перплексии.
Эксперименты
Результат
Выводы
• Можно предполагать, что в коллекции существуют
основные темы, существенно превышающие по мощности
остальные. Они выявляются даже после отбрасывания 2/3
словаря.
• При большем числе тем |T| относительная перплексия
уменьшается по мере разреживания словаря. Это
объясняется тем, что темы не одинаковы по мощности.
При случайном разреживании словаря малые темы
становятся статистически незначимыми и перестают
выявляться.
• При меньшем числе тем |T| относительная перплексия
увеличивается по мере разреживания словаря.
Предположительно, это связано с тем, что тематическая
модель вынужденно объединяет основные темы, различия
между объединёнными темами становятся незначимыми,
темы сближаются и становятся более похожи на
униграммную модель коллекции.
Cпасибо за внимание!

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Относительная перплексия как мера качества тематических моделей

  • 1. Относительная перплексия как мера качества тематических моделей Нижибицкий Евгений Алексеевич Факультет ВМК МГУ имени М. В. Ломоносова 7 апреля 2014 г.
  • 2. 1 Введение Тематическое моделирование Оценки качества Перплексия 2 Относительная перплексия Определение Свойства 3 Эксперименты Модель и данные Результат 4 Выводы
  • 3. Введение Тематическое моделирование Строим модели коллекции текстовых документов, темы описываются дискретным распределением на множестве терминов, а документы — дискретными распределениями на множестве тем.
  • 4. Введение Тематическое моделирование • для каждого документа d из коллекции задано число ndw вхождений слова w в d. • опираемся на гипотезу условной независимости p(w|t) = p(w|d, t) • по формуле формулу полной вероятности: p(w|d) = t∈T p(t|d)p(w|t) • необходимо найти распределения p(t|d) и p(w|t) по исходным данным (ndw). Используем модель online LDA [Matthew D. Hoffman, David M. Blei – Online Learning for Latent Dirichlet Allocation, 2010]. Готовая реализация — библиотека gensim под Python (http://radimrehurek.com/gensim/).
  • 5. Введение Оценки качества Насколько хорошо модель описывает данные: • правдоподобие L • перплексия P = exp(−L/N) • information rate: R = − log2 L N • критерий Акаике: AIC = −2L + WT и др. Интерпретируемость тем: • метод пристального взгляда • когерентность тем
  • 6. Введение Перплексия Наиболее распространённым критерием является перплексия, равная экспоненте от минус усреднённого логарифма правдоподобия: P = exp − 1 n d∈D w∈d ndw ln p(w|d) , где n — длина коллекции в словах. Перплексия зависит от мощности словаря и распределения частот слов в коллекции p(w) = nw/n, отсюда получаем ее недостатки: • невозможно оценивать качество удаления стоп-слов и нетематических слов • нельзя сравнивать методы разреживания словаря • нельзя сравнивать униграммные и n-граммные модели.
  • 7. Относительная перплексия Определение Необходим критерий, основанный на значении правдоподобия, но нечувствительный к изменению состава словаря. Предлагается относительная перплексия, принимающая значения из отрезка [0, 1] (чем меньше, тем лучше): RP = P − Pmin Pmax − Pmin , где Pmin — минимальная перплексия униграммной модели документов (p(w|d) = ndw/nd), а Pmax — максимальная перплексия униграммной модели коллекции (p(w|d) = nw/n, где nw — число вхождений слова w во всех документах коллекции, nd — длина документа d).
  • 8. Относительная перплексия Свойства Относительная перплексия уменьшается с ростом числа тем |T|, достигая 0 при T = min{W, D}, когда тематическая модель вырождается в униграммную модель документа, и 1 при T = 1, когда она вырождается в униграммную модель коллекции.
  • 9. Эксперименты Модель и данные Данные для экспериментов — коллекция статей научной конференции NIPS за 1987–1999 гг. на английском языке. В каждом эксперименте 1 при фиксированном числе тем из начального словаря коллекции отбрасывалась его случайно выбранная десятая часть до полного исчерпания словаря; 2 после каждого отбрасывания производилось обучение модели (gensim); 3 полученные модели оценивались с помощью перплексии и относительной перплексии.
  • 11. Выводы • Можно предполагать, что в коллекции существуют основные темы, существенно превышающие по мощности остальные. Они выявляются даже после отбрасывания 2/3 словаря. • При большем числе тем |T| относительная перплексия уменьшается по мере разреживания словаря. Это объясняется тем, что темы не одинаковы по мощности. При случайном разреживании словаря малые темы становятся статистически незначимыми и перестают выявляться. • При меньшем числе тем |T| относительная перплексия увеличивается по мере разреживания словаря. Предположительно, это связано с тем, что тематическая модель вынужденно объединяет основные темы, различия между объединёнными темами становятся незначимыми, темы сближаются и становятся более похожи на униграммную модель коллекции.