Topic modeling - nie tylko LDA w Gensim

Topic modeling - nie tylko LDA w
Gensim
Dominika Sagan
Data Scientist, Sotrender
www.WarszawskieDniInformatyki.pl

2
WHOAMI
Dominika Sagan
Data Scientist @ Sotrender
d.sagan@sotrender.com

3
Topic Modeling
- Wyodrębnienie tematów na podstawie zbioru dokumentów
- Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA,
GSDMM…
Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584

4
LDA
Latent Dirichlet allocation
podstawowe założenia:
- Dokumenty są
mieszanką tematów
- tematy to zbiory słów
- w zbiorze dokumentów
jest ściśle określona
liczba tematów
source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf

5
LDA - wybór liczby tematów
● Klasycznie -wykorzystać
miary:
- perplexity
- Jaccard similarity
- Coherence measure
● Wykorzystać wagi słów
kluczowych w otrzymanych
tematach:
Temat 1.
source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda

6
LDA
Wyniki:
1. Tematy opisane przez
słowa kluczowe
2. Dokumenty z przypisanym
rozkładem temtów Doc
Topic1: 0.1 ,
Topic2: 0.4 ,
Topic3: 0.2,
...

7
Gensim:
- Biblioteka posiada
implementacje
metod topic
modelingu: LSA,
LDA
- wiele przykładów
zastosowania
- pyLDAvis do
wizualizacji
source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759

8
Tomotopy
- Dostępne metody:
- Latent Dirichlet Allocation (LDAModel)
- Labeled LDA (LLDAModel)
- Partially Labeled LDA (PLDAModel)
- Supervised LDA (SLDAModel)
- Dirichlet Multinomial Regression (DMRModel)
- Generalized Dirichlet Multinomial Regression (GDMRModel)
- ...
source: https://bab2min.github.io/tomotopy/v0.10.2/en/

9
Tomotopy
Czas procesowania 1000
dokumentów z angielskiej
wikipedii (~1 500 000 słów),
tomotopy -200 iteracji, a
gensim -10 iteracji.
- Dużo szybsza
implementacja niż Gensim
- Pozwala na szybkie
testowanie i tworzenie
rozwiązań
https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy

10
LDA
Zalety:
- dobra “na start” - dużo
dostępnych materiałów
- dużo możliwości wizualizacji
wyników
- wynikiem jest rozkład
tematów w dokumencie
Wady:
- im większy zbiór danych tym
wolniejsze działanie
- wybór parametru liczby
tematów
- założenie, że dokument jest
mieszanką tematów nie ma
sensu przy krótkich
dokumentach

11
Dane z social media
- Bardzo krótkie wypowiedzi (dokumenty)
- Założenie, że dokument jest mieszanką kilku tematów często
nie jest spełniony
- zawierają emotki.
- Analizowane zbiory często są bardzo duże
[‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’]
[akurat, dziś, pozdrawiać, najcieplej, życzyć,
dobry, popołudnie]

12
GSDMM
Gibbs sampling algorithm for a Dirichlet Mixture Model
- szybki
- stworzony z myślą o krótkich dokumentach
- zakłada że każdy dokument posiada 1 temat

13
GSDMM
- Każdemu dokumentowi jest
przypisany jeden temat
- Każdy temat
charakteryzowany jest przez
najczęściej występujące
słowa

14
Wybór liczby tematów - GSDMM:
Można skorzystać z tych samych
metod co przy LDA, albo:
Stworzyć model ze zbyt
dużą liczbą tematów i
połączyć je ręcznie.

15
GSDMM
Zalety:
- przystosowany do krótkich
tekstów
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- szybki
- nie ma potrzeby analizy
wielu modeli o różnych
liczbach tematów
Wady:
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- analiza i łączenie powstałych
tematów może zająć dużo
czas

16
Linki:
- https://towardsdatascience.com/social-media-and-topic-modeli
ng-how-to-analyze-posts-in-practice-d84fc0c613cb
- pyLDAvis
https://pyldavis.readthedocs.io/en/latest/readme.html#
- Gensim LDA -
https://radimrehurek.com/gensim/auto_examples/tutorials/run
_lda.html
- GSDMM - https://github.com/rwalk/gsdmm

Dziękujemy za oglądanie!
Zapraszamy do zadawania pytań
oraz oceny prelekcji pod nagraniem. ↘
www.WarszawskieDniInformatyki.pl

Topic modeling - nie tylko LDA w Gensim

More Related Content

More from Sotrender

Topic modeling - nie tylko LDA w Gensim