Topic modeling - nie tylko LDA w
Gensim
Dominika Sagan
Data Scientist, Sotrender
www.WarszawskieDniInformatyki.pl
2
WHOAMI
Dominika Sagan
Data Scientist @ Sotrender
d.sagan@sotrender.com
3
Topic Modeling
- Wyodrębnienie tematów na podstawie zbioru dokumentów
- Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA,
GSDMM…
Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584
4
LDA
Latent Dirichlet allocation
podstawowe założenia:
- Dokumenty są
mieszanką tematów
- tematy to zbiory słów
- w zbiorze dokumentów
jest ściśle określona
liczba tematów
source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
5
LDA - wybór liczby tematów
● Klasycznie -wykorzystać
miary:
- perplexity
- Jaccard similarity
- Coherence measure
● Wykorzystać wagi słów
kluczowych w otrzymanych
tematach:
Temat 1.
source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda
6
LDA
Wyniki:
1. Tematy opisane przez
słowa kluczowe
2. Dokumenty z przypisanym
rozkładem temtów Doc
Topic1: 0.1 ,
Topic2: 0.4 ,
Topic3: 0.2,
...
7
Gensim:
- Biblioteka posiada
implementacje
metod topic
modelingu: LSA,
LDA
- wiele przykładów
zastosowania
- pyLDAvis do
wizualizacji
source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759
8
Tomotopy
- Dostępne metody:
- Latent Dirichlet Allocation (LDAModel)
- Labeled LDA (LLDAModel)
- Partially Labeled LDA (PLDAModel)
- Supervised LDA (SLDAModel)
- Dirichlet Multinomial Regression (DMRModel)
- Generalized Dirichlet Multinomial Regression (GDMRModel)
- ...
source: https://bab2min.github.io/tomotopy/v0.10.2/en/
9
Tomotopy
Czas procesowania 1000
dokumentów z angielskiej
wikipedii (~1 500 000 słów),
tomotopy -200 iteracji, a
gensim -10 iteracji.
- Dużo szybsza
implementacja niż Gensim
- Pozwala na szybkie
testowanie i tworzenie
rozwiązań
https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy
10
LDA
Zalety:
- dobra “na start” - dużo
dostępnych materiałów
- dużo możliwości wizualizacji
wyników
- wynikiem jest rozkład
tematów w dokumencie
Wady:
- im większy zbiór danych tym
wolniejsze działanie
- wybór parametru liczby
tematów
- założenie, że dokument jest
mieszanką tematów nie ma
sensu przy krótkich
dokumentach
11
Dane z social media
- Bardzo krótkie wypowiedzi (dokumenty)
- Założenie, że dokument jest mieszanką kilku tematów często
nie jest spełniony
- zawierają emotki.
- Analizowane zbiory często są bardzo duże
[‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’]
[akurat, dziś, pozdrawiać, najcieplej, życzyć,
dobry, popołudnie]
12
GSDMM
Gibbs sampling algorithm for a Dirichlet Mixture Model
- szybki
- stworzony z myślą o krótkich dokumentach
- zakłada że każdy dokument posiada 1 temat
13
GSDMM
- Każdemu dokumentowi jest
przypisany jeden temat
- Każdy temat
charakteryzowany jest przez
najczęściej występujące
słowa
14
Wybór liczby tematów - GSDMM:
Można skorzystać z tych samych
metod co przy LDA, albo:
Stworzyć model ze zbyt
dużą liczbą tematów i
połączyć je ręcznie.
15
GSDMM
Zalety:
- przystosowany do krótkich
tekstów
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- szybki
- nie ma potrzeby analizy
wielu modeli o różnych
liczbach tematów
Wady:
- wynikiem jest przypisanie
jednego tematu do
dokumentu
- analiza i łączenie powstałych
tematów może zająć dużo
czas
16
Linki:
- https://towardsdatascience.com/social-media-and-topic-modeli
ng-how-to-analyze-posts-in-practice-d84fc0c613cb
- pyLDAvis
https://pyldavis.readthedocs.io/en/latest/readme.html#
- Gensim LDA -
https://radimrehurek.com/gensim/auto_examples/tutorials/run
_lda.html
- GSDMM - https://github.com/rwalk/gsdmm
Dziękujemy za oglądanie!
Zapraszamy do zadawania pytań
oraz oceny prelekcji pod nagraniem. ↘
www.WarszawskieDniInformatyki.pl

Topic modeling - nie tylko LDA w Gensim

  • 1.
    Topic modeling -nie tylko LDA w Gensim Dominika Sagan Data Scientist, Sotrender www.WarszawskieDniInformatyki.pl
  • 2.
    2 WHOAMI Dominika Sagan Data Scientist@ Sotrender d.sagan@sotrender.com
  • 3.
    3 Topic Modeling - Wyodrębnienietematów na podstawie zbioru dokumentów - Metody: LDA, LSA, pLSA, DMR, HDP, MG-LDA, PA, HPA, GSDMM… Source: https://hackernoon.com/nlp-101-topic-modeling-for-humans-part-1-a030e8155584
  • 4.
    4 LDA Latent Dirichlet allocation podstawowezałożenia: - Dokumenty są mieszanką tematów - tematy to zbiory słów - w zbiorze dokumentów jest ściśle określona liczba tematów source: http://www.cs.columbia.edu/~blei/papers/Blei2012.pdf
  • 5.
    5 LDA - wybórliczby tematów ● Klasycznie -wykorzystać miary: - perplexity - Jaccard similarity - Coherence measure ● Wykorzystać wagi słów kluczowych w otrzymanych tematach: Temat 1. source: https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#17howtofindtheoptimalnumberoftopicsforlda
  • 6.
    6 LDA Wyniki: 1. Tematy opisaneprzez słowa kluczowe 2. Dokumenty z przypisanym rozkładem temtów Doc Topic1: 0.1 , Topic2: 0.4 , Topic3: 0.2, ...
  • 7.
    7 Gensim: - Biblioteka posiada implementacje metodtopic modelingu: LSA, LDA - wiele przykładów zastosowania - pyLDAvis do wizualizacji source: https://www.researchgate.net/figure/pyLDAvis-Visualization-highlighting-relevant-keywords-for-a-Socio-Political-Issue-found_fig5_338948759
  • 8.
    8 Tomotopy - Dostępne metody: -Latent Dirichlet Allocation (LDAModel) - Labeled LDA (LLDAModel) - Partially Labeled LDA (PLDAModel) - Supervised LDA (SLDAModel) - Dirichlet Multinomial Regression (DMRModel) - Generalized Dirichlet Multinomial Regression (GDMRModel) - ... source: https://bab2min.github.io/tomotopy/v0.10.2/en/
  • 9.
    9 Tomotopy Czas procesowania 1000 dokumentówz angielskiej wikipedii (~1 500 000 słów), tomotopy -200 iteracji, a gensim -10 iteracji. - Dużo szybsza implementacja niż Gensim - Pozwala na szybkie testowanie i tworzenie rozwiązań https://bab2min.github.io/tomotopy/v0.10.2/en/#performance-of-tomotopy
  • 10.
    10 LDA Zalety: - dobra “nastart” - dużo dostępnych materiałów - dużo możliwości wizualizacji wyników - wynikiem jest rozkład tematów w dokumencie Wady: - im większy zbiór danych tym wolniejsze działanie - wybór parametru liczby tematów - założenie, że dokument jest mieszanką tematów nie ma sensu przy krótkich dokumentach
  • 11.
    11 Dane z socialmedia - Bardzo krótkie wypowiedzi (dokumenty) - Założenie, że dokument jest mieszanką kilku tematów często nie jest spełniony - zawierają emotki. - Analizowane zbiory często są bardzo duże [‘placek’, ‘ser’, ‘lubić’, ‘przepyszny’] [akurat, dziś, pozdrawiać, najcieplej, życzyć, dobry, popołudnie]
  • 12.
    12 GSDMM Gibbs sampling algorithmfor a Dirichlet Mixture Model - szybki - stworzony z myślą o krótkich dokumentach - zakłada że każdy dokument posiada 1 temat
  • 13.
    13 GSDMM - Każdemu dokumentowijest przypisany jeden temat - Każdy temat charakteryzowany jest przez najczęściej występujące słowa
  • 14.
    14 Wybór liczby tematów- GSDMM: Można skorzystać z tych samych metod co przy LDA, albo: Stworzyć model ze zbyt dużą liczbą tematów i połączyć je ręcznie.
  • 15.
    15 GSDMM Zalety: - przystosowany dokrótkich tekstów - wynikiem jest przypisanie jednego tematu do dokumentu - szybki - nie ma potrzeby analizy wielu modeli o różnych liczbach tematów Wady: - wynikiem jest przypisanie jednego tematu do dokumentu - analiza i łączenie powstałych tematów może zająć dużo czas
  • 16.
  • 17.
    Dziękujemy za oglądanie! Zapraszamydo zadawania pytań oraz oceny prelekcji pod nagraniem. ↘ www.WarszawskieDniInformatyki.pl