TARTALOM
MI AZ ALÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY
NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?
3.
A TOPIK MODELLEKÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentum
pl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?
Sokszor nehezen értelmezhető csoportok
Topik modellek!
Természetes tematikus csoportok
Legegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)
4.
A LÁTENS DIRICHLETALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT
dokumentumok témaeloszlása
témák szóeloszlása
dokumentumok szavai
témák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett
egy narancsot a tállal együtt.
Nézd azt az aranyos sünit,
hogyan rágcsálja az almát!
narancs
alma
reggeli
0.18
0.15
0.09
kutya
aranyos
lamantin
...
0.26
0.15
0.12
TOPIK 1
TOPIK 2
TOPIK K
5.
A LÁTENS DIRICHLETALLOKÁCIÓ
HOGYAN TANULJA MEG?
közelítő algoritmusok, pl. Gibbs mintavételezés
6.
A LÁTENS DIRICHLETALLOKÁCIÓ
MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése
LDA ALKALMAZÁSI PÉLDA
HASZNÁLTESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBEN
MALLET
LDA
Python
adatgyűjtés, adatfeldolgozás
magyarlánc
nyelvi elemzés
R
témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark
9.
LDA ALKALMAZÁSI PÉLDA
ADATGYŰJTÉS,ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás
10.
LDA ALKALMAZÁSI PÉLDA
TOPIKOKSZÁMA
romareprezentációs
szakirodalom
Messing – Bernáth (1998,
2003, 2012) által használt
témastruktúra – 15 téma
harmonikus átlag
módszere – 27 topik
11.
LDA ALKALMAZÁSI PÉLDA
ÖSSZEVETÉSKVALITATÍV EREDMÉNYEKKEL
ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető
a szakirodalomban használtnak
humán kiértékelés 600 cikken,
recall = 74%, precesion = 55%