KÉPES BESZÉD
Szűcs Krisztina
data visualization designer
@szucsi
Balogh Kitti
statisztikus, adatelemző
TARTALOM
MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY
NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?
A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentum
pl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?
Sokszor nehezen értelmezhető csoportok
Topik modellek!
Természetes tematikus csoportok
Legegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT
dokumentumok témaeloszlása
témák szóeloszlása
dokumentumok szavai
témák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett
egy narancsot a tállal együtt.
Nézd azt az aranyos sünit,
hogyan rágcsálja az almát!
narancs
alma
reggeli
0.18
0.15
0.09
kutya
aranyos
lamantin
...
0.26
0.15
0.12
TOPIK 1
TOPIK 2
TOPIK K
A LÁTENS DIRICHLET ALLOKÁCIÓ
HOGYAN TANULJA MEG?
közelítő algoritmusok, pl. Gibbs mintavételezés
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése
gyűlöletbeszéd
romareprezentáció vizsgálat, romaellenes témák
kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata
10.304 db cikk, 2006-2015. február
LDA ALKALMAZÁSI PÉLDA
LDA ALKALMAZÁSI PÉLDA
HASZNÁLT ESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBEN
MALLET
LDA
Python
adatgyűjtés, adatfeldolgozás
magyarlánc
nyelvi elemzés
R
témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark
LDA ALKALMAZÁSI PÉLDA
ADATGYŰJTÉS, ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás
LDA ALKALMAZÁSI PÉLDA
TOPIKOK SZÁMA
romareprezentációs
szakirodalom
Messing – Bernáth (1998,
2003, 2012) által használt
témastruktúra – 15 téma
harmonikus átlag
módszere – 27 topik
LDA ALKALMAZÁSI PÉLDA
ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL
ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető
a szakirodalomban használtnak
humán kiértékelés 600 cikken,
recall = 74%, precesion = 55%
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
30
40
50
2014
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
30
2014
40
50
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
2014
40
50
30
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
Kolompár Orbán
bírósági ügye
2008/09
Katapult Mentorprogramnál
történt szabálytalanságok
2009/03
Kolompár Orbán és
társainak bírósági ügye
2009/07
Kolompár Orbán és
társainak bírósági ügye
2009/10
ROMA ÖNKORMÁNYZAT, ÖNSZERVEZŐDÉS
2008 2010 2012
0
10
20
30
40
50
2014
Cozma-gyilkosság
2009/02
ROMA-NEM ROMA TÁRSADALMI PROBLÉMÁK, ELŐÍTÉLETESSÉG
2008 2010 2012
0
10
20
30
40
50
2014
Szebb Jövőért
Polgárőr Egyesület
elkezd járőrözni
Gyöngyöspatán
2011/03
Roma-nem roma
konfliktusok
Gyöngyöspatán
2011/04
SZEBB JÖVŐÉRT POLGÁRŐR EGYESÜLET ÉS GYÖNGYÖSPATA
2008 2010 2012
0
10
20
30
40
50
2014
labs.precognox.com/kurucinfo_adatviz/
kereses.blog.hu precognox.com
kbalogh@precognox.com
krisztinaszucs.com

Balogh Kitti - Szűcs Krisztina: Képes beszéd