Balogh Kitti - Szűcs Krisztina: Képes beszéd

KÉPES BESZÉD
Szűcs Krisztina
data visualization designer
@szucsi
Balogh Kitti
statisztikus, adatelemző

TARTALOM
MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY
NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?

A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentum
pl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?
Sokszor nehezen értelmezhető csoportok
Topik modellek!
Természetes tematikus csoportok
Legegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)

A LÁTENS DIRICHLET ALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT
dokumentumok témaeloszlása
témák szóeloszlása
dokumentumok szavai
témák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett
egy narancsot a tállal együtt.
Nézd azt az aranyos sünit,
hogyan rágcsálja az almát!
narancs
alma
reggeli
0.18
0.15
0.09
kutya
aranyos
lamantin
...
0.26
0.15
0.12
TOPIK 1
TOPIK 2
TOPIK K

HOGYAN TANULJA MEG?
közelítő algoritmusok, pl. Gibbs mintavételezés

MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése

gyűlöletbeszéd
romareprezentáció vizsgálat, romaellenes témák
kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata
10.304 db cikk, 2006-2015. február
LDA ALKALMAZÁSI PÉLDA

HASZNÁLT ESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBEN
MALLET
LDA
Python
adatgyűjtés, adatfeldolgozás
magyarlánc
nyelvi elemzés
R
témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark

ADATGYŰJTÉS, ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás

TOPIKOK SZÁMA
romareprezentációs
szakirodalom
Messing – Bernáth (1998,
2003, 2012) által használt
témastruktúra – 15 téma
harmonikus átlag
módszere – 27 topik

ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL
ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető
a szakirodalomban használtnak
humán kiértékelés 600 cikken,
recall = 74%, precesion = 55%

27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG

2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
30
40
50
2014

2008 2010 2012
0
10
20
30
2014
40
50

2008 2010 2012
0
10
20
2014
40
50
30

2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA

Kolompár Orbán
bírósági ügye
2008/09
Katapult Mentorprogramnál
történt szabálytalanságok
2009/03
Kolompár Orbán és
társainak bírósági ügye
2009/07
Kolompár Orbán és
társainak bírósági ügye
2009/10
ROMA ÖNKORMÁNYZAT, ÖNSZERVEZŐDÉS
2008 2010 2012
0
10
20
30
40
50
2014

Cozma-gyilkosság
2009/02
ROMA-NEM ROMA TÁRSADALMI PROBLÉMÁK, ELŐÍTÉLETESSÉG
2008 2010 2012
0
10
20
30
40
50
2014

Szebb Jövőért
Polgárőr Egyesület
elkezd járőrözni
Gyöngyöspatán
2011/03
Roma-nem roma
konfliktusok
Gyöngyöspatán
2011/04
SZEBB JÖVŐÉRT POLGÁRŐR EGYESÜLET ÉS GYÖNGYÖSPATA
2008 2010 2012
0
10
20
30
40
50
2014

labs.precognox.com/kurucinfo_adatviz/
kereses.blog.hu precognox.com
kbalogh@precognox.com
krisztinaszucs.com

Balogh Kitti - Szűcs Krisztina: Képes beszéd

More Related Content

Viewers also liked

More from Zoltan Varju

Balogh Kitti - Szűcs Krisztina: Képes beszéd