SlideShare a Scribd company logo
KÉPES BESZÉD
Szűcs Krisztina
data visualization designer
@szucsi
Balogh Kitti
statisztikus, adatelemző
TARTALOM
MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY
NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?
A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentum
pl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?
Sokszor nehezen értelmezhető csoportok
Topik modellek!
Természetes tematikus csoportok
Legegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT
dokumentumok témaeloszlása
témák szóeloszlása
dokumentumok szavai
témák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett
egy narancsot a tállal együtt.
Nézd azt az aranyos sünit,
hogyan rágcsálja az almát!
narancs
alma
reggeli
0.18
0.15
0.09
kutya
aranyos
lamantin
...
0.26
0.15
0.12
TOPIK 1
TOPIK 2
TOPIK K
A LÁTENS DIRICHLET ALLOKÁCIÓ
HOGYAN TANULJA MEG?
közelítő algoritmusok, pl. Gibbs mintavételezés
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése
gyűlöletbeszéd
romareprezentáció vizsgálat, romaellenes témák
kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata
10.304 db cikk, 2006-2015. február
LDA ALKALMAZÁSI PÉLDA
LDA ALKALMAZÁSI PÉLDA
HASZNÁLT ESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBEN
MALLET
LDA
Python
adatgyűjtés, adatfeldolgozás
magyarlánc
nyelvi elemzés
R
témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark
LDA ALKALMAZÁSI PÉLDA
ADATGYŰJTÉS, ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás
LDA ALKALMAZÁSI PÉLDA
TOPIKOK SZÁMA
romareprezentációs
szakirodalom
Messing – Bernáth (1998,
2003, 2012) által használt
témastruktúra – 15 téma
harmonikus átlag
módszere – 27 topik
LDA ALKALMAZÁSI PÉLDA
ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL
ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető
a szakirodalomban használtnak
humán kiértékelés 600 cikken,
recall = 74%, precesion = 55%
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
LDA ALKALMAZÁSI PÉLDA
27 TÉMA IDŐBELI VÁLTOZÁSA 2006-2015-IG
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
30
40
50
2014
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
30
2014
40
50
2008 2010 2012
0
topikarányok összege
az időszak cikkeiben
10
20
2014
40
50
30
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok
összege az
időszak
cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
Kolompár Orbán
bírósági ügye
2008/09
Katapult Mentorprogramnál
történt szabálytalanságok
2009/03
Kolompár Orbán és
társainak bírósági ügye
2009/07
Kolompár Orbán és
társainak bírósági ügye
2009/10
ROMA ÖNKORMÁNYZAT, ÖNSZERVEZŐDÉS
2008 2010 2012
0
10
20
30
40
50
2014
Cozma-gyilkosság
2009/02
ROMA-NEM ROMA TÁRSADALMI PROBLÉMÁK, ELŐÍTÉLETESSÉG
2008 2010 2012
0
10
20
30
40
50
2014
Szebb Jövőért
Polgárőr Egyesület
elkezd járőrözni
Gyöngyöspatán
2011/03
Roma-nem roma
konfliktusok
Gyöngyöspatán
2011/04
SZEBB JÖVŐÉRT POLGÁRŐR EGYESÜLET ÉS GYÖNGYÖSPATA
2008 2010 2012
0
10
20
30
40
50
2014
labs.precognox.com/kurucinfo_adatviz/
kereses.blog.hu precognox.com
kbalogh@precognox.com
krisztinaszucs.com

More Related Content

Viewers also liked

Concrete indentity really getting to know your users
Concrete indentity   really getting to know your usersConcrete indentity   really getting to know your users
Concrete indentity really getting to know your users
PayPal
 
Presentación sobre Display Suite en el Drupal Day Valencia 2012
Presentación sobre Display Suite en el Drupal Day Valencia 2012Presentación sobre Display Suite en el Drupal Day Valencia 2012
Presentación sobre Display Suite en el Drupal Day Valencia 2012
Atenea tech
 
Grafico diario del dax perfomance index para el 07 10-2011
Grafico diario del dax perfomance index para el 07 10-2011Grafico diario del dax perfomance index para el 07 10-2011
Grafico diario del dax perfomance index para el 07 10-2011Experiencia Trading
 
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...SlideTeam.net
 
Colegio superior san martín
Colegio superior san martínColegio superior san martín
Colegio superior san martínSHIRLEYMICAELA
 
Automated Marking - Formative Assessment at its best
Automated Marking - Formative Assessment at its bestAutomated Marking - Formative Assessment at its best
Automated Marking - Formative Assessment at its best
James Abela
 
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
Rosane Domingues
 
Soracom dev conf_soracom beamとbluemixで簡単iot
Soracom dev conf_soracom beamとbluemixで簡単iotSoracom dev conf_soracom beamとbluemixで簡単iot
Soracom dev conf_soracom beamとbluemixで簡単iot
Hideaki Tokida
 
les aventures de Bib
les aventures de Bibles aventures de Bib
les aventures de Bibhhs
 
TED Ed Lessons
TED Ed Lessons TED Ed Lessons
TED Ed Lessons
John Allan
 

Viewers also liked (10)

Concrete indentity really getting to know your users
Concrete indentity   really getting to know your usersConcrete indentity   really getting to know your users
Concrete indentity really getting to know your users
 
Presentación sobre Display Suite en el Drupal Day Valencia 2012
Presentación sobre Display Suite en el Drupal Day Valencia 2012Presentación sobre Display Suite en el Drupal Day Valencia 2012
Presentación sobre Display Suite en el Drupal Day Valencia 2012
 
Grafico diario del dax perfomance index para el 07 10-2011
Grafico diario del dax perfomance index para el 07 10-2011Grafico diario del dax perfomance index para el 07 10-2011
Grafico diario del dax perfomance index para el 07 10-2011
 
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...
3 d pie chart circular puzzle with hole in center process stages 11 style 3 p...
 
Colegio superior san martín
Colegio superior san martínColegio superior san martín
Colegio superior san martín
 
Automated Marking - Formative Assessment at its best
Automated Marking - Formative Assessment at its bestAutomated Marking - Formative Assessment at its best
Automated Marking - Formative Assessment at its best
 
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
Saberes e Práticas da Inclusão - Dificuldades Acentuadas de Aprendizagem - Au...
 
Soracom dev conf_soracom beamとbluemixで簡単iot
Soracom dev conf_soracom beamとbluemixで簡単iotSoracom dev conf_soracom beamとbluemixで簡単iot
Soracom dev conf_soracom beamとbluemixで簡単iot
 
les aventures de Bib
les aventures de Bibles aventures de Bib
les aventures de Bib
 
TED Ed Lessons
TED Ed Lessons TED Ed Lessons
TED Ed Lessons
 

More from Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
Zoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
Zoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
Zoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Zoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
Zoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
Zoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
Zoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
Zoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Zoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
Zoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Zoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
Zoltan Varju
 
Felhívás
FelhívásFelhívás
Felhívás
Zoltan Varju
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
Zoltan Varju
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
Zoltan Varju
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Zoltan Varju
 

More from Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
 

Balogh Kitti - Szűcs Krisztina: Képes beszéd