SlideShare a Scribd company logo
1 of 23
Download to read offline
Szövegbányászat
2015.12.04., Adatelemzés
Balogh Kitti – adatelemző, Precognox
Óra menete
» Szövegbányászat
» Szövegbányászat vs. tartalom-, diskurzuselemzés
» Alkalmazási területek
» Példa társadalomtudományi alkalmazásra
» Szövegbányászat R-ben
» Angol nyelvű Oz könyvek szerzőségének elemzése
» Orbán Viktor évértékelő beszédeinek elemzése
Szövegbányászat
» Szöveges elektronikus adatok feldolgozása és
elemzése
» Adatok közötti eligazodás, keresés, rejtett
összefüggések feltárása, kinyerése
» Egyre növekvő elektronikus adatmennyiség
kb. 85% strukturálatlan adat (pl. emailek, hírek,
weboldalak, közösségi média tartalmak, videók)
Hagyományos szövegelemzés
» Tartalomelemzés
» Szavak, nyelvi kategóriák gyakorisága, együttes
megjelenése
» Kvantitatív elemzés
» Diskurzuselemzés
» Több megközelítés, pl. narratívaelemzés (Propp),
konverzációelemzés (Goffman, Garfinkel), kritikai
diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi,
kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív
Szövegbányászat és hagyományos
szövegelemzés
» Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság
nehézsége/lehetetlensége
Alkalmazási területek
» Szövegek osztályozása
» k-nearest neighbour, naive Bayes, decision trees, support vectors
machine stb.
» Pl. spam szűrés, üzleti dokumentumok automatikus címkézése
» Szövegek klaszterezése
» K-means, hierarchikus klaszterezés, topik modellezés stb.
» Pl. cikkek csoportosítása
» Információkinyerés
» Pl. névelem-felismerés
» Szövegek kivonatolása, kulcsszavazás
» Tartalomkeresés webes dokumentumokban
» Anomália detekció
Társadalomtudományi példa
» A látens Dirichlet allokáció társadalomtudományi
alkalmazása
» Survey Statisztika MSc szakdolgozatom (2015)
» Kvantitatív diskurzuselemzés kvalitatív elemekkel
» Romaellenes beszéd, romareprezentációs vizsgálat
» Korpusz: kuruc.info szélsőjobboldali hírportál
Cigánybűnözés rovata
» 10.304 db cikk
» 2006-2015. február
A kuruc.info romaellenes témái
» Módszertan
» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása
» Cikkek szövegének legyűjtése
» Adatfeldolgozás, - tisztítás
» Cikkekhez tartozó időbélyeg kinyerése
» Cikkek témáinak kinyerése
» Látens Dirichlet allokáció (LDA)
» Input: dokumentumok szavai, témák száma
» Output: dokumentumok témaeloszlása, témák szóeloszlása
» Kapott témák összevetése a szakirodalommal és kiértékelés
» Témák időbeli változásának vizualizációja (később)
A kuruc.info romaellenes témái
» Elemzéshez használt eszközök
» MALLET – LDA
» Python – adatgyűjtés, adatfeldolgozás
» magyarlánc – nyelvi elemzés
» R – témák számának kiválasztása, témák időbeli
változása
A látens Dirichlet allokáció
» D. Blei, A. Y. Ng, and M. I. Jordan: Latent
Dirichlet Allocation, 2003
» Nagy mennyiségű szöveges adat látens tematikus
struktúrájának kinyerése
» Topik modellek legegyszerűbb, leggyakrabban
használt tagja
» Hierarchikus bayes-i modell
A látens Dirichlet allokáció
Forrás: Blei (2009)
P(𝑊, 𝑍, θ, ϕ|α, β) =
𝑘=1
𝐾
𝑃 𝜙 𝑘 𝛽
𝑑=1
𝐷
𝑃 𝜃 𝑑 𝛼
𝑛=1
𝑁
𝑃 𝑧 𝑑,𝑛 𝜃 𝑑 𝑃 (𝑤 𝑑,𝑛|𝑧 𝑑,𝑛, 𝜙 𝑘)
1) Minden egyes k
topikhoz választunk egy
𝜙 𝑘 polinomiális eloszlást a
szavak felett Dir(𝛽)szerint,
ahol Dir(𝛽) V-dim
2) Minden d
dokumentumhoz
véletlenül választunk egy
𝜃 𝑑 polinomiális eloszlást
a topikok felett Dir(α)
szerint, ahol Dir(α) K-dim
3) Minden d
dokumentum minden
egyes w szavának
esetében választunk egy
𝑧 𝑑,𝑛=k topikot 𝜃 𝑑
eloszlásból
4) Választunk egy 𝑤 𝑑,𝑛
szót 𝜙 𝑘 eloszlásból
A látens Dirichlet allokáció
» Közelítő algoritmusok pl. Gibbs mintavételezés
A kuruc.info romaellenes témái
» Cikkek legyűjtése
» URL-ek legenerálása
» HTML-ek megtisztított szövegének kinyerése
» Cikkek feldolgozása, tisztítása
» Karakterkódolás
» Magyarlánc (sztemmelés, POS tagek)
» Szófaji szűrés
» Stopszavazás
A kuruc.info romaellenes témái
» LDA illesztése
» Topikok optimális számának
kiválasztása - 27
» Messing – Bernáth (1998, 2002,
2011)
» Harmonikus átlag módszere
» MALLET
» Konvergencia és
illeszkedés ellenőrzés
» Minden téma megtalálható, kivéve:
» Jogvédelem, kisebbségi jogok
» Gazdaság, vállalkozás
» Természeti katasztrófák
» Differenciáltabb témafelosztás:
» Bűnözés
» Politika, közpolitika
» Diszkrimináció, előítéletek
» Külföldi romák
» Külpolitika, EU
» Kivándorlás
» Kiértékelés
» 600 cikk humán annotálása, 74%-os
recall, 55% precesion
» Összevetés a szakirodalmi témastruktúrával, kiértékelés
A kuruc.info romaellenes témái
A kuruc.info romaellenes témái
» Témák időbeli változásának vizualizációja
» 27 téma, nehéz áttekinthetőség
» Szűcs Krisztina - tervezőgrafikus, data visualization designer,
krisztinaszucs.com
» Interaktív adatvizualizáció
» Elérhető: labs.precognox.com/kurucinfo_adatviz/
A kuruc.info romaellenes témái
» Eredeti idősorok 1-9. téma:
A kuruc.info romaellenes témái
A kuruc.info romaellenes témái
A kuruc.info romaellenes témái
Gyakorlati példák R-ben
» Korpusz és kódok a coospace-en …
Bővebben: kereses.blog.hu
labs.precognox.com/kurucinfo_adatviz/
Kontakt: kbalogh@precognox.com

More Related Content

More from Zoltan Varju

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetZoltan Varju
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakZoltan Varju
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetZoltan Varju
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Zoltan Varju
 
Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank Zoltan Varju
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójábanZoltan Varju
 

More from Zoltan Varju (20)

Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
 
Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben Vincze Veronika: Korpuszok az információkinyerésben
Vincze Veronika: Korpuszok az információkinyerésben
 
Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank Vincze Veronika: A Szeged Korpusz és Treebank
Vincze Veronika: A Szeged Korpusz és Treebank
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójában
 

Balogh Kitti: Szövegbányászat

  • 2. Óra menete » Szövegbányászat » Szövegbányászat vs. tartalom-, diskurzuselemzés » Alkalmazási területek » Példa társadalomtudományi alkalmazásra » Szövegbányászat R-ben » Angol nyelvű Oz könyvek szerzőségének elemzése » Orbán Viktor évértékelő beszédeinek elemzése
  • 3. Szövegbányászat » Szöveges elektronikus adatok feldolgozása és elemzése » Adatok közötti eligazodás, keresés, rejtett összefüggések feltárása, kinyerése » Egyre növekvő elektronikus adatmennyiség kb. 85% strukturálatlan adat (pl. emailek, hírek, weboldalak, közösségi média tartalmak, videók)
  • 4. Hagyományos szövegelemzés » Tartalomelemzés » Szavak, nyelvi kategóriák gyakorisága, együttes megjelenése » Kvantitatív elemzés » Diskurzuselemzés » Több megközelítés, pl. narratívaelemzés (Propp), konverzációelemzés (Goffman, Garfinkel), kritikai diskurzuselemzés (van Dijk, Wodak, Fairclough) » A szöveg formai, tartalmi elemzésével társadalmi, kulturális, politikai összefüggések feltárása » Hagyományosan kvalitatív
  • 5. Szövegbányászat és hagyományos szövegelemzés » Szövegbányászat vs. hagyományos szövegelemzés » Nagy mennyiségű szöveg vs. kis mennyiségű szöveg » Automatikus vs. sok emberi erőforrást, időt igénylő » Szubjektivitás csökkentése vs. szubjektivitás veszélye » Reprodukálhatóság javítása vs. Reprodukálhatóság nehézsége/lehetetlensége
  • 6. Alkalmazási területek » Szövegek osztályozása » k-nearest neighbour, naive Bayes, decision trees, support vectors machine stb. » Pl. spam szűrés, üzleti dokumentumok automatikus címkézése » Szövegek klaszterezése » K-means, hierarchikus klaszterezés, topik modellezés stb. » Pl. cikkek csoportosítása » Információkinyerés » Pl. névelem-felismerés » Szövegek kivonatolása, kulcsszavazás » Tartalomkeresés webes dokumentumokban » Anomália detekció
  • 7. Társadalomtudományi példa » A látens Dirichlet allokáció társadalomtudományi alkalmazása » Survey Statisztika MSc szakdolgozatom (2015) » Kvantitatív diskurzuselemzés kvalitatív elemekkel » Romaellenes beszéd, romareprezentációs vizsgálat » Korpusz: kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata » 10.304 db cikk » 2006-2015. február
  • 8. A kuruc.info romaellenes témái » Módszertan » „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása » Cikkek szövegének legyűjtése » Adatfeldolgozás, - tisztítás » Cikkekhez tartozó időbélyeg kinyerése » Cikkek témáinak kinyerése » Látens Dirichlet allokáció (LDA) » Input: dokumentumok szavai, témák száma » Output: dokumentumok témaeloszlása, témák szóeloszlása » Kapott témák összevetése a szakirodalommal és kiértékelés » Témák időbeli változásának vizualizációja (később)
  • 9. A kuruc.info romaellenes témái » Elemzéshez használt eszközök » MALLET – LDA » Python – adatgyűjtés, adatfeldolgozás » magyarlánc – nyelvi elemzés » R – témák számának kiválasztása, témák időbeli változása
  • 10. A látens Dirichlet allokáció » D. Blei, A. Y. Ng, and M. I. Jordan: Latent Dirichlet Allocation, 2003 » Nagy mennyiségű szöveges adat látens tematikus struktúrájának kinyerése » Topik modellek legegyszerűbb, leggyakrabban használt tagja » Hierarchikus bayes-i modell
  • 11. A látens Dirichlet allokáció
  • 12. Forrás: Blei (2009) P(𝑊, 𝑍, θ, ϕ|α, β) = 𝑘=1 𝐾 𝑃 𝜙 𝑘 𝛽 𝑑=1 𝐷 𝑃 𝜃 𝑑 𝛼 𝑛=1 𝑁 𝑃 𝑧 𝑑,𝑛 𝜃 𝑑 𝑃 (𝑤 𝑑,𝑛|𝑧 𝑑,𝑛, 𝜙 𝑘) 1) Minden egyes k topikhoz választunk egy 𝜙 𝑘 polinomiális eloszlást a szavak felett Dir(𝛽)szerint, ahol Dir(𝛽) V-dim 2) Minden d dokumentumhoz véletlenül választunk egy 𝜃 𝑑 polinomiális eloszlást a topikok felett Dir(α) szerint, ahol Dir(α) K-dim 3) Minden d dokumentum minden egyes w szavának esetében választunk egy 𝑧 𝑑,𝑛=k topikot 𝜃 𝑑 eloszlásból 4) Választunk egy 𝑤 𝑑,𝑛 szót 𝜙 𝑘 eloszlásból
  • 13. A látens Dirichlet allokáció » Közelítő algoritmusok pl. Gibbs mintavételezés
  • 14. A kuruc.info romaellenes témái » Cikkek legyűjtése » URL-ek legenerálása » HTML-ek megtisztított szövegének kinyerése » Cikkek feldolgozása, tisztítása » Karakterkódolás » Magyarlánc (sztemmelés, POS tagek) » Szófaji szűrés » Stopszavazás
  • 15. A kuruc.info romaellenes témái » LDA illesztése » Topikok optimális számának kiválasztása - 27 » Messing – Bernáth (1998, 2002, 2011) » Harmonikus átlag módszere » MALLET » Konvergencia és illeszkedés ellenőrzés
  • 16. » Minden téma megtalálható, kivéve: » Jogvédelem, kisebbségi jogok » Gazdaság, vállalkozás » Természeti katasztrófák » Differenciáltabb témafelosztás: » Bűnözés » Politika, közpolitika » Diszkrimináció, előítéletek » Külföldi romák » Külpolitika, EU » Kivándorlás » Kiértékelés » 600 cikk humán annotálása, 74%-os recall, 55% precesion » Összevetés a szakirodalmi témastruktúrával, kiértékelés A kuruc.info romaellenes témái
  • 17. A kuruc.info romaellenes témái » Témák időbeli változásának vizualizációja » 27 téma, nehéz áttekinthetőség » Szűcs Krisztina - tervezőgrafikus, data visualization designer, krisztinaszucs.com » Interaktív adatvizualizáció » Elérhető: labs.precognox.com/kurucinfo_adatviz/
  • 18. A kuruc.info romaellenes témái » Eredeti idősorok 1-9. téma:
  • 22. Gyakorlati példák R-ben » Korpusz és kódok a coospace-en …