Balogh Kitti: Szövegbányászat

Szövegbányászat
2015.12.04., Adatelemzés
Balogh Kitti – adatelemző, Precognox

Óra menete
» Szövegbányászat
» Szövegbányászat vs. tartalom-, diskurzuselemzés
» Alkalmazási területek
» Példa társadalomtudományi alkalmazásra
» Szövegbányászat R-ben
» Angol nyelvű Oz könyvek szerzőségének elemzése
» Orbán Viktor évértékelő beszédeinek elemzése

Szövegbányászat
» Szöveges elektronikus adatok feldolgozása és
elemzése
» Adatok közötti eligazodás, keresés, rejtett
összefüggések feltárása, kinyerése
» Egyre növekvő elektronikus adatmennyiség
kb. 85% strukturálatlan adat (pl. emailek, hírek,
weboldalak, közösségi média tartalmak, videók)

Hagyományos szövegelemzés
» Tartalomelemzés
» Szavak, nyelvi kategóriák gyakorisága, együttes
megjelenése
» Kvantitatív elemzés
» Diskurzuselemzés
» Több megközelítés, pl. narratívaelemzés (Propp),
konverzációelemzés (Goffman, Garfinkel), kritikai
diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi,
kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív

Szövegbányászat és hagyományos
szövegelemzés
» Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság
nehézsége/lehetetlensége

Alkalmazási területek
» Szövegek osztályozása
» k-nearest neighbour, naive Bayes, decision trees, support vectors
machine stb.
» Pl. spam szűrés, üzleti dokumentumok automatikus címkézése
» Szövegek klaszterezése
» K-means, hierarchikus klaszterezés, topik modellezés stb.
» Pl. cikkek csoportosítása
» Információkinyerés
» Pl. névelem-felismerés
» Szövegek kivonatolása, kulcsszavazás
» Tartalomkeresés webes dokumentumokban
» Anomália detekció

Társadalomtudományi példa
» A látens Dirichlet allokáció társadalomtudományi
alkalmazása
» Survey Statisztika MSc szakdolgozatom (2015)
» Kvantitatív diskurzuselemzés kvalitatív elemekkel
» Romaellenes beszéd, romareprezentációs vizsgálat
» Korpusz: kuruc.info szélsőjobboldali hírportál
Cigánybűnözés rovata
» 10.304 db cikk
» 2006-2015. február

A kuruc.info romaellenes témái
» Módszertan
» „Cigánybűnözés” rovat cikkeinek begyűjtése, feldolgozása
» Cikkek szövegének legyűjtése
» Adatfeldolgozás, - tisztítás
» Cikkekhez tartozó időbélyeg kinyerése
» Cikkek témáinak kinyerése
» Látens Dirichlet allokáció (LDA)
» Input: dokumentumok szavai, témák száma
» Output: dokumentumok témaeloszlása, témák szóeloszlása
» Kapott témák összevetése a szakirodalommal és kiértékelés
» Témák időbeli változásának vizualizációja (később)

» Elemzéshez használt eszközök
» MALLET – LDA
» Python – adatgyűjtés, adatfeldolgozás
» magyarlánc – nyelvi elemzés
» R – témák számának kiválasztása, témák időbeli
változása

A látens Dirichlet allokáció
» D. Blei, A. Y. Ng, and M. I. Jordan: Latent
Dirichlet Allocation, 2003
» Nagy mennyiségű szöveges adat látens tematikus
struktúrájának kinyerése
» Topik modellek legegyszerűbb, leggyakrabban
használt tagja
» Hierarchikus bayes-i modell

Forrás: Blei (2009)
P(𝑊, 𝑍, θ, ϕ|α, β) =
𝑘=1
𝐾
𝑃 𝜙 𝑘 𝛽
𝑑=1
𝐷
𝑃 𝜃 𝑑 𝛼
𝑛=1
𝑁
𝑃 𝑧 𝑑,𝑛 𝜃 𝑑 𝑃 (𝑤 𝑑,𝑛|𝑧 𝑑,𝑛, 𝜙 𝑘)
1) Minden egyes k
topikhoz választunk egy
𝜙 𝑘 polinomiális eloszlást a
szavak felett Dir(𝛽)szerint,
ahol Dir(𝛽) V-dim
2) Minden d
dokumentumhoz
véletlenül választunk egy
𝜃 𝑑 polinomiális eloszlást
a topikok felett Dir(α)
szerint, ahol Dir(α) K-dim
3) Minden d
dokumentum minden
egyes w szavának
esetében választunk egy
𝑧 𝑑,𝑛=k topikot 𝜃 𝑑
eloszlásból
4) Választunk egy 𝑤 𝑑,𝑛
szót 𝜙 𝑘 eloszlásból

» Közelítő algoritmusok pl. Gibbs mintavételezés

» Cikkek legyűjtése
» URL-ek legenerálása
» HTML-ek megtisztított szövegének kinyerése
» Cikkek feldolgozása, tisztítása
» Karakterkódolás
» Magyarlánc (sztemmelés, POS tagek)
» Szófaji szűrés
» Stopszavazás

» LDA illesztése
» Topikok optimális számának
kiválasztása - 27
» Messing – Bernáth (1998, 2002,
2011)
» Harmonikus átlag módszere
» MALLET
» Konvergencia és
illeszkedés ellenőrzés

» Minden téma megtalálható, kivéve:
» Jogvédelem, kisebbségi jogok
» Gazdaság, vállalkozás
» Természeti katasztrófák
» Differenciáltabb témafelosztás:
» Bűnözés
» Politika, közpolitika
» Diszkrimináció, előítéletek
» Külföldi romák
» Külpolitika, EU
» Kivándorlás
» Kiértékelés
» 600 cikk humán annotálása, 74%-os
recall, 55% precesion
» Összevetés a szakirodalmi témastruktúrával, kiértékelés

» Témák időbeli változásának vizualizációja
» 27 téma, nehéz áttekinthetőség
» Szűcs Krisztina - tervezőgrafikus, data visualization designer,
krisztinaszucs.com
» Interaktív adatvizualizáció
» Elérhető: labs.precognox.com/kurucinfo_adatviz/

» Eredeti idősorok 1-9. téma:

Gyakorlati példák R-ben
» Korpusz és kódok a coospace-en …

Bővebben: kereses.blog.hu
labs.precognox.com/kurucinfo_adatviz/
Kontakt: kbalogh@precognox.com

Balogh Kitti: Szövegbányászat

Recommended

Recommended

More Related Content

More from Zoltan Varju

More from Zoltan Varju (20)

Balogh Kitti: Szövegbányászat