2. Óra menete
» Szövegbányászat
» Szövegbányászat vs. tartalom-, diskurzuselemzés
» Alkalmazási területek
» Példa társadalomtudományi alkalmazásra
» Szövegbányászat R-ben
» Angol nyelvű Oz könyvek szerzőségének elemzése
» Orbán Viktor évértékelő beszédeinek elemzése
3. Szövegbányászat
» Szöveges elektronikus adatok feldolgozása és
elemzése
» Adatok közötti eligazodás, keresés, rejtett
összefüggések feltárása, kinyerése
» Egyre növekvő elektronikus adatmennyiség
kb. 85% strukturálatlan adat (pl. emailek, hírek,
weboldalak, közösségi média tartalmak, videók)
4. Hagyományos szövegelemzés
» Tartalomelemzés
» Szavak, nyelvi kategóriák gyakorisága, együttes
megjelenése
» Kvantitatív elemzés
» Diskurzuselemzés
» Több megközelítés, pl. narratívaelemzés (Propp),
konverzációelemzés (Goffman, Garfinkel), kritikai
diskurzuselemzés (van Dijk, Wodak, Fairclough)
» A szöveg formai, tartalmi elemzésével társadalmi,
kulturális, politikai összefüggések feltárása
» Hagyományosan kvalitatív
5. Szövegbányászat és hagyományos
szövegelemzés
» Szövegbányászat vs. hagyományos szövegelemzés
» Nagy mennyiségű szöveg vs. kis mennyiségű szöveg
» Automatikus vs. sok emberi erőforrást, időt igénylő
» Szubjektivitás csökkentése vs. szubjektivitás veszélye
» Reprodukálhatóság javítása vs. Reprodukálhatóság
nehézsége/lehetetlensége
6. Alkalmazási területek
» Szövegek osztályozása
» k-nearest neighbour, naive Bayes, decision trees, support vectors
machine stb.
» Pl. spam szűrés, üzleti dokumentumok automatikus címkézése
» Szövegek klaszterezése
» K-means, hierarchikus klaszterezés, topik modellezés stb.
» Pl. cikkek csoportosítása
» Információkinyerés
» Pl. névelem-felismerés
» Szövegek kivonatolása, kulcsszavazás
» Tartalomkeresés webes dokumentumokban
» Anomália detekció
7. Társadalomtudományi példa
» A látens Dirichlet allokáció társadalomtudományi
alkalmazása
» Survey Statisztika MSc szakdolgozatom (2015)
» Kvantitatív diskurzuselemzés kvalitatív elemekkel
» Romaellenes beszéd, romareprezentációs vizsgálat
» Korpusz: kuruc.info szélsőjobboldali hírportál
Cigánybűnözés rovata
» 10.304 db cikk
» 2006-2015. február
9. A kuruc.info romaellenes témái
» Elemzéshez használt eszközök
» MALLET – LDA
» Python – adatgyűjtés, adatfeldolgozás
» magyarlánc – nyelvi elemzés
» R – témák számának kiválasztása, témák időbeli
változása
10. A látens Dirichlet allokáció
» D. Blei, A. Y. Ng, and M. I. Jordan: Latent
Dirichlet Allocation, 2003
» Nagy mennyiségű szöveges adat látens tematikus
struktúrájának kinyerése
» Topik modellek legegyszerűbb, leggyakrabban
használt tagja
» Hierarchikus bayes-i modell
12. Forrás: Blei (2009)
P(𝑊, 𝑍, θ, ϕ|α, β) =
𝑘=1
𝐾
𝑃 𝜙 𝑘 𝛽
𝑑=1
𝐷
𝑃 𝜃 𝑑 𝛼
𝑛=1
𝑁
𝑃 𝑧 𝑑,𝑛 𝜃 𝑑 𝑃 (𝑤 𝑑,𝑛|𝑧 𝑑,𝑛, 𝜙 𝑘)
1) Minden egyes k
topikhoz választunk egy
𝜙 𝑘 polinomiális eloszlást a
szavak felett Dir(𝛽)szerint,
ahol Dir(𝛽) V-dim
2) Minden d
dokumentumhoz
véletlenül választunk egy
𝜃 𝑑 polinomiális eloszlást
a topikok felett Dir(α)
szerint, ahol Dir(α) K-dim
3) Minden d
dokumentum minden
egyes w szavának
esetében választunk egy
𝑧 𝑑,𝑛=k topikot 𝜃 𝑑
eloszlásból
4) Választunk egy 𝑤 𝑑,𝑛
szót 𝜙 𝑘 eloszlásból
13. A látens Dirichlet allokáció
» Közelítő algoritmusok pl. Gibbs mintavételezés