1. P I A N O . I O
Text mining online médií
BiankaParmová
2. 2Čo je topic modeling?
• Odhaľovanie skrytých tém vo
veľkom množstve textu
• Najpoužívanejšia metóda –
LDA (Latent Dirichlet
Allocation)
• Pravdepodobnostný model
• Založený na princípe „bag of
words”
• Jeden dokument môže
obsahovať viacero tém
3. 3Topic modeling článkov sme.sk
• Vstupné dáta – 4043 článkov, 7048 kľúčových slov
• Určenie tém na základe kľúčových slov
• Cieľom je vyjadriť charakter článkov pomocou tém
ARTICLE_URL KEYWORDS
http://sport.sme.sk/c/7936725/barcelona-opat-neuspela-
nestacila-na-dalsi-anglicky-tim.html
Futbal, Chelsea, výhra, Barcelona, sumár
http://www.sme.sk/c/7912421/new-york-zaplati-rodine-
usmrteneho-afroamericana-59-miliona-dolarov.html?ref=trz
USA, New York, černoch, policajt,
uškrtenie, dohoda
http://www.sme.sk/c/7920071/meteorologovia-varuju-
pred-privalovymi-povodnami.html?ref=trz
SR, SHMÚ, výstrahy, búrky, povodne,
prívalové
4. 4Topic modeling článkov sme.sk
• Čistenie dát – odstránenie vysoko a nízko frekventovaných
kľúčových slov
• Vstup do modelu LDA
• Zoznam všetkých kľúčových slov
• Matice s poradiami výskytu kľúčových slov v rámci všetkých článkov
• Počet hľadaných tém
• Parametre Dirichletovho rozdelenia – apriórne pravdepodobnosti α
(články vs. témy) a η (slová vs. témy)
Kľúčové
slovo Počet
sr 1416
eko 466
futbal 387
usa 282
grécko 270
hokej 185
... ...
zviera 1
zvislé 1
zvolenská 1
zvrat 1
zvršok 1
zvukový 1
5. 5Topic modeling článkov sme.sk
grécko 0.1437
eko 0.1158
eú 0.0591
nemecko 0.0256
eurozóna 0.0233
referendum 0.0193
financie 0.0187
ekonomika 0.0176
banky 0.0176
reformy 0.0148
Slovo Váha
futbal 0.2585
el 0.0249
prestup 0.0235
usa 0.0207
anglicko 0.0207
hlas 0.0185
španielsko 0.0171
poľsko 0.0135
slovan 0.0128
sumár 0.0128
is 0.0591
sýria 0.0515
útok 0.0473
obete 0.0430
turecko 0.0380
usa 0.0211
mŕtvi 0.0203
útoky 0.0194
vojaci 0.0169
tunisko 0.0169
Slovo Váha Slovo Váha