Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
1. New Media Inspiration 2013 Martin Petrášek, eMerite.cz
Softwarová analýza dat
z monitoringu internetových diskusí:
Cesta do pekel
2. Případová studie: Srovnání výsledků
Softwarová analýza dat
nástrojem pro Social Media Monitoring
versus
Obsahová analýza týchž dat
nástrojem Homo Sapiens
po očištění od irelevantních výskytů klíčových slov
s doplněnými kontextovými příspěvky bez klíčových slov
s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní)
po započtení lajků, sdílení či retweetů jednotlivých příspěvků
po zohlednění vlivu Opinion Makers
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11
3. Klíčová slova k vyhledávání:
jména šesti největších českých pojišťoven
zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna)
pojišťovna, pojištění, pojistka, pojistit se, apod.
povinné ručení (POV), životko, cestovko, atp.
Prohledány byly:
příspěvky na Facebooku, Twitteru, Google Plus apod.
komentáře pod články
samostatná diskusní fóra
blogy, a diskuse na dalších typech webových stránek
Zdroj dat:
kombinace softwarů, určených k monitoringu sociálních médií
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11
4. Výsledek?
Pouze 9 % z příspěvků
celkem nalezeno příspěvků
vyhledaných softwarem
22 981
obsahovalo nějaký názor či
smysluplné konstatování
nerelevantní, bezcenné hodné analýzy.
91 % (20 901)
91 % tvořily irelevantní
relevantní výskyty klíčových slov a
9 % (2 080) bezobsažné plky.
Počet relevantních zahrnuje navíc oproti softwarově nalezeným:
98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %)
165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %),
„Souhlasím“, „Nesouhlasím“ apod.
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11
5. Které výskyty keywords byly irelevantní?
klíčová slova: pojištění, pojistka, pojišťovna, pojistit
celkem softwarem nalezeno: 16 300(!)
z toho po pročtení relevantních: 775 (4,8 %)
Proč irelevantní?
¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně
zmíněno (jistěže daná sousloví byla už v softwaru filtrována)
¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to
proplácí“ apod.
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11
6. Které výskyty keywords byly irelevantní?
klíčové slovo: ČP
celkem softwarem nalezeno: 1 724
z toho po pročtení relevantních: 185 (11 %)
Proč irelevantní?
½ ve smyslu „číslo popisné“
½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj.
negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním
dopise složenku, což bylo jedno z nejdiskutovanějších témat)
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11
7. Které výskyty keywords byly irelevantní?
klíčové slovo: generali/generaly
„asi nema rada generaly“ (Karolína Peak)
klíčové slovo: ČPP
„miluju ČPP Ostrava“ (florbalový klub)
klíčové slovo: Uniqa/Unika/Uniqua
„mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně)
Plus stovky a tisíce tweetů a facebookových upoutávek na články
zpravodajských serverů, s burzovními informacemi, atp.
Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít.
Diskutéři nepíšou celými větami, správné tvary slov.
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11
8. Software nechápe souvislosti, kontext.
příspěvek negativní vůči České pojišťovně
příspěvek není negativní vůči České podnikatelské pojišťovně
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11
9. Software nepozná sentiment.
příspěvek negativní vůči (nejmenované) Kooperativě
příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovně
Objem diskusí o firmě/značce není roven počtu výskytů jejího jména.
Kontextové příspěvky bez klíčových slov totiž tvoří až ¼.
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11
10. Podíly na diskusích dle softwaru: Skutečnost po očištění dat:
1. ČSOB poj. 36,3 % 1. Česká poj. 27,8 %
2. Uniqa 19,0 % 2. Allianz 17,1 %
3. Allianz 16,7 % 3. Generali 11,2 %
4. Generali 13,6 % 4. Kooperativa 10,4 %
5. Česká poj. 8,5 % 5. ČS 8,3 %
6. Kooperativa 2,1 % 6. ČPP 5,6 %
7. ostatní 2,1 % 7. Uniqa 5,6 %
8. ČPP 1,4 % 8. ČSOB poj. 3,5 %
9. ČS 0,6 % 9. AXA 2,7 %
AXA nenalezena ostatní 7,7 %
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 10. z 11
11. A co teprve rozdíly v parametrech:
nejdiskutovanější témata v souvislosti s pojišťovnami
sentiment u jednotlivých témat
nejčastější servery s diskusemi
nejaktivnější autoři příspěvků
…v nepročtených datech jen samá hausnumera.
Závěry?
Softwarová analýza obsahu diskusí poskytuje
většinou zkreslená, resp. zcela chybná data.
Účelem softwaru je monitoring, tzn. sběr dat.
Smysluplně zanalyzovat obsah a emoční
vyznění textu může jedině člověk.
_____________________________________________________________________________________________________
New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11