NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

  • 237 views
Uploaded on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
237
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. New Media Inspiration 2013 Martin Petrášek, eMerite.cz Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
  • 2. Případová studie: Srovnání výsledkůSoftwarová analýza datnástrojem pro Social Media MonitoringversusObsahová analýza týchž datnástrojem Homo Sapiens po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11
  • 3. Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna) pojišťovna, pojištění, pojistka, pojistit se, apod. povinné ručení (POV), životko, cestovko, atp.Prohledány byly: příspěvky na Facebooku, Twitteru, Google Plus apod. komentáře pod články samostatná diskusní fóra blogy, a diskuse na dalších typech webových stránekZdroj dat:kombinace softwarů, určených k monitoringu sociálních médií_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11
  • 4. Výsledek? Pouze 9 % z příspěvků celkem nalezeno příspěvků vyhledaných softwarem 22 981 obsahovalo nějaký názor či smysluplné konstatování nerelevantní, bezcenné hodné analýzy. 91 % (20 901) 91 % tvořily irelevantní relevantní výskyty klíčových slov a 9 % (2 080) bezobsažné plky.Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %), „Souhlasím“, „Nesouhlasím“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11
  • 5. Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %)Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to proplácí“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11
  • 6. Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %)Proč irelevantní? ½ ve smyslu „číslo popisné“ ½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat)_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11
  • 7. Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly „asi nema rada generaly“ (Karolína Peak) klíčové slovo: ČPP „miluju ČPP Ostrava“ (florbalový klub) klíčové slovo: Uniqa/Unika/Uniqua „mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně)Plus stovky a tisíce tweetů a facebookových upoutávek na článkyzpravodajských serverů, s burzovními informacemi, atp.Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít.Diskutéři nepíšou celými větami, správné tvary slov._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11
  • 8. Software nechápe souvislosti, kontext. příspěvek negativní vůči České pojišťovně příspěvek není negativní vůči České podnikatelské pojišťovně_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11
  • 9. Software nepozná sentiment. příspěvek negativní vůči (nejmenované) Kooperativě příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovněObjem diskusí o firmě/značce není roven počtu výskytů jejího jména.Kontextové příspěvky bez klíčových slov totiž tvoří až ¼._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11
  • 10. Podíly na diskusích dle softwaru: Skutečnost po očištění dat: 1. ČSOB poj. 36,3 % 1. Česká poj. 27,8 % 2. Uniqa 19,0 % 2. Allianz 17,1 % 3. Allianz 16,7 % 3. Generali 11,2 % 4. Generali 13,6 % 4. Kooperativa 10,4 % 5. Česká poj. 8,5 % 5. ČS 8,3 % 6. Kooperativa 2,1 % 6. ČPP 5,6 % 7. ostatní 2,1 % 7. Uniqa 5,6 % 8. ČPP 1,4 % 8. ČSOB poj. 3,5 % 9. ČS 0,6 % 9. AXA 2,7 % AXA nenalezena ostatní 7,7 %_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 10. z 11
  • 11. A co teprve rozdíly v parametrech:  nejdiskutovanější témata v souvislosti s pojišťovnami  sentiment u jednotlivých témat  nejčastější servery s diskusemi  nejaktivnější autoři příspěvků …v nepročtených datech jen samá hausnumera.Závěry?Softwarová analýza obsahu diskusí poskytujevětšinou zkreslená, resp. zcela chybná data.Účelem softwaru je monitoring, tzn. sběr dat.Smysluplně zanalyzovat obsah a emočnívyznění textu může jedině člověk._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11