Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
New Media Inspiration 2013                    Martin Petrášek, eMerite.cz             Softwarová analýza dat       z monit...
Případová studie: Srovnání výsledkůSoftwarová analýza datnástrojem pro Social Media MonitoringversusObsahová analýza týchž...
Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnika...
Výsledek?                                                             Pouze 9 % z příspěvků        celkem nalezeno příspěv...
Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit  celkem softwarem nalez...
Které výskyty keywords byly irelevantní? klíčové slovo: ČP  celkem softwarem nalezeno: 1 724  z toho po pročtení relevant...
Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly  „asi nema rada generaly“ (Karolína Peak) klíč...
Software nechápe souvislosti, kontext.                                             příspěvek negativní vůči České pojišťov...
Software nepozná sentiment.                            příspěvek negativní vůči (nejmenované) Kooperativě  příspěvek pozit...
Podíly na diskusích dle softwaru:                                Skutečnost po očištění dat:           1. ČSOB poj.       ...
A co teprve rozdíly v parametrech:                        nejdiskutovanější témata v souvislosti s pojišťovnami          ...
Upcoming SlideShare
Loading in …5
×

NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

734 views

Published on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Published in: Technology
  • Be the first to comment

NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

  1. 1. New Media Inspiration 2013 Martin Petrášek, eMerite.cz Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
  2. 2. Případová studie: Srovnání výsledkůSoftwarová analýza datnástrojem pro Social Media MonitoringversusObsahová analýza týchž datnástrojem Homo Sapiens po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11
  3. 3. Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna) pojišťovna, pojištění, pojistka, pojistit se, apod. povinné ručení (POV), životko, cestovko, atp.Prohledány byly: příspěvky na Facebooku, Twitteru, Google Plus apod. komentáře pod články samostatná diskusní fóra blogy, a diskuse na dalších typech webových stránekZdroj dat:kombinace softwarů, určených k monitoringu sociálních médií_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11
  4. 4. Výsledek? Pouze 9 % z příspěvků celkem nalezeno příspěvků vyhledaných softwarem 22 981 obsahovalo nějaký názor či smysluplné konstatování nerelevantní, bezcenné hodné analýzy. 91 % (20 901) 91 % tvořily irelevantní relevantní výskyty klíčových slov a 9 % (2 080) bezobsažné plky.Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %), „Souhlasím“, „Nesouhlasím“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11
  5. 5. Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %)Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to proplácí“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11
  6. 6. Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %)Proč irelevantní? ½ ve smyslu „číslo popisné“ ½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat)_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11
  7. 7. Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly „asi nema rada generaly“ (Karolína Peak) klíčové slovo: ČPP „miluju ČPP Ostrava“ (florbalový klub) klíčové slovo: Uniqa/Unika/Uniqua „mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně)Plus stovky a tisíce tweetů a facebookových upoutávek na článkyzpravodajských serverů, s burzovními informacemi, atp.Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít.Diskutéři nepíšou celými větami, správné tvary slov._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11
  8. 8. Software nechápe souvislosti, kontext. příspěvek negativní vůči České pojišťovně příspěvek není negativní vůči České podnikatelské pojišťovně_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11
  9. 9. Software nepozná sentiment. příspěvek negativní vůči (nejmenované) Kooperativě příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovněObjem diskusí o firmě/značce není roven počtu výskytů jejího jména.Kontextové příspěvky bez klíčových slov totiž tvoří až ¼._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11
  10. 10. Podíly na diskusích dle softwaru: Skutečnost po očištění dat: 1. ČSOB poj. 36,3 % 1. Česká poj. 27,8 % 2. Uniqa 19,0 % 2. Allianz 17,1 % 3. Allianz 16,7 % 3. Generali 11,2 % 4. Generali 13,6 % 4. Kooperativa 10,4 % 5. Česká poj. 8,5 % 5. ČS 8,3 % 6. Kooperativa 2,1 % 6. ČPP 5,6 % 7. ostatní 2,1 % 7. Uniqa 5,6 % 8. ČPP 1,4 % 8. ČSOB poj. 3,5 % 9. ČS 0,6 % 9. AXA 2,7 % AXA nenalezena ostatní 7,7 %_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 10. z 11
  11. 11. A co teprve rozdíly v parametrech:  nejdiskutovanější témata v souvislosti s pojišťovnami  sentiment u jednotlivých témat  nejčastější servery s diskusemi  nejaktivnější autoři příspěvků …v nepročtených datech jen samá hausnumera.Závěry?Softwarová analýza obsahu diskusí poskytujevětšinou zkreslená, resp. zcela chybná data.Účelem softwaru je monitoring, tzn. sběr dat.Smysluplně zanalyzovat obsah a emočnívyznění textu může jedině člověk._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11

×