New Media Inspiration 2013                    Martin Petrášek, eMerite.cz             Softwarová analýza dat       z monit...
Případová studie: Srovnání výsledkůSoftwarová analýza datnástrojem pro Social Media MonitoringversusObsahová analýza týchž...
Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnika...
Výsledek?                                                             Pouze 9 % z příspěvků        celkem nalezeno příspěv...
Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit  celkem softwarem nalez...
Které výskyty keywords byly irelevantní? klíčové slovo: ČP  celkem softwarem nalezeno: 1 724  z toho po pročtení relevant...
Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly  „asi nema rada generaly“ (Karolína Peak) klíč...
Software nechápe souvislosti, kontext.                                             příspěvek negativní vůči České pojišťov...
Software nepozná sentiment.                            příspěvek negativní vůči (nejmenované) Kooperativě  příspěvek pozit...
Podíly na diskusích dle softwaru:                                Skutečnost po očištění dat:           1. ČSOB poj.       ...
A co teprve rozdíly v parametrech:                        nejdiskutovanější témata v souvislosti s pojišťovnami          ...
Upcoming SlideShare
Loading in …5
×

NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

396 views
360 views

Published on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
396
On SlideShare
0
From Embeds
0
Number of Embeds
13
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

NMI13 Martin Petrášek - Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel

  1. 1. New Media Inspiration 2013 Martin Petrášek, eMerite.cz Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
  2. 2. Případová studie: Srovnání výsledkůSoftwarová analýza datnástrojem pro Social Media MonitoringversusObsahová analýza týchž datnástrojem Homo Sapiens po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11
  3. 3. Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna) pojišťovna, pojištění, pojistka, pojistit se, apod. povinné ručení (POV), životko, cestovko, atp.Prohledány byly: příspěvky na Facebooku, Twitteru, Google Plus apod. komentáře pod články samostatná diskusní fóra blogy, a diskuse na dalších typech webových stránekZdroj dat:kombinace softwarů, určených k monitoringu sociálních médií_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11
  4. 4. Výsledek? Pouze 9 % z příspěvků celkem nalezeno příspěvků vyhledaných softwarem 22 981 obsahovalo nějaký názor či smysluplné konstatování nerelevantní, bezcenné hodné analýzy. 91 % (20 901) 91 % tvořily irelevantní relevantní výskyty klíčových slov a 9 % (2 080) bezobsažné plky.Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %), „Souhlasím“, „Nesouhlasím“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11
  5. 5. Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %)Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to proplácí“ apod._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11
  6. 6. Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %)Proč irelevantní? ½ ve smyslu „číslo popisné“ ½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat)_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11
  7. 7. Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly „asi nema rada generaly“ (Karolína Peak) klíčové slovo: ČPP „miluju ČPP Ostrava“ (florbalový klub) klíčové slovo: Uniqa/Unika/Uniqua „mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně)Plus stovky a tisíce tweetů a facebookových upoutávek na článkyzpravodajských serverů, s burzovními informacemi, atp.Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít.Diskutéři nepíšou celými větami, správné tvary slov._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11
  8. 8. Software nechápe souvislosti, kontext. příspěvek negativní vůči České pojišťovně příspěvek není negativní vůči České podnikatelské pojišťovně_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11
  9. 9. Software nepozná sentiment. příspěvek negativní vůči (nejmenované) Kooperativě příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovněObjem diskusí o firmě/značce není roven počtu výskytů jejího jména.Kontextové příspěvky bez klíčových slov totiž tvoří až ¼._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11
  10. 10. Podíly na diskusích dle softwaru: Skutečnost po očištění dat: 1. ČSOB poj. 36,3 % 1. Česká poj. 27,8 % 2. Uniqa 19,0 % 2. Allianz 17,1 % 3. Allianz 16,7 % 3. Generali 11,2 % 4. Generali 13,6 % 4. Kooperativa 10,4 % 5. Česká poj. 8,5 % 5. ČS 8,3 % 6. Kooperativa 2,1 % 6. ČPP 5,6 % 7. ostatní 2,1 % 7. Uniqa 5,6 % 8. ČPP 1,4 % 8. ČSOB poj. 3,5 % 9. ČS 0,6 % 9. AXA 2,7 % AXA nenalezena ostatní 7,7 %_____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 10. z 11
  11. 11. A co teprve rozdíly v parametrech:  nejdiskutovanější témata v souvislosti s pojišťovnami  sentiment u jednotlivých témat  nejčastější servery s diskusemi  nejaktivnější autoři příspěvků …v nepročtených datech jen samá hausnumera.Závěry?Softwarová analýza obsahu diskusí poskytujevětšinou zkreslená, resp. zcela chybná data.Účelem softwaru je monitoring, tzn. sběr dat.Smysluplně zanalyzovat obsah a emočnívyznění textu může jedině člověk._____________________________________________________________________________________________________New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11

×