SlideShare a Scribd company logo
Verschillen in Web Analytics


Feiten, fabels en verwachtingen




         maart 2009 – Almerima Jamakovic, Bart Gijsen, Martijn Staal
Doel van het project
Inhoud
                • aanleiding:
                WA verschillen    wat is waar?



                  WA data analyse


                • validatie van gangbare opinies
                m.b.t. WA verschillen
   Inhoud
                • welke afwijkingen zijn acceptabel’?



            WA test in gesloten omgeving


               • toelichting testomgeving
               • geverifieerde oorzaken van afwijkingen
               • geconstateerde oorzaken



                     Conclusie
                                                  2
Doel van het project

• Klant en/of bureau merken grote verschillen in statistiekmetingen
  bij bijvoorbeeld:
                                                             Welke gegevens
   •   Migratie naar ander WA pakket
                                                         zijn waar?
   •   Toepassing STIR naast WA                              Wanneer zijn de data
   •   Afrekenen van bannercampagne (DART)               betrouwbaar?
   •   Verkoop website



• Doelen WA project:
   • Inzichtelijk maken van verschillen en
     manier waarop WA metingen uitvoeren
   • Geef houvast in discussie over verschillen: wat zijn ‘reële
     afwijkingen’



                                                                        3
Overzicht van de deelnemers & betrokken partijen

• Projectteam:




• Deelnemers data benchmark & gesloten test:




                                        + Nederlandse kabelmaatschappij

• Betrokken mediapartijen:




• Indirect betrokken:


                                                                          4
Aanpak: data analyse en test in gesloten omgeving

• Tijdens de WA data analyse worden statistiekendata van
  externe websites vergeleken en geanalyseerd op verschillen
    • Websites met meerdere webstatistiekpakketten leveren data
    • TNO doet analyse en benchmarkt verschillen
    • Doel: inzicht in ‘acceptabel’ niveau van verschillen

• Tijdens de test in gesloten omgeving worden oorzaken van
  verschillen verder onderzocht
    • Gesloten TNO website wordt gebruikt waarbij het verkeer
      d.m.v. Selenium te reguleren is
    • Sessies en variabelen zoals IP-adressen, browser types e.d.
      zijn door TNO in te stellen
    • Doel: oorzaken van verschillen verder uitdiepen



                                                                5
Doel van het project
Inhoud
                • aanleiding:
                WA verschillen    wat is waar?



                  WA data analyse


                • validatie van gangbare opinies
                m.b.t. WA verschillen
   Inhoud
                • welke afwijkingen zijn acceptabel’?



            WA test in gesloten omgeving


               • toelichting testomgeving
               • geverifieerde oorzaken van afwijkingen
               • geconstateerde oorzaken



                     Conclusie
                                                  6
WA Data Analyse


 •Doel: inzicht in welke verschillen acceptabel zijn

 • Analyse webstatistieken data van meerdere websites

 • Vergelijking Google, Sitestat, Webtrends, STIR en DART data
Website         Google Analytics   Sitestat   Webtrends   HBX   Speed Trap   STIR   DART
                       √              √
Kabeloperator
                       √              √           √
TNO.nl
                       √              √                                              √
Univé.nl
                       √              √                                       √      √
Ilsemedia-x
                       √                                            √
Agis
                       √                                   √
Typhone



 • Vergeleken WA metrics zijn: visits, visitors en page views op dag,
 week en maandniveau
                                                                                           7
Vragen & hypotheses voor
WA data analyse
• WA pakketten op dezelfde website genereren afwijkende waarden?

• Afwijkingen tussen WA pakketten zijn website specifiek?

                  Welke procentuele afwijking is reëel?

• Meerwaarde WA output zit in relatieve waarden en trends; niet in absolute
  waarden?

• Wat is de relatie tussen WA, STIR en DART?




                                                                       8
Hoofdvraag: welke procentuele afwijking is reëel?

                 Zijn WA metingen normaal verdeeld?
                           Zijn WA metingen Normaal verdeeld?
                                                                                                         Ja, WA output waarden zijn Normaal verdeeld!
                                       QQ plot tno.nl data
                             2
                                                                                                         Parameters van Normale verdeling hangen af
                           1,5        1,2
                                                                                                           van:
                                                                                                         • website (content, structuur, technologie, …)
                             1        0,8
                                                                                                         • WA metric (visitors vs. page views)
                           0,5
                                      0,4
                                                                          Visitors (AdvancedMD)
                                                                                                         Observatie: er is een vrij duidelijke bovengrens
                                                                                            Visits
                             0
                                                                          Page view s (AdvancedMD)
                                                                                                          op de genormaliseerde maat voor spreiding
                                      0,0
  -1,5      -1      -0,5          0          0,5     1              1,5                     Page views
                           -0,5
-0,70            -0,35                   0,00                0,35                  0,70
                                                                                                          van WA verschillen (=coefficient van variatie)
                                                                                           Visitors
                                      -0,4
                            -1

                                      -0,8
                           -1,5

                            -2        -1,2

                                                                                                                          So what ???

         1. Het feit dat verschillen Normaal verdeeld zijn impliceert dat verschillen veroorzaakt
           worden door een veelheid, van elk op zich niet-dominante oorzaken
         2. Dit geeft de basis voor concrete vuistregels m.b.t. ‘acceptabele afwijkingen’
             • zie volgende slide



                                                                                                                                                9
Dus … welke procentuele afwijking is reëel?
WA checklist voor implementatie en betrouwbaarheid
•   Constaterende dat
    a. verschillen in WA Normaal verdeeld zijn en
    •   voor alle aangeleverde data en die uit literatuur [Shootout] geldt dit
    b. dat de “coëfficiënt van variatie” < 0.1 (= maat voor verschillen WA data)
    •   voor bijna alle aangeleverde data en die uit literatuur [Shootout] geldt dit

•   Dan gelden de volgende vuistregels als ‘acceptabele afwijking’:
        Aantal WA Max-Min afwijking meestal          Max-Min afwijking zelden
        pakketten (1 op 2) niet groter dan …          (1 op 10) groter dan …
             2                   9,5%                         23,2%
                                                                                    Anders is
             3                  15,8%                         29,0%              sprake van een
                                                                                   verkeerde
             4                  19,7%                         32,4%              implementatie!
             5                  22,5%                         34,7%
             6                  24,7%                         36,6%
•   en … het aantal bezoekers, bezoeken, page view heeft hierop geen invloed
                                                                                   10
•   en … deze procentuele afwijkingen schalen lineair in de coefficient van variatie
Praktijk toets: configuratiefouten identificeren
 zelden > 23,2%
                                                        Afwijking pageviews tussen Sitestat en GA

                              25,0%
                              20,0%
                                                                                               meestal < 9,5%
                              15,0%
                              10,0%
                               5,0%
      Procentuele afwijking




                                                                                                (Sitestat - GA)%, PV per dag
                                0,0%
                                  1-8-2008   1-9-2008    2-10-2008   2-11-2008   3-12-2008
                               -5,0%
                                                                                                (Sitestat - GA)%, PV per week
                              -10,0%
                              -15,0%
                                                                                                (Sitestat - GA)%, PV per 4-
                              -20,0%                                                            weken
                                         GA tags waren
                              -25,0%
                                        niet op alle pages
                              -30,0%
                                             geplaatst
                              -35,0%

                                                                                  incident waardoor
                              -40,0%
                              -45,0%
                                                                                   één tag niet runt
Er is een maximum afwijking aan te geven voor ‘acceptabele afwijking’ WA data
Afwijkingen groter dan deze waarden duiden op configuratieverschillen /
technische problemen / … In dat geval is interpretatie-verschil van WA data
                                                                                                                                11
misleidend en dient onderzocht te worden
WA verschillen: conclusies uit de data analyse
 WA pakketten op dezelfde website genereren afwijkende
 waarden
     aantal soms tientallen % uit elkaar
     verschillen niet identiek voor visitors, visits, page views, …
     over meetperiodes heen zijn de onderlinge verschillen vrij constant

 Afwijkingen tussen WA pakketten zijn website specifiek

• Een maximum voor ‘acceptabele afwijking’ van WA data is
  aangegeven


 Meerwaarde WA output zit in relatieve waarden en trends; niet in
 absolute waarden

• WA en STIR / DART niet vergelijkbaar
   • trends tonen wat meer overeenkomst




                                                                           12
Doel van het project
Inhoud
                • aanleiding:
                WA verschillen    wat is waar?



                  WA data analyse


                • validatie van gangbare opinies
                m.b.t. WA verschillen
   Inhoud
                • welke afwijkingen zijn acceptabel’?



            WA test in gesloten omgeving


               • toelichting testomgeving
               • geverifieerde oorzaken van afwijkingen
               • geconstateerde oorzaken



                     Conclusie
                                                  13
Opzet gesloten testomgeving: de website

• Content:
   • homepage (na redirect)
   • 2 toelichtingpages (met
     ‘back’ button)
   • 4 rapportages ( SQL)
   • Invoerscherm ( SQL)
   • Login

• Technologie:
   •   Tomcat server
   •   jsp-pages
   •   geen frames / flash / …
   •   (MySQL database)



                                                 14
Opzet gesloten testomgeving: de website

• Voor ieder pakket is JavaScript geïnstalleerd op de pages van de
  WPM website:
   • Google Analytics, Sitestat, Webtrends
   • alle pakketten gebruiken 1st party cookies en worden simultaan
     gebruikt
   • we weten het browsinggedrag op de website => exacte aantallen zijn
     bekend

• Gedurende een deel van de testperiode werd robot-traffic naar
  de website gestuurd




                                                                    15
Opzet gesloten testomgeving: Verkeer en test cases


• Handmatige expert review
  • doel: zoeken naar ‘te verwachten afwijkingen’

• Geautomatiseerde browsing sessies met Selenium
  • doel: zoeken naar niet-reproduceerbare verschillen
  • tests worden herhaald met andere browser / server settings
     • cookies weggooien zodra browser sluit
     • tag-placement boven / onder, volgorde
     • browsing met IExplore / Firefox

• Vergeleken worden de traffic numbers:
  • visits, visitors en page views


                                                                 16
Onderzochte verklaringen van afwijkingen
                                                 Factoren van invloed
                                                 op meting web metrics




Browser                                  Webserver / -site                                 WA pakket




      Settings:                                      Double counted page views:                    Tag placement:
     • Ondersteuning script-talen                   • Redirects                                   • top / bottom
     • Pop-up, spyware blocking
                                                                                                  • alle pages getagd
                                                                                                                                   Data collectie
                                                     Configuratie:                                • tags inline geplaatst
     Double / not counting page views:              • server logging settings
                                                                                                                                   o.b.v. runnen
     • refresh, back-pijl, page anchors             • robot.txt                                   Filtering ‘bot’ traffic, pages
     • wegklikken vóór complete download
                                                                                                  with errors
                                                                                                                                        tags
                                                    Eigen / 3rd party website
     Type browser (IE, Firefox, etc.)
     • niet iedere browser werkt hetzelfde           Proxy server caching (b.v. ISP of
     • bv IE cookies beperkt tot 20/ domein         Internet koppeling)

                                                    Gepersonaliseerde URLs kunnen
                                                    dezelfde page view betreffen
                                                                                                                                   Data correlatie
                                                                                                  Pages / experiences (e.g.
      Settings:                                                                                   Flash, streaming)
     • (3rd party) Cookies verwijderen              Sessie definitie:
                                                                                                                                         t.b.v.
                                                    • time-outs (b.v. log-in op website)          Sessie time-out waarden en
                                                                                                                                   vistits / visitors
                                                    • geldigheidsduur cookie                      datumoverschrijding




Legenda:
Rood = niet onderzocht in gesloten omgeving
Groen = onderzocht in gesloten omgeving
                                                                                                                                        17
Grijs = niet van toepassing
Opzet gesloten testomgeving: voorbeeld testje                                                   (2/2)
  Tijd                  Browse actie                                             Logfile              WA pakketten
23:05:00   in browser url van homepage ingetypt
23:05:05   rapportage gebruiksbeschikbaarheid aangeklikt
23:05:10   back-pijl; homepage wordt geladen                                                     Niet meegeteld WT
23:05:12   rapportage gebruiksbeschikbaarheid aangeklikt
23:05:13   back-pijl voordat pagina geladen wordt                      deel in logfile;          Geen enkele pakket telt
           (browser gaat van homepage terug naar startpagina)          geen complete download    deze als page view
23:05:15   sluit browser af

23:15:00   in browser url van homepage ingetypt
23:15:05   rapportage gebruiksbeschikbaarheid aangeklikt
23:15:30   back-pijl; homepage wordt geladen                                                     Niet meegeteld WT
23:15:35   rapportage gebruiksbeschikbaarheid url ingetypt met         van beide browse acties   Geen enkele pakket
           typefout in query-string                                    komt deel in logfile;     telt deze
23:15:40   refresh                                                     geen complete download    als page view

23:50:00   rapportage gebruiksbeschikbaarheid url ingetypt (correct)                             Gezien als nieuwe visit
 0:05:00   refresh                                                     in logfile op 5 mrt       Wordt niet meegeteld op
 0:05:05   sluit browser af                                                                      4 mrt

Constateringen uit deze test:
• onvolledig geladen pages en foutieve URLs worden niet meegeteld door WA
  pakketten
• sessie time-out na 30 minuten => 2 visits
• GA geeft op deze dag (weer) een visit te veel aan (geen robot!)…
• deze keer werkt datum overgang goed …                                                                      18
Overzicht van een testweek
Page views                                                  Bijzonderheden
                GA    Sitestat   Webtrends   Logfile
    28-2-2009   25       25         20         25      WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld
     1-3-2009   30       30         28         30      WT rapporteert één pageview per sessie minder en heeft één visit (rond 0:00 uur)
                                                       te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
     2-3-2009   50      50          15         55
     3-3-2009   16      16          13         16      WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld
     4-3-2009   71      71          58         74      Alle pakketten rapporteren de niet complete download en incorrecte URL niet;
                                                       WT rapporteert één PV per sessie minder en mist nog twee PV in laatste sessie
                192    192         134        200
Totaal


Visits          GA    Sitestat   Webtrends   Logfile
    28-2-2009    5        5          5          5
     1-3-2009    6        6         7           6      WT rapporteert één visit rond 0:00 uur te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
     2-3-2009   10       10          4         11      (zie visitors)
     3-3-2009    2        2          2          2
     4-3-2009   12       11         11         11      GA meldt een visit te veel
                35       34        29         35
Totaal

Visitors        GA    Sitestat   Webtrends   Logfile
    28-2-2009    5        5         5           5
     1-3-2009    6       6          7           6      WT rapporteert één visitor te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
     2-3-2009   10       10         3          11      GA, Sitestat en Webtrends missen allen één 'losse' visit tussen 11-12 uur;
                                                       (waarschijnlijk een Selenium sessie met IExplore die niet geheel werkte).
                                                       Daarnaast mist WT vanaf tussen 2 en 3 uur de resterende visits (server te druk?)
     3-3-2009    2       2           2         2
     4-3-2009   10      10          10        10
                23      23          17        24
Totaal



   Uitmiddelingeffecten over de werkweek periode:
   • datumovergang middelt uit
                                                                                                                              19
   • GA en Logfile visits zijn gelijk, terwijl ze op 2 van de 5 dagen verschillen
Constateringen uit gesloten testomgeving

      • Visits
             sessie time-out waarde alle pakketten is 30 minuten
             verwijderen van cookies tot nieuwe bezoeker voor alle WA pakketten
      • Datum overgang
          × niet alle server klokken blijken gesynchroniseerd …
            een visit die ‘door 0:00 uur loopt’ wordt in beide dagen meegeteld
      • Back button, refresh, redirects
          × WT telt back-button en refresh als enige pakket niet mee; redirects wel
            automatische redirects wordt gezien als één page view door ieder WA pakket
      • Snel klikken / foutieve URLs
             geen van de pakketten telt deze mee
      • Filtering van bot-traffic is niet helder geworden
          × van WA en logfile gegevens is goed te achterhalen wat er gebeurt is, behalve
            in de periode dat bot-traffic was aangezet
      • Browser typen
            één IExplore 6.0 visit is geheel aan alle tags ‘ontsnapt’
          × Data analyse: soms runt WA script niet op (minder vaak gebruikte) browser


Legenda:
√ = veroorzaakt geen verschillen in gesloten omgeving
× = veroorzaakt wel verschillen in gesloten omgeving                                 20
Conclusie gesloten testomgeving




Je moet 'je best doen om verschillen te ‘creëren’,
d.w.z. in de basis werken alle pakketten hetzelfde.

      Verschillen zitten in de (vele) details!




                                                      21
Doel van het project
Inhoud
                • aanleiding:
                WA verschillen    wat is waar?



                  WA data analyse


                • validatie van gangbare opinies
                m.b.t. WA verschillen
   Inhoud
                • welke afwijkingen zijn acceptabel’?



            WA test in gesloten omgeving


               • toelichting testomgeving
               • geverifieerde oorzaken van afwijkingen
               • geconstateerde oorzaken



                     Conclusie
                                                  22
Eindconclusie WA verschillen

• Verschillen in WA statistieken zijn een ‘fact of life’
    •   iedereen ziet het; niet iedereen maakt zich er even druk om
    •   verschillen zijn niet éénduidig, niet algemeen geldend
    •   WA verschillen zijn continue in de tijd (afgezien van configuratiewijziging/incidenten)
    •   verschillen hebben veel minder invloed op de traffic trends

• Er is een range aangegeven voor ‘reële’ procentuele WA data verschillen
    • afwijkingen groter dan deze duiden op configuratieverschillen / incidenten

• Data uit WA en STIR / DART zijn niet vergelijkbaar
    • absolute waarden WA en STIR / DART zijn niet te vergelijken
    • trends toon iets meer overeenkomst, maar zelfs deze komt niet helemaal overeen

• Verklaring van oorzaken …
    • WA pakketten zijn in de basis hetzelfde, die in principe dezelfde getallen geven
    • de verschillen zitten in (vele) details !


                                                                                     23
Afronding project & vervolg

• Presentatie op WAA congres
   • woensdag 25 maart 2009, http://waanetherlands.wordpress.com/

• Publicatie op Marketing Facts

• Persbericht TNO.nl en websites deelnemers

• Contact over resultaten met Eric Enge (StoneTemple, auteur
  Shootout) en Eric Peterson (Analytics Demystified)




                                                                    24
Vragen?
martijn.staal@tno.nl
  06 51916237

bart.gijsen@tno.nl
  06 53725218




                       25

More Related Content

More from Webanalisten .nl

CH2019 keynote: Lukas Vermeer - One neat trick to run better experiments
CH2019 keynote: Lukas Vermeer - One neat trick to run better experimentsCH2019 keynote: Lukas Vermeer - One neat trick to run better experiments
CH2019 keynote: Lukas Vermeer - One neat trick to run better experimentsWebanalisten .nl
 
CH2019 keynote: Roger Dooley - Friction
CH2019 keynote: Roger Dooley - FrictionCH2019 keynote: Roger Dooley - Friction
CH2019 keynote: Roger Dooley - FrictionWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Ton Wesseling
Conversion Hotel 2018 Keynote: Ton WesselingConversion Hotel 2018 Keynote: Ton Wesseling
Conversion Hotel 2018 Keynote: Ton WesselingWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Nir Eyal
Conversion Hotel 2018 Keynote: Nir EyalConversion Hotel 2018 Keynote: Nir Eyal
Conversion Hotel 2018 Keynote: Nir EyalWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Erin Weigel
Conversion Hotel 2018 Keynote: Erin WeigelConversion Hotel 2018 Keynote: Erin Weigel
Conversion Hotel 2018 Keynote: Erin WeigelWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Lea Pica
Conversion Hotel 2018 Keynote: Lea PicaConversion Hotel 2018 Keynote: Lea Pica
Conversion Hotel 2018 Keynote: Lea PicaWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Greg Shapiro
Conversion Hotel 2018 Keynote: Greg ShapiroConversion Hotel 2018 Keynote: Greg Shapiro
Conversion Hotel 2018 Keynote: Greg ShapiroWebanalisten .nl
 
Conversion Hotel 2018 Keynote: TU Delft Solar Team
Conversion Hotel 2018 Keynote: TU Delft Solar TeamConversion Hotel 2018 Keynote: TU Delft Solar Team
Conversion Hotel 2018 Keynote: TU Delft Solar TeamWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Karl Gilis
Conversion Hotel 2018 Keynote: Karl GilisConversion Hotel 2018 Keynote: Karl Gilis
Conversion Hotel 2018 Keynote: Karl GilisWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Lisa Pierson
Conversion Hotel 2018 Keynote: Lisa PiersonConversion Hotel 2018 Keynote: Lisa Pierson
Conversion Hotel 2018 Keynote: Lisa PiersonWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Chad Sanderson
Conversion Hotel 2018 Keynote: Chad SandersonConversion Hotel 2018 Keynote: Chad Sanderson
Conversion Hotel 2018 Keynote: Chad SandersonWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Aleksander Fabijan
Conversion Hotel 2018 Keynote: Aleksander FabijanConversion Hotel 2018 Keynote: Aleksander Fabijan
Conversion Hotel 2018 Keynote: Aleksander FabijanWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Lizzie Eardley
Conversion Hotel 2018 Keynote: Lizzie EardleyConversion Hotel 2018 Keynote: Lizzie Eardley
Conversion Hotel 2018 Keynote: Lizzie EardleyWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Michael Aagaard
Conversion Hotel 2018 Keynote: Michael AagaardConversion Hotel 2018 Keynote: Michael Aagaard
Conversion Hotel 2018 Keynote: Michael AagaardWebanalisten .nl
 
Conversion Hotel 2018 Keynote: Annemarie Steen
Conversion Hotel 2018 Keynote: Annemarie SteenConversion Hotel 2018 Keynote: Annemarie Steen
Conversion Hotel 2018 Keynote: Annemarie SteenWebanalisten .nl
 
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...Webanalisten .nl
 
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...Webanalisten .nl
 
#DDTT meetup #7 Amsterdam - Structuring your optimization Program
#DDTT meetup #7 Amsterdam - Structuring your optimization Program#DDTT meetup #7 Amsterdam - Structuring your optimization Program
#DDTT meetup #7 Amsterdam - Structuring your optimization ProgramWebanalisten .nl
 
Conversion Hotel 2016 - John Ekman
Conversion Hotel 2016 - John EkmanConversion Hotel 2016 - John Ekman
Conversion Hotel 2016 - John EkmanWebanalisten .nl
 
Conversion Hotel 2016 - Anna Dahlström
Conversion Hotel 2016 - Anna DahlströmConversion Hotel 2016 - Anna Dahlström
Conversion Hotel 2016 - Anna DahlströmWebanalisten .nl
 

More from Webanalisten .nl (20)

CH2019 keynote: Lukas Vermeer - One neat trick to run better experiments
CH2019 keynote: Lukas Vermeer - One neat trick to run better experimentsCH2019 keynote: Lukas Vermeer - One neat trick to run better experiments
CH2019 keynote: Lukas Vermeer - One neat trick to run better experiments
 
CH2019 keynote: Roger Dooley - Friction
CH2019 keynote: Roger Dooley - FrictionCH2019 keynote: Roger Dooley - Friction
CH2019 keynote: Roger Dooley - Friction
 
Conversion Hotel 2018 Keynote: Ton Wesseling
Conversion Hotel 2018 Keynote: Ton WesselingConversion Hotel 2018 Keynote: Ton Wesseling
Conversion Hotel 2018 Keynote: Ton Wesseling
 
Conversion Hotel 2018 Keynote: Nir Eyal
Conversion Hotel 2018 Keynote: Nir EyalConversion Hotel 2018 Keynote: Nir Eyal
Conversion Hotel 2018 Keynote: Nir Eyal
 
Conversion Hotel 2018 Keynote: Erin Weigel
Conversion Hotel 2018 Keynote: Erin WeigelConversion Hotel 2018 Keynote: Erin Weigel
Conversion Hotel 2018 Keynote: Erin Weigel
 
Conversion Hotel 2018 Keynote: Lea Pica
Conversion Hotel 2018 Keynote: Lea PicaConversion Hotel 2018 Keynote: Lea Pica
Conversion Hotel 2018 Keynote: Lea Pica
 
Conversion Hotel 2018 Keynote: Greg Shapiro
Conversion Hotel 2018 Keynote: Greg ShapiroConversion Hotel 2018 Keynote: Greg Shapiro
Conversion Hotel 2018 Keynote: Greg Shapiro
 
Conversion Hotel 2018 Keynote: TU Delft Solar Team
Conversion Hotel 2018 Keynote: TU Delft Solar TeamConversion Hotel 2018 Keynote: TU Delft Solar Team
Conversion Hotel 2018 Keynote: TU Delft Solar Team
 
Conversion Hotel 2018 Keynote: Karl Gilis
Conversion Hotel 2018 Keynote: Karl GilisConversion Hotel 2018 Keynote: Karl Gilis
Conversion Hotel 2018 Keynote: Karl Gilis
 
Conversion Hotel 2018 Keynote: Lisa Pierson
Conversion Hotel 2018 Keynote: Lisa PiersonConversion Hotel 2018 Keynote: Lisa Pierson
Conversion Hotel 2018 Keynote: Lisa Pierson
 
Conversion Hotel 2018 Keynote: Chad Sanderson
Conversion Hotel 2018 Keynote: Chad SandersonConversion Hotel 2018 Keynote: Chad Sanderson
Conversion Hotel 2018 Keynote: Chad Sanderson
 
Conversion Hotel 2018 Keynote: Aleksander Fabijan
Conversion Hotel 2018 Keynote: Aleksander FabijanConversion Hotel 2018 Keynote: Aleksander Fabijan
Conversion Hotel 2018 Keynote: Aleksander Fabijan
 
Conversion Hotel 2018 Keynote: Lizzie Eardley
Conversion Hotel 2018 Keynote: Lizzie EardleyConversion Hotel 2018 Keynote: Lizzie Eardley
Conversion Hotel 2018 Keynote: Lizzie Eardley
 
Conversion Hotel 2018 Keynote: Michael Aagaard
Conversion Hotel 2018 Keynote: Michael AagaardConversion Hotel 2018 Keynote: Michael Aagaard
Conversion Hotel 2018 Keynote: Michael Aagaard
 
Conversion Hotel 2018 Keynote: Annemarie Steen
Conversion Hotel 2018 Keynote: Annemarie SteenConversion Hotel 2018 Keynote: Annemarie Steen
Conversion Hotel 2018 Keynote: Annemarie Steen
 
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...
#DDTT meetup #7 Amsterdam - Results on the state of the Dutch CRO Industry su...
 
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...
#DDTT meetup #7 Amsterdam - The Data Science behind testing, optimization and...
 
#DDTT meetup #7 Amsterdam - Structuring your optimization Program
#DDTT meetup #7 Amsterdam - Structuring your optimization Program#DDTT meetup #7 Amsterdam - Structuring your optimization Program
#DDTT meetup #7 Amsterdam - Structuring your optimization Program
 
Conversion Hotel 2016 - John Ekman
Conversion Hotel 2016 - John EkmanConversion Hotel 2016 - John Ekman
Conversion Hotel 2016 - John Ekman
 
Conversion Hotel 2016 - Anna Dahlström
Conversion Hotel 2016 - Anna DahlströmConversion Hotel 2016 - Anna Dahlström
Conversion Hotel 2016 - Anna Dahlström
 

Verschillen in webanalytics: TNO

  • 1. Verschillen in Web Analytics Feiten, fabels en verwachtingen maart 2009 – Almerima Jamakovic, Bart Gijsen, Martijn Staal
  • 2. Doel van het project Inhoud • aanleiding: WA verschillen wat is waar? WA data analyse • validatie van gangbare opinies m.b.t. WA verschillen Inhoud • welke afwijkingen zijn acceptabel’? WA test in gesloten omgeving • toelichting testomgeving • geverifieerde oorzaken van afwijkingen • geconstateerde oorzaken Conclusie 2
  • 3. Doel van het project • Klant en/of bureau merken grote verschillen in statistiekmetingen bij bijvoorbeeld: Welke gegevens • Migratie naar ander WA pakket zijn waar? • Toepassing STIR naast WA Wanneer zijn de data • Afrekenen van bannercampagne (DART) betrouwbaar? • Verkoop website • Doelen WA project: • Inzichtelijk maken van verschillen en manier waarop WA metingen uitvoeren • Geef houvast in discussie over verschillen: wat zijn ‘reële afwijkingen’ 3
  • 4. Overzicht van de deelnemers & betrokken partijen • Projectteam: • Deelnemers data benchmark & gesloten test: + Nederlandse kabelmaatschappij • Betrokken mediapartijen: • Indirect betrokken: 4
  • 5. Aanpak: data analyse en test in gesloten omgeving • Tijdens de WA data analyse worden statistiekendata van externe websites vergeleken en geanalyseerd op verschillen • Websites met meerdere webstatistiekpakketten leveren data • TNO doet analyse en benchmarkt verschillen • Doel: inzicht in ‘acceptabel’ niveau van verschillen • Tijdens de test in gesloten omgeving worden oorzaken van verschillen verder onderzocht • Gesloten TNO website wordt gebruikt waarbij het verkeer d.m.v. Selenium te reguleren is • Sessies en variabelen zoals IP-adressen, browser types e.d. zijn door TNO in te stellen • Doel: oorzaken van verschillen verder uitdiepen 5
  • 6. Doel van het project Inhoud • aanleiding: WA verschillen wat is waar? WA data analyse • validatie van gangbare opinies m.b.t. WA verschillen Inhoud • welke afwijkingen zijn acceptabel’? WA test in gesloten omgeving • toelichting testomgeving • geverifieerde oorzaken van afwijkingen • geconstateerde oorzaken Conclusie 6
  • 7. WA Data Analyse •Doel: inzicht in welke verschillen acceptabel zijn • Analyse webstatistieken data van meerdere websites • Vergelijking Google, Sitestat, Webtrends, STIR en DART data Website Google Analytics Sitestat Webtrends HBX Speed Trap STIR DART √ √ Kabeloperator √ √ √ TNO.nl √ √ √ Univé.nl √ √ √ √ Ilsemedia-x √ √ Agis √ √ Typhone • Vergeleken WA metrics zijn: visits, visitors en page views op dag, week en maandniveau 7
  • 8. Vragen & hypotheses voor WA data analyse • WA pakketten op dezelfde website genereren afwijkende waarden? • Afwijkingen tussen WA pakketten zijn website specifiek? Welke procentuele afwijking is reëel? • Meerwaarde WA output zit in relatieve waarden en trends; niet in absolute waarden? • Wat is de relatie tussen WA, STIR en DART? 8
  • 9. Hoofdvraag: welke procentuele afwijking is reëel? Zijn WA metingen normaal verdeeld? Zijn WA metingen Normaal verdeeld? Ja, WA output waarden zijn Normaal verdeeld! QQ plot tno.nl data 2 Parameters van Normale verdeling hangen af 1,5 1,2 van: • website (content, structuur, technologie, …) 1 0,8 • WA metric (visitors vs. page views) 0,5 0,4 Visitors (AdvancedMD) Observatie: er is een vrij duidelijke bovengrens Visits 0 Page view s (AdvancedMD) op de genormaliseerde maat voor spreiding 0,0 -1,5 -1 -0,5 0 0,5 1 1,5 Page views -0,5 -0,70 -0,35 0,00 0,35 0,70 van WA verschillen (=coefficient van variatie) Visitors -0,4 -1 -0,8 -1,5 -2 -1,2 So what ??? 1. Het feit dat verschillen Normaal verdeeld zijn impliceert dat verschillen veroorzaakt worden door een veelheid, van elk op zich niet-dominante oorzaken 2. Dit geeft de basis voor concrete vuistregels m.b.t. ‘acceptabele afwijkingen’ • zie volgende slide 9
  • 10. Dus … welke procentuele afwijking is reëel? WA checklist voor implementatie en betrouwbaarheid • Constaterende dat a. verschillen in WA Normaal verdeeld zijn en • voor alle aangeleverde data en die uit literatuur [Shootout] geldt dit b. dat de “coëfficiënt van variatie” < 0.1 (= maat voor verschillen WA data) • voor bijna alle aangeleverde data en die uit literatuur [Shootout] geldt dit • Dan gelden de volgende vuistregels als ‘acceptabele afwijking’: Aantal WA Max-Min afwijking meestal Max-Min afwijking zelden pakketten (1 op 2) niet groter dan … (1 op 10) groter dan … 2 9,5% 23,2% Anders is 3 15,8% 29,0% sprake van een verkeerde 4 19,7% 32,4% implementatie! 5 22,5% 34,7% 6 24,7% 36,6% • en … het aantal bezoekers, bezoeken, page view heeft hierop geen invloed 10 • en … deze procentuele afwijkingen schalen lineair in de coefficient van variatie
  • 11. Praktijk toets: configuratiefouten identificeren zelden > 23,2% Afwijking pageviews tussen Sitestat en GA 25,0% 20,0% meestal < 9,5% 15,0% 10,0% 5,0% Procentuele afwijking (Sitestat - GA)%, PV per dag 0,0% 1-8-2008 1-9-2008 2-10-2008 2-11-2008 3-12-2008 -5,0% (Sitestat - GA)%, PV per week -10,0% -15,0% (Sitestat - GA)%, PV per 4- -20,0% weken GA tags waren -25,0% niet op alle pages -30,0% geplaatst -35,0% incident waardoor -40,0% -45,0% één tag niet runt Er is een maximum afwijking aan te geven voor ‘acceptabele afwijking’ WA data Afwijkingen groter dan deze waarden duiden op configuratieverschillen / technische problemen / … In dat geval is interpretatie-verschil van WA data 11 misleidend en dient onderzocht te worden
  • 12. WA verschillen: conclusies uit de data analyse WA pakketten op dezelfde website genereren afwijkende waarden aantal soms tientallen % uit elkaar verschillen niet identiek voor visitors, visits, page views, … over meetperiodes heen zijn de onderlinge verschillen vrij constant Afwijkingen tussen WA pakketten zijn website specifiek • Een maximum voor ‘acceptabele afwijking’ van WA data is aangegeven Meerwaarde WA output zit in relatieve waarden en trends; niet in absolute waarden • WA en STIR / DART niet vergelijkbaar • trends tonen wat meer overeenkomst 12
  • 13. Doel van het project Inhoud • aanleiding: WA verschillen wat is waar? WA data analyse • validatie van gangbare opinies m.b.t. WA verschillen Inhoud • welke afwijkingen zijn acceptabel’? WA test in gesloten omgeving • toelichting testomgeving • geverifieerde oorzaken van afwijkingen • geconstateerde oorzaken Conclusie 13
  • 14. Opzet gesloten testomgeving: de website • Content: • homepage (na redirect) • 2 toelichtingpages (met ‘back’ button) • 4 rapportages ( SQL) • Invoerscherm ( SQL) • Login • Technologie: • Tomcat server • jsp-pages • geen frames / flash / … • (MySQL database) 14
  • 15. Opzet gesloten testomgeving: de website • Voor ieder pakket is JavaScript geïnstalleerd op de pages van de WPM website: • Google Analytics, Sitestat, Webtrends • alle pakketten gebruiken 1st party cookies en worden simultaan gebruikt • we weten het browsinggedrag op de website => exacte aantallen zijn bekend • Gedurende een deel van de testperiode werd robot-traffic naar de website gestuurd 15
  • 16. Opzet gesloten testomgeving: Verkeer en test cases • Handmatige expert review • doel: zoeken naar ‘te verwachten afwijkingen’ • Geautomatiseerde browsing sessies met Selenium • doel: zoeken naar niet-reproduceerbare verschillen • tests worden herhaald met andere browser / server settings • cookies weggooien zodra browser sluit • tag-placement boven / onder, volgorde • browsing met IExplore / Firefox • Vergeleken worden de traffic numbers: • visits, visitors en page views 16
  • 17. Onderzochte verklaringen van afwijkingen Factoren van invloed op meting web metrics Browser Webserver / -site WA pakket Settings: Double counted page views: Tag placement: • Ondersteuning script-talen • Redirects • top / bottom • Pop-up, spyware blocking • alle pages getagd Data collectie Configuratie: • tags inline geplaatst Double / not counting page views: • server logging settings o.b.v. runnen • refresh, back-pijl, page anchors • robot.txt Filtering ‘bot’ traffic, pages • wegklikken vóór complete download with errors tags Eigen / 3rd party website Type browser (IE, Firefox, etc.) • niet iedere browser werkt hetzelfde Proxy server caching (b.v. ISP of • bv IE cookies beperkt tot 20/ domein Internet koppeling) Gepersonaliseerde URLs kunnen dezelfde page view betreffen Data correlatie Pages / experiences (e.g. Settings: Flash, streaming) • (3rd party) Cookies verwijderen Sessie definitie: t.b.v. • time-outs (b.v. log-in op website) Sessie time-out waarden en vistits / visitors • geldigheidsduur cookie datumoverschrijding Legenda: Rood = niet onderzocht in gesloten omgeving Groen = onderzocht in gesloten omgeving 17 Grijs = niet van toepassing
  • 18. Opzet gesloten testomgeving: voorbeeld testje (2/2) Tijd Browse actie Logfile WA pakketten 23:05:00 in browser url van homepage ingetypt 23:05:05 rapportage gebruiksbeschikbaarheid aangeklikt 23:05:10 back-pijl; homepage wordt geladen Niet meegeteld WT 23:05:12 rapportage gebruiksbeschikbaarheid aangeklikt 23:05:13 back-pijl voordat pagina geladen wordt deel in logfile; Geen enkele pakket telt (browser gaat van homepage terug naar startpagina) geen complete download deze als page view 23:05:15 sluit browser af 23:15:00 in browser url van homepage ingetypt 23:15:05 rapportage gebruiksbeschikbaarheid aangeklikt 23:15:30 back-pijl; homepage wordt geladen Niet meegeteld WT 23:15:35 rapportage gebruiksbeschikbaarheid url ingetypt met van beide browse acties Geen enkele pakket typefout in query-string komt deel in logfile; telt deze 23:15:40 refresh geen complete download als page view 23:50:00 rapportage gebruiksbeschikbaarheid url ingetypt (correct) Gezien als nieuwe visit 0:05:00 refresh in logfile op 5 mrt Wordt niet meegeteld op 0:05:05 sluit browser af 4 mrt Constateringen uit deze test: • onvolledig geladen pages en foutieve URLs worden niet meegeteld door WA pakketten • sessie time-out na 30 minuten => 2 visits • GA geeft op deze dag (weer) een visit te veel aan (geen robot!)… • deze keer werkt datum overgang goed … 18
  • 19. Overzicht van een testweek Page views Bijzonderheden GA Sitestat Webtrends Logfile 28-2-2009 25 25 20 25 WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld 1-3-2009 30 30 28 30 WT rapporteert één pageview per sessie minder en heeft één visit (rond 0:00 uur) te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld 2-3-2009 50 50 15 55 3-3-2009 16 16 13 16 WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld 4-3-2009 71 71 58 74 Alle pakketten rapporteren de niet complete download en incorrecte URL niet; WT rapporteert één PV per sessie minder en mist nog twee PV in laatste sessie 192 192 134 200 Totaal Visits GA Sitestat Webtrends Logfile 28-2-2009 5 5 5 5 1-3-2009 6 6 7 6 WT rapporteert één visit rond 0:00 uur te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld 2-3-2009 10 10 4 11 (zie visitors) 3-3-2009 2 2 2 2 4-3-2009 12 11 11 11 GA meldt een visit te veel 35 34 29 35 Totaal Visitors GA Sitestat Webtrends Logfile 28-2-2009 5 5 5 5 1-3-2009 6 6 7 6 WT rapporteert één visitor te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld 2-3-2009 10 10 3 11 GA, Sitestat en Webtrends missen allen één 'losse' visit tussen 11-12 uur; (waarschijnlijk een Selenium sessie met IExplore die niet geheel werkte). Daarnaast mist WT vanaf tussen 2 en 3 uur de resterende visits (server te druk?) 3-3-2009 2 2 2 2 4-3-2009 10 10 10 10 23 23 17 24 Totaal Uitmiddelingeffecten over de werkweek periode: • datumovergang middelt uit 19 • GA en Logfile visits zijn gelijk, terwijl ze op 2 van de 5 dagen verschillen
  • 20. Constateringen uit gesloten testomgeving • Visits sessie time-out waarde alle pakketten is 30 minuten verwijderen van cookies tot nieuwe bezoeker voor alle WA pakketten • Datum overgang × niet alle server klokken blijken gesynchroniseerd … een visit die ‘door 0:00 uur loopt’ wordt in beide dagen meegeteld • Back button, refresh, redirects × WT telt back-button en refresh als enige pakket niet mee; redirects wel automatische redirects wordt gezien als één page view door ieder WA pakket • Snel klikken / foutieve URLs geen van de pakketten telt deze mee • Filtering van bot-traffic is niet helder geworden × van WA en logfile gegevens is goed te achterhalen wat er gebeurt is, behalve in de periode dat bot-traffic was aangezet • Browser typen één IExplore 6.0 visit is geheel aan alle tags ‘ontsnapt’ × Data analyse: soms runt WA script niet op (minder vaak gebruikte) browser Legenda: √ = veroorzaakt geen verschillen in gesloten omgeving × = veroorzaakt wel verschillen in gesloten omgeving 20
  • 21. Conclusie gesloten testomgeving Je moet 'je best doen om verschillen te ‘creëren’, d.w.z. in de basis werken alle pakketten hetzelfde. Verschillen zitten in de (vele) details! 21
  • 22. Doel van het project Inhoud • aanleiding: WA verschillen wat is waar? WA data analyse • validatie van gangbare opinies m.b.t. WA verschillen Inhoud • welke afwijkingen zijn acceptabel’? WA test in gesloten omgeving • toelichting testomgeving • geverifieerde oorzaken van afwijkingen • geconstateerde oorzaken Conclusie 22
  • 23. Eindconclusie WA verschillen • Verschillen in WA statistieken zijn een ‘fact of life’ • iedereen ziet het; niet iedereen maakt zich er even druk om • verschillen zijn niet éénduidig, niet algemeen geldend • WA verschillen zijn continue in de tijd (afgezien van configuratiewijziging/incidenten) • verschillen hebben veel minder invloed op de traffic trends • Er is een range aangegeven voor ‘reële’ procentuele WA data verschillen • afwijkingen groter dan deze duiden op configuratieverschillen / incidenten • Data uit WA en STIR / DART zijn niet vergelijkbaar • absolute waarden WA en STIR / DART zijn niet te vergelijken • trends toon iets meer overeenkomst, maar zelfs deze komt niet helemaal overeen • Verklaring van oorzaken … • WA pakketten zijn in de basis hetzelfde, die in principe dezelfde getallen geven • de verschillen zitten in (vele) details ! 23
  • 24. Afronding project & vervolg • Presentatie op WAA congres • woensdag 25 maart 2009, http://waanetherlands.wordpress.com/ • Publicatie op Marketing Facts • Persbericht TNO.nl en websites deelnemers • Contact over resultaten met Eric Enge (StoneTemple, auteur Shootout) en Eric Peterson (Analytics Demystified) 24
  • 25. Vragen? martijn.staal@tno.nl 06 51916237 bart.gijsen@tno.nl 06 53725218 25