Your SlideShare is downloading. ×
0
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
CC13 Korsus
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

CC13 Korsus

2,605

Published on

0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,605
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
46
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 12.09.2013 1 Warum 99% der A/B Tests fehlerhaft sind Andreas Korsus Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht
  • 2. Andreas Korsus12.09.2013 3 1. Fehler Split URL Tests mit JavaScript Lösungen
  • 3. Andreas Korsus12.09.2013 4 Bedeutung der Geschwindigkeit +100 ms  -1% Verkäufe Greg Linden, über Amazon +500ms  -20% Traffic Marissa Meyer über Google
  • 4. Zeit
  • 5. Zeit Wie lange dauert das?
  • 6. Zeit Wie lange dauert das? 50-1000ms
  • 7. Andreas Korsus12.09.2013 8 Lösung A/A‘/B Test A A‘ B www.beispiel.de/ original.htm www.beispiel.de/ original.htm?cachebuster www.beispiel.de/ variante-b.html Kopie Inkl. Redirect Inkl. Redirect Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010- 12%20ExPUnexpectedSIGKDD.pdf
  • 8. Andreas Korsus12.09.2013 9 Lösung A/A‘/B Test A A‘ B Differenz gibt den Betrag der Verzerrung an Differenz gibt bereinigten Unterschied zwischen A und B an Kopie
  • 9. Andreas Korsus12.09.2013 10 2. Fehler Blind auf Signifikanz und Konfidenzintervalle der Testing- Tools vertrauen
  • 10. Andreas Korsus12.09.2013 11 2. Fehler Ist DAS wirklich signifikant?
  • 11. Andreas Korsus12.09.2013 12 Normalverteilung 95% Confidence interval
  • 12. Andreas Korsus12.09.2013 13 Binomialverteilung
  • 13. Andreas Korsus12.09.2013 14 Vergleich Binomial- & Normalverteilung 0% 0,5% 1% 1,5% 2% Ausgewiesene Signifikanz: 96% Wahrer Wert: 77%
  • 14. Andreas Korsus12.09.2013 15 Problem Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau wieder (Die Student t-Verteilung macht es auch nicht besser) Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
  • 15. Andreas Korsus12.09.2013 16 Lösung Mindestens 500 Besucher pro Variante Konversionsrate < 2,0%: Mindestens 2000 Besucher pro Variante, besser noch höher Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.
  • 16. Andreas Korsus12.09.2013 17 3. Fehler Multivariate Tests Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt- Fehlerwahrscheinlichkeit ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121
  • 17. Andreas Korsus12.09.2013 18 Problem 5% Test mit 1 Variante Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 18. Andreas Korsus12.09.2013 19 Problem 9,75% Test mit 2 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 19. Andreas Korsus12.09.2013 20 Problem 18,55% Test mit 4 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 20. Andreas Korsus12.09.2013 21 Problem 56% Test mit 16 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 21. Andreas Korsus12.09.2013 22 Lösung Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten Kombinationen nur mit Sinn und Verstand testen. Nicht alles, was geht. Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von 5% / 4 = 1,25% (entspricht Signifikanzniveau 98,75%) Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
  • 22. Andreas Korsus12.09.2013 23 Oder Erst multivariaten Test wie gewohnt durchführen Besten „Kandidaten“ im A/B Test nochmal überprüfen
  • 23. Andreas Korsus12.09.2013 24 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  • 24. Andreas Korsus Das wird bestimmt noch positiv! 12.09.2013 25 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  • 25. Andreas Korsus12.09.2013 26 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja
  • 26. Andreas Korsus12.09.2013 27 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
  • 27. Andreas Korsus12.09.2013 28 4. Fehler Wiederholtes Testen Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung zu fällen, jedes Mal ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787
  • 28. Andreas Korsus12.09.2013 29 Problem 5% Test mit 1 Mal „nachgucken“ Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 29. Andreas Korsus12.09.2013 30 Problem 8,3% Test mit 2 Mal nachgucken* Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren: * Gleicher Zeitabstand zwischen den Auswertungen
  • 30. Andreas Korsus12.09.2013 31 Problem 14,2% Test mit 5 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 31. Andreas Korsus12.09.2013 32 Problem 24,8% Test mit 20 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 32. Andreas Korsus 53% 12.09.2013 33 Problem Test mit 1000 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 33. Andreas Korsus Diese Funktionen schauen nach jedem Besucher nach! 12.09.2013 34 Problem Test mit 1000 Mal nachgucken
  • 34. Andreas Korsus12.09.2013 35 Lösung Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch* Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie sich an die Werte! * z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden. Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt Zu niedrig geschätzt: Der Test braucht ewig
  • 35. Andreas Korsus12.09.2013 36 Lösung Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede zuverlässig sehr früh und kleinere Unterschiede durch eine längere Testdauer zu erkennen Allerdings gibt es (noch) keine einfache Anwendung für die CRO Pläne nach Pocock, O‘Brien Fleming, Alpha- Spending Funktionen, SPRT, Dreieckspläne Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
  • 36. Andreas Korsus12.09.2013 37 Lösung Beispielplan nach O‘Brien Fleming Führe eine Testdaueranalyse durch und schätze den Uplift konservativ Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch: 1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%
  • 37. Andreas Korsus12.09.2013 38 Alles in allem Mach keine A/B Split URL Tests in JavaScript- Tools – Starte mit A‘/B Tests! Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus! Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten! Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden. Arbeite methodisch sauber
  • 38. Andreas Korsus12.09.2013 39 Vielen Dank http://xing.to/korsus http://de.linkedin.com/in/korsus
  • 39. Andreas Korsus12.09.2013 40 Jeffrey’s Equal-Tailed Intervall R: L <- qbeta( alpha/2, k+1/2, n-k+1/2) U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2) Excel: =BETA.INV(alpha/2;k+1/2;n-k+1/2) =BETA.INV(1-alpha/2;k+1/2;n-k+1/2) k=Anzahl der Conversions, n=Anzahl der Besucher Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

×