12.09.2013 1
Warum 99% der A/B Tests
fehlerhaft sind
Andreas Korsus
Marketing Technologist 4 Statistische Fehler, die (fas...
Andreas Korsus12.09.2013 3
1. Fehler
Split URL Tests mit
JavaScript Lösungen
Andreas Korsus12.09.2013 4
Bedeutung der Geschwindigkeit
+100 ms  -1% Verkäufe
Greg Linden,
über Amazon
+500ms  -20% Tra...
Zeit
Zeit
Wie lange dauert das?
Zeit
Wie lange dauert das?
50-1000ms
Andreas Korsus12.09.2013 8
Lösung
A/A‘/B Test
A A‘ B
www.beispiel.de/
original.htm
www.beispiel.de/
original.htm?cachebust...
Andreas Korsus12.09.2013 9
Lösung
A/A‘/B Test
A A‘ B
Differenz gibt den
Betrag der
Verzerrung an
Differenz gibt
bereinigte...
Andreas Korsus12.09.2013 10
2. Fehler
Blind auf Signifikanz und
Konfidenzintervalle der Testing-
Tools vertrauen
Andreas Korsus12.09.2013 11
2. Fehler
Ist DAS wirklich signifikant?
Andreas Korsus12.09.2013 12
Normalverteilung
95% Confidence
interval
Andreas Korsus12.09.2013 13
Binomialverteilung
Andreas Korsus12.09.2013 14
Vergleich Binomial- & Normalverteilung
0% 0,5% 1% 1,5% 2%
Ausgewiesene Signifikanz: 96%
Wahrer...
Andreas Korsus12.09.2013 15
Problem
Die Normalverteilung der Testingtools gibt die
wahre Wahrscheinlichkeitsverteilung
ins...
Andreas Korsus12.09.2013 16
Lösung
Mindestens 500 Besucher pro Variante
Konversionsrate < 2,0%:
Mindestens 2000 Besucher p...
Andreas Korsus12.09.2013 17
3. Fehler
Multivariate Tests
Ein MVT mit 5% Fehlerwahrscheinlichkeit pro
Vergleich lässt die G...
Andreas Korsus12.09.2013 18
Problem
5%
Test mit 1 Variante
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant b...
Andreas Korsus12.09.2013 19
Problem
9,75%
Test mit 2 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifika...
Andreas Korsus12.09.2013 20
Problem
18,55%
Test mit 4 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifik...
Andreas Korsus12.09.2013 21
Problem
56%
Test mit 16 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikan...
Andreas Korsus12.09.2013 22
Lösung
Einfach: Teilen Sie die 5% Grenze durch die
Anzahl der Varianten
Kombinationen nur mit ...
Andreas Korsus12.09.2013 23
Oder
Erst multivariaten Test wie gewohnt
durchführen
Besten „Kandidaten“ im A/B Test nochmal
ü...
Andreas Korsus12.09.2013 24
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
M...
Andreas Korsus
Das wird bestimmt noch positiv!
12.09.2013 25
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Mont...
Andreas Korsus12.09.2013 26
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
M...
Andreas Korsus12.09.2013 27
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
M...
Andreas Korsus12.09.2013 28
4. Fehler
Wiederholtes Testen
Jeden Tag Signifikanz auswerten lässt die
Wahrscheinlichkeit, ei...
Andreas Korsus12.09.2013 29
Problem
5%
Test mit 1 Mal „nachgucken“
Wahrscheinlichkeit, eine
schlechtere Variante als
signi...
Andreas Korsus12.09.2013 30
Problem
8,3%
Test mit 2 Mal nachgucken*
Wahrscheinlichkeit, eine
schlechtere Variante als
sign...
Andreas Korsus12.09.2013 31
Problem
14,2%
Test mit 5 Mal nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
sign...
Andreas Korsus12.09.2013 32
Problem
24,8%
Test mit 20 Mal nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
sig...
Andreas Korsus
53%
12.09.2013 33
Problem
Test mit 1000 Mal
nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
si...
Andreas Korsus
Diese Funktionen schauen nach jedem Besucher nach!
12.09.2013 34
Problem
Test mit 1000 Mal
nachgucken
Andreas Korsus12.09.2013 35
Lösung
Einfach: Führen Sie vorher eine
Testdaueranalyse (Poweranalyse) durch*
Werten Sie Ihre ...
Andreas Korsus12.09.2013 36
Lösung
Es gibt statistische Verfahren aus der
Medizin, die es erlauben, große Unterschiede
zuv...
Andreas Korsus12.09.2013 37
Lösung
Beispielplan nach O‘Brien Fleming
Führe eine Testdaueranalyse durch und
schätze den Upl...
Andreas Korsus12.09.2013 38
Alles in allem
Mach keine A/B Split URL Tests in JavaScript-
Tools – Starte mit A‘/B Tests!
We...
Andreas Korsus12.09.2013 39
Vielen Dank
http://xing.to/korsus
http://de.linkedin.com/in/korsus
Andreas Korsus12.09.2013 40
Jeffrey’s Equal-Tailed Intervall
R:
L <- qbeta( alpha/2, k+1/2, n-k+1/2)
U <- qbeta(1-alpha)/2...
Upcoming SlideShare
Loading in...5
×

CC13 Korsus

2,688

Published on

0 Comments
6 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,688
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
46
Comments
0
Likes
6
Embeds 0
No embeds

No notes for slide

CC13 Korsus

  1. 1. 12.09.2013 1 Warum 99% der A/B Tests fehlerhaft sind Andreas Korsus Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht
  2. 2. Andreas Korsus12.09.2013 3 1. Fehler Split URL Tests mit JavaScript Lösungen
  3. 3. Andreas Korsus12.09.2013 4 Bedeutung der Geschwindigkeit +100 ms  -1% Verkäufe Greg Linden, über Amazon +500ms  -20% Traffic Marissa Meyer über Google
  4. 4. Zeit
  5. 5. Zeit Wie lange dauert das?
  6. 6. Zeit Wie lange dauert das? 50-1000ms
  7. 7. Andreas Korsus12.09.2013 8 Lösung A/A‘/B Test A A‘ B www.beispiel.de/ original.htm www.beispiel.de/ original.htm?cachebuster www.beispiel.de/ variante-b.html Kopie Inkl. Redirect Inkl. Redirect Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010- 12%20ExPUnexpectedSIGKDD.pdf
  8. 8. Andreas Korsus12.09.2013 9 Lösung A/A‘/B Test A A‘ B Differenz gibt den Betrag der Verzerrung an Differenz gibt bereinigten Unterschied zwischen A und B an Kopie
  9. 9. Andreas Korsus12.09.2013 10 2. Fehler Blind auf Signifikanz und Konfidenzintervalle der Testing- Tools vertrauen
  10. 10. Andreas Korsus12.09.2013 11 2. Fehler Ist DAS wirklich signifikant?
  11. 11. Andreas Korsus12.09.2013 12 Normalverteilung 95% Confidence interval
  12. 12. Andreas Korsus12.09.2013 13 Binomialverteilung
  13. 13. Andreas Korsus12.09.2013 14 Vergleich Binomial- & Normalverteilung 0% 0,5% 1% 1,5% 2% Ausgewiesene Signifikanz: 96% Wahrer Wert: 77%
  14. 14. Andreas Korsus12.09.2013 15 Problem Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau wieder (Die Student t-Verteilung macht es auch nicht besser) Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
  15. 15. Andreas Korsus12.09.2013 16 Lösung Mindestens 500 Besucher pro Variante Konversionsrate < 2,0%: Mindestens 2000 Besucher pro Variante, besser noch höher Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.
  16. 16. Andreas Korsus12.09.2013 17 3. Fehler Multivariate Tests Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt- Fehlerwahrscheinlichkeit ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121
  17. 17. Andreas Korsus12.09.2013 18 Problem 5% Test mit 1 Variante Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  18. 18. Andreas Korsus12.09.2013 19 Problem 9,75% Test mit 2 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  19. 19. Andreas Korsus12.09.2013 20 Problem 18,55% Test mit 4 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  20. 20. Andreas Korsus12.09.2013 21 Problem 56% Test mit 16 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  21. 21. Andreas Korsus12.09.2013 22 Lösung Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten Kombinationen nur mit Sinn und Verstand testen. Nicht alles, was geht. Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von 5% / 4 = 1,25% (entspricht Signifikanzniveau 98,75%) Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
  22. 22. Andreas Korsus12.09.2013 23 Oder Erst multivariaten Test wie gewohnt durchführen Besten „Kandidaten“ im A/B Test nochmal überprüfen
  23. 23. Andreas Korsus12.09.2013 24 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  24. 24. Andreas Korsus Das wird bestimmt noch positiv! 12.09.2013 25 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  25. 25. Andreas Korsus12.09.2013 26 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja
  26. 26. Andreas Korsus12.09.2013 27 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
  27. 27. Andreas Korsus12.09.2013 28 4. Fehler Wiederholtes Testen Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung zu fällen, jedes Mal ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787
  28. 28. Andreas Korsus12.09.2013 29 Problem 5% Test mit 1 Mal „nachgucken“ Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  29. 29. Andreas Korsus12.09.2013 30 Problem 8,3% Test mit 2 Mal nachgucken* Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren: * Gleicher Zeitabstand zwischen den Auswertungen
  30. 30. Andreas Korsus12.09.2013 31 Problem 14,2% Test mit 5 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  31. 31. Andreas Korsus12.09.2013 32 Problem 24,8% Test mit 20 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  32. 32. Andreas Korsus 53% 12.09.2013 33 Problem Test mit 1000 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  33. 33. Andreas Korsus Diese Funktionen schauen nach jedem Besucher nach! 12.09.2013 34 Problem Test mit 1000 Mal nachgucken
  34. 34. Andreas Korsus12.09.2013 35 Lösung Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch* Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie sich an die Werte! * z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden. Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt Zu niedrig geschätzt: Der Test braucht ewig
  35. 35. Andreas Korsus12.09.2013 36 Lösung Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede zuverlässig sehr früh und kleinere Unterschiede durch eine längere Testdauer zu erkennen Allerdings gibt es (noch) keine einfache Anwendung für die CRO Pläne nach Pocock, O‘Brien Fleming, Alpha- Spending Funktionen, SPRT, Dreieckspläne Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
  36. 36. Andreas Korsus12.09.2013 37 Lösung Beispielplan nach O‘Brien Fleming Führe eine Testdaueranalyse durch und schätze den Uplift konservativ Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch: 1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%
  37. 37. Andreas Korsus12.09.2013 38 Alles in allem Mach keine A/B Split URL Tests in JavaScript- Tools – Starte mit A‘/B Tests! Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus! Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten! Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden. Arbeite methodisch sauber
  38. 38. Andreas Korsus12.09.2013 39 Vielen Dank http://xing.to/korsus http://de.linkedin.com/in/korsus
  39. 39. Andreas Korsus12.09.2013 40 Jeffrey’s Equal-Tailed Intervall R: L <- qbeta( alpha/2, k+1/2, n-k+1/2) U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2) Excel: =BETA.INV(alpha/2;k+1/2;n-k+1/2) =BETA.INV(1-alpha/2;k+1/2;n-k+1/2) k=Anzahl der Conversions, n=Anzahl der Besucher Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×