SlideShare a Scribd company logo
1 of 25
Download to read offline
Eksperymentujemy	
  	
  
po	
  co	
  i	
  jak	
  prowadzić	
  testy	
  A/B	
  	
  
na	
  dużą	
  i	
  małą	
  skalę	
  	
  
Radosław	
  Kita	
  
Warszawa,	
  2015-­‐10-­‐06	
  
1	
  
Właściwie	
  po	
  co	
  te	
  testy?	
  
•  Przecież	
  wszyscy….	
  
•  Ludzie	
  zazwyczaj…	
  
•  Nikt	
  rozsądny…	
  
•  Moje	
  dziecko	
  to	
  zawsze…	
  
•  Jak	
  mam	
  coś	
  znaleźć,	
  to	
  robię	
  to	
  tak…	
  
•  Nie,	
  nie,	
  nie.	
  To	
  się	
  nie	
  sprawdzi.	
  W	
  trzewiach	
  to	
  czuję.	
  
	
  
2	
  
Właściwie	
  po	
  co	
  te	
  testy?	
  
•  Zróbmy	
  ankietę	
  
•  Pokażmy	
  ekspertom	
  makietę	
  
•  Zróbmy	
  badanie	
  fokusowe	
  
„Pozwólmy	
  naszym	
  ideom	
  umierać	
  za	
  nas”	
  Karl	
  Popper	
  
	
  
„Data	
  driven	
  company”	
  
	
  
3	
  
Co	
  testujemy?	
  
Wszystko	
  J	
  
	
  
Nie	
  no	
  serio,	
  prawie	
  wszystko	
  J	
  
•  Efektywność	
  systemów	
  
rekomendacji	
  
•  Efektywność	
  algorytmów	
  
wyszukiwania	
  
•  Zmiany	
  w	
  budowie	
  stron	
  
•  Zmiany	
  w	
  aplikacjach	
  
•  Każdą	
  nową	
  funkcjonalność	
  
4	
  
Jak	
  to	
  działa?	
  
1.  Definicja	
  testu	
  
2.  Plan	
  eksperymentalny	
  
3.  Podział	
  na	
  grupy	
  
4.  Zebranie	
  danych	
  
5.  Dobór	
  statystyki	
  
6.  Od	
  testu	
  do	
  wdrożenia	
  na	
  całym	
  serwisie	
  
7.  Dużo	
  jednoczesnych	
  testów	
  -­‐>	
  kiedy	
  uruchomić	
  kolejny	
  
Czyli	
  trochę	
  wyzwań:	
  od	
  technologicznych	
  poprzez	
  
programistyczne	
  aż	
  po	
  statystyczne.	
  
5	
  
Definicja	
  testu	
  
6	
  
•  Osoba	
  definiująca	
  test	
  musi	
  mieć	
  dostęp	
  do	
  graficznego	
  interface.	
  
•  Musimy	
  przekazać	
  dalej	
  definicję	
  której	
  funkcjonalności	
  dotyczy	
  
eksperyment	
  –	
  identyfikowanie	
  użytkowników,	
  którzy	
  rzeczywiście	
  mieli	
  
kontakt	
  z	
  naszą	
  funkcjonalnością.	
  
•  Co	
  jeśli	
  trzeba	
  przewinąć	
  ekran	
  albo	
  rozklikać	
  jakieś	
  menu?	
  
	
  
Definicja	
  testu	
  
7	
  
Miara	
  sukcesu:	
  
•  Przychodowość	
  –	
  wiadomo	
  J	
  
•  Ilość	
  kliknięć?	
  
•  Jednorodność	
  koszyka	
  zakupowego?	
  
•  Długość	
  ścieżki	
  zakupowej?	
  
•  Aktywizacja	
  nowych	
  użytkowników?	
  
•  …	
  
	
  
Definicja	
  testu	
  
8	
  
Co	
  porównujemy:	
  
•  Średnia?	
  
•  Mediana?	
  
•  75	
  centyl/percentyl?	
  
•  …	
  
	
  
Plan	
  eksperymentalny	
  
Użytkownicy	
  
Grupa	
  
testowa	
  
Grupa	
  
kontrolna	
  
9	
  
Początek	
  
pomiaru	
  
Koniec	
  
pomiaru	
  
Początek	
  
pomiaru	
  
Koniec	
  
pomiaru	
  
Plan	
  eksperymentalny	
  
10	
  
Tak	
  to	
  działa	
  przy	
  jednym	
  pomiarze.	
  	
  
Co	
  jeśli	
  dwa	
  lub	
  więcej?	
  Szczególnie	
  jeśli	
  pomiar	
  
odbywa	
  się	
  w	
  jawny	
  dla	
  użytkownika	
  sposób.	
  
Np.	
  zmiana	
  świadomości	
  marki	
  wskutek	
  
kontaktu	
  z	
  reklamą.	
  
	
  
Plan	
  eksperymentalny	
  
11	
  
Grupa	
  kontrolna	
  1	
  
Drugi	
  
pomiar	
  
Pierwszy	
  
pomiar	
  
Grupa	
  kontrolna	
  2	
  
Drugi	
  
pomiar	
  
Grupa	
  testowa	
  1	
  
Drugi	
  
pomiar	
  
Pierwszy	
  
pomiar	
  
Grupa	
  testowa	
  2	
  
Drugi	
  
pomiar	
  
Podział	
  na	
  grupy	
  
1.  Losowy	
  
2.  Rozłączność	
  grup	
  w	
  obrębie	
  eksperymentu	
  
3.  Rozłączność	
  grup	
  między	
  eksperymentami	
  –	
  o	
  ile	
  to	
  
konieczne	
  (eksperymenty	
  dotyczą	
  tego	
  samego	
  elementu	
  lub	
  
mogą	
  na	
  siebie	
  wpływać)	
  
12	
  
Podział	
  na	
  grupy	
  -­‐	
  wyzwania	
  
Losowość:	
  każdy	
  z	
  użytkowników	
  powinien	
  mieć	
  jednakowe	
  
prawdopodobieństwo	
  znalezienia	
  się	
  w	
  grupie.	
  
Dwa	
  możliwe	
  podejścia:	
  
1.  Dzielimy	
  on-­‐line	
  w	
  miarę	
  jak	
  się	
  pojawiają	
  –	
  
nadreprezentacja	
  bardziej	
  aktywnych	
  
2.  Dzielimy	
  off-­‐line	
  przed	
  eksperymentem	
  na	
  podstawie	
  bazy	
  
danych	
  –	
  nie	
  wiemy	
  kiedy	
  kolejny	
  raz	
  się	
  pojawią	
  i	
  czy	
  w	
  
ogóle	
  się	
  pojawią,	
  eksperyment	
  nie	
  może	
  trwać	
  dowolnie	
  
długo	
  
13	
  
Podział	
  na	
  grupy	
  -­‐	
  wyzwania	
  
Kilka	
  sposobów	
  identyfikacji	
  użytkownika:	
  
1.  cookie	
  
2.  zarejestrowani	
  użytkownicy	
  
3.  identyfikatory	
  w	
  aplikacjach	
  mobilnych	
  
Rozłączność!!	
  Tak,	
  tak.	
  Nie	
  zważając	
  na	
  to,	
  że	
  jeden	
  użytkownik	
  
może	
  się	
  ukrywać	
  pod	
  kilkoma	
  identyfikatorami.	
  
14	
  
Podział	
  na	
  grupy	
  -­‐	
  wyzwania	
  
Czasem	
  trzeba	
  sprawdzić	
  dodatkowe	
  warunki:	
  
•  położenie	
  geograficzne	
  
•  profil	
  demograficzny	
  
•  dotychczasową	
  historię	
  zakupów	
  
Szybkość!!	
  
Czyli	
  Spark	
  i	
  filtry	
  Blooma	
  J	
  
	
  
15	
  
Zebranie	
  danych	
  
16	
  
Dobór	
  statystyki	
  
17	
  
W	
  statystyce	
  musimy	
  
sobie	
  odpowiedzieć	
  
na	
  jedno	
  zasadnicze	
  
pytanie…	
  
Dobór	
  statystyki	
  
18	
  
No	
  może	
  nieco	
  więcej	
  niż	
  jedno	
  J	
  
1.  Czy	
  próby	
  są	
  od	
  siebie	
  zależne	
  czy	
  niezależne?	
  
Dobór	
  statystyki	
  
19	
  
I	
  jeszcze	
  jedno	
  J	
  
2.  Ile	
  mam	
  grup?	
  
Dobór	
  statystyki	
  
20	
  
I	
  jeszcze	
  J	
  
3.  Na	
  jakiej	
  skali	
  pomiarowej	
  jest	
  zmienna	
  
zależna?	
  
(nominalna,	
  porządkowa,	
  interwałowa,	
  ilorazowa)	
  
Dobór	
  statystyki	
  
21	
  
I	
  jeszcze	
  J	
  
4.  Czy	
  rozkład	
  zmiennej	
  zależnej	
  jest	
  normalny?	
  
Witamy	
  w	
  świecie	
  rozkładów	
  prawoskośnych	
  
Dobór	
  statystyki	
  
22	
  
I	
  tak	
  znaleźliśmy	
  się	
  w	
  świecie	
  statystyk	
  
nieparametrycznych.	
  
	
  
Tak,	
  macie	
  rację.	
  Nie	
  uczyli	
  o	
  tym	
  zbyt	
  wiele	
  na	
  studiach	
  
J	
  
Test	
  Manna-­‐Whitneya	
  
Test	
  Kołmogorowa-­‐Smirnowa	
  
Test	
  Kruskala-­‐Wallisa	
  
Od	
  testu	
  do	
  wdrożenia	
  na	
  całym	
  
serwisie	
  
Dobra	
  praktyka	
  –	
  przełączamy	
  małymi	
  grupkami	
  
(np.:	
  po	
  5%	
  dziennie)	
  i	
  obserwujemy.	
  
23	
  
Dużo	
  jednoczesnych	
  testów	
  -­‐>	
  kiedy	
  
uruchomić	
  kolejny	
  
Id	
  
testu	
  
Początek	
  testu	
   Koniec	
  testu	
  
1	
   2015-­‐01-­‐01	
  00:00:00	
   2015-­‐11-­‐30	
  23:59:59	
  
2	
   2015-­‐07-­‐01	
  00:00:00	
   2015-­‐12-­‐31	
  23:59:59	
  
3	
   2015-­‐06-­‐20	
  14:21:00	
   2015-­‐10-­‐20	
  15:29:59	
  
4	
   2015-­‐10-­‐03	
  12:00:00	
   2015-­‐10-­‐31	
  11:59:59	
  
…	
   …	
   …	
  
24	
  
Wskaż	
  optymalny	
  moment	
  do	
  przeprowadzenia	
  testu,	
  który	
  ma	
  
trwać	
  dwa	
  tygodnie.	
  Ma	
  się	
  pokrywać	
  z	
  jak	
  najmniejszą	
  ilością	
  
zaplanowanych	
  testów.	
  
Złożoność	
  wielomianowa	
  mile	
  widziana.	
  
Dziękuję	
  za	
  uwagę.	
  
radoslaw.kita@allegrogroup.com	
  
	
   25	
  

More Related Content

Similar to Meetup 1 eksperymentujemy_na_duza_skale_rkita

Similar to Meetup 1 eksperymentujemy_na_duza_skale_rkita (20)

Magiczna liczba użytkowników
Magiczna liczba użytkownikówMagiczna liczba użytkowników
Magiczna liczba użytkowników
 
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań PollsterReaktor Opinii - Panel Badawczy Instytutu Badań Pollster
Reaktor Opinii - Panel Badawczy Instytutu Badań Pollster
 
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań PollsterReaktor Opinii - panel badawczy Instytutu Badań Pollster
Reaktor Opinii - panel badawczy Instytutu Badań Pollster
 
Zwinny powrot do sprzedazy
Zwinny powrot do sprzedazyZwinny powrot do sprzedazy
Zwinny powrot do sprzedazy
 
(Nie)wiarygodne obserwacje praktyków UX – o głupich błędach w interpretacji w...
(Nie)wiarygodne obserwacje praktyków UX – o głupich błędach w interpretacji w...(Nie)wiarygodne obserwacje praktyków UX – o głupich błędach w interpretacji w...
(Nie)wiarygodne obserwacje praktyków UX – o głupich błędach w interpretacji w...
 
2010.09 Badania użyteczności online
2010.09 Badania użyteczności online2010.09 Badania użyteczności online
2010.09 Badania użyteczności online
 
2018 InnoShare - Lean Startup - slides
2018 InnoShare - Lean Startup - slides2018 InnoShare - Lean Startup - slides
2018 InnoShare - Lean Startup - slides
 
Testowanie hipotez zawartych w modelu biznesowym startupu
Testowanie hipotez zawartych w modelu biznesowym startupuTestowanie hipotez zawartych w modelu biznesowym startupu
Testowanie hipotez zawartych w modelu biznesowym startupu
 
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowychWUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
WUD 2009 - Różne sposoby badania użyteczności w społecznościach internetowych
 
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
Metodologia badań psychologicznych - zajęcia 3 - eksperyment, badanie korelac...
 
Wycena metodą CVM - cz.2
Wycena metodą CVM - cz.2Wycena metodą CVM - cz.2
Wycena metodą CVM - cz.2
 
Po co komu psychometria?
Po co komu psychometria?Po co komu psychometria?
Po co komu psychometria?
 
Dlaczego moj sklep sprzeda wiecej?
Dlaczego moj sklep sprzeda wiecej?Dlaczego moj sklep sprzeda wiecej?
Dlaczego moj sklep sprzeda wiecej?
 
Konferencja e-commerce 2007 Dlaczego Moj Sklep Sprzeda Wiecej Tomasz Karwatka...
Konferencja e-commerce 2007 Dlaczego Moj Sklep Sprzeda Wiecej Tomasz Karwatka...Konferencja e-commerce 2007 Dlaczego Moj Sklep Sprzeda Wiecej Tomasz Karwatka...
Konferencja e-commerce 2007 Dlaczego Moj Sklep Sprzeda Wiecej Tomasz Karwatka...
 
Lean Startup - InnoShare 2016 - Prezentacja
Lean Startup - InnoShare 2016 - PrezentacjaLean Startup - InnoShare 2016 - Prezentacja
Lean Startup - InnoShare 2016 - Prezentacja
 
4Developers 2018: Unit testing - introduction (Marek Kawczyński)
4Developers 2018: Unit testing - introduction (Marek Kawczyński)4Developers 2018: Unit testing - introduction (Marek Kawczyński)
4Developers 2018: Unit testing - introduction (Marek Kawczyński)
 
Próba statystyczna i dobór próby
Próba statystyczna i dobór próbyPróba statystyczna i dobór próby
Próba statystyczna i dobór próby
 
Definicja problemu i proces badawczy
Definicja problemu i proces badawczyDefinicja problemu i proces badawczy
Definicja problemu i proces badawczy
 
Testowanie w parach - Testwarez 2016
Testowanie w parach - Testwarez 2016Testowanie w parach - Testwarez 2016
Testowanie w parach - Testwarez 2016
 
Rola ankiet w badaniach marketingowych. Zasadniczy wpływ internetu
Rola ankiet w badaniach marketingowych. Zasadniczy wpływ internetuRola ankiet w badaniach marketingowych. Zasadniczy wpływ internetu
Rola ankiet w badaniach marketingowych. Zasadniczy wpływ internetu
 

Meetup 1 eksperymentujemy_na_duza_skale_rkita

  • 1. Eksperymentujemy     po  co  i  jak  prowadzić  testy  A/B     na  dużą  i  małą  skalę     Radosław  Kita   Warszawa,  2015-­‐10-­‐06   1  
  • 2. Właściwie  po  co  te  testy?   •  Przecież  wszyscy….   •  Ludzie  zazwyczaj…   •  Nikt  rozsądny…   •  Moje  dziecko  to  zawsze…   •  Jak  mam  coś  znaleźć,  to  robię  to  tak…   •  Nie,  nie,  nie.  To  się  nie  sprawdzi.  W  trzewiach  to  czuję.     2  
  • 3. Właściwie  po  co  te  testy?   •  Zróbmy  ankietę   •  Pokażmy  ekspertom  makietę   •  Zróbmy  badanie  fokusowe   „Pozwólmy  naszym  ideom  umierać  za  nas”  Karl  Popper     „Data  driven  company”     3  
  • 4. Co  testujemy?   Wszystko  J     Nie  no  serio,  prawie  wszystko  J   •  Efektywność  systemów   rekomendacji   •  Efektywność  algorytmów   wyszukiwania   •  Zmiany  w  budowie  stron   •  Zmiany  w  aplikacjach   •  Każdą  nową  funkcjonalność   4  
  • 5. Jak  to  działa?   1.  Definicja  testu   2.  Plan  eksperymentalny   3.  Podział  na  grupy   4.  Zebranie  danych   5.  Dobór  statystyki   6.  Od  testu  do  wdrożenia  na  całym  serwisie   7.  Dużo  jednoczesnych  testów  -­‐>  kiedy  uruchomić  kolejny   Czyli  trochę  wyzwań:  od  technologicznych  poprzez   programistyczne  aż  po  statystyczne.   5  
  • 6. Definicja  testu   6   •  Osoba  definiująca  test  musi  mieć  dostęp  do  graficznego  interface.   •  Musimy  przekazać  dalej  definicję  której  funkcjonalności  dotyczy   eksperyment  –  identyfikowanie  użytkowników,  którzy  rzeczywiście  mieli   kontakt  z  naszą  funkcjonalnością.   •  Co  jeśli  trzeba  przewinąć  ekran  albo  rozklikać  jakieś  menu?    
  • 7. Definicja  testu   7   Miara  sukcesu:   •  Przychodowość  –  wiadomo  J   •  Ilość  kliknięć?   •  Jednorodność  koszyka  zakupowego?   •  Długość  ścieżki  zakupowej?   •  Aktywizacja  nowych  użytkowników?   •  …    
  • 8. Definicja  testu   8   Co  porównujemy:   •  Średnia?   •  Mediana?   •  75  centyl/percentyl?   •  …    
  • 9. Plan  eksperymentalny   Użytkownicy   Grupa   testowa   Grupa   kontrolna   9   Początek   pomiaru   Koniec   pomiaru   Początek   pomiaru   Koniec   pomiaru  
  • 10. Plan  eksperymentalny   10   Tak  to  działa  przy  jednym  pomiarze.     Co  jeśli  dwa  lub  więcej?  Szczególnie  jeśli  pomiar   odbywa  się  w  jawny  dla  użytkownika  sposób.   Np.  zmiana  świadomości  marki  wskutek   kontaktu  z  reklamą.    
  • 11. Plan  eksperymentalny   11   Grupa  kontrolna  1   Drugi   pomiar   Pierwszy   pomiar   Grupa  kontrolna  2   Drugi   pomiar   Grupa  testowa  1   Drugi   pomiar   Pierwszy   pomiar   Grupa  testowa  2   Drugi   pomiar  
  • 12. Podział  na  grupy   1.  Losowy   2.  Rozłączność  grup  w  obrębie  eksperymentu   3.  Rozłączność  grup  między  eksperymentami  –  o  ile  to   konieczne  (eksperymenty  dotyczą  tego  samego  elementu  lub   mogą  na  siebie  wpływać)   12  
  • 13. Podział  na  grupy  -­‐  wyzwania   Losowość:  każdy  z  użytkowników  powinien  mieć  jednakowe   prawdopodobieństwo  znalezienia  się  w  grupie.   Dwa  możliwe  podejścia:   1.  Dzielimy  on-­‐line  w  miarę  jak  się  pojawiają  –   nadreprezentacja  bardziej  aktywnych   2.  Dzielimy  off-­‐line  przed  eksperymentem  na  podstawie  bazy   danych  –  nie  wiemy  kiedy  kolejny  raz  się  pojawią  i  czy  w   ogóle  się  pojawią,  eksperyment  nie  może  trwać  dowolnie   długo   13  
  • 14. Podział  na  grupy  -­‐  wyzwania   Kilka  sposobów  identyfikacji  użytkownika:   1.  cookie   2.  zarejestrowani  użytkownicy   3.  identyfikatory  w  aplikacjach  mobilnych   Rozłączność!!  Tak,  tak.  Nie  zważając  na  to,  że  jeden  użytkownik   może  się  ukrywać  pod  kilkoma  identyfikatorami.   14  
  • 15. Podział  na  grupy  -­‐  wyzwania   Czasem  trzeba  sprawdzić  dodatkowe  warunki:   •  położenie  geograficzne   •  profil  demograficzny   •  dotychczasową  historię  zakupów   Szybkość!!   Czyli  Spark  i  filtry  Blooma  J     15  
  • 17. Dobór  statystyki   17   W  statystyce  musimy   sobie  odpowiedzieć   na  jedno  zasadnicze   pytanie…  
  • 18. Dobór  statystyki   18   No  może  nieco  więcej  niż  jedno  J   1.  Czy  próby  są  od  siebie  zależne  czy  niezależne?  
  • 19. Dobór  statystyki   19   I  jeszcze  jedno  J   2.  Ile  mam  grup?  
  • 20. Dobór  statystyki   20   I  jeszcze  J   3.  Na  jakiej  skali  pomiarowej  jest  zmienna   zależna?   (nominalna,  porządkowa,  interwałowa,  ilorazowa)  
  • 21. Dobór  statystyki   21   I  jeszcze  J   4.  Czy  rozkład  zmiennej  zależnej  jest  normalny?   Witamy  w  świecie  rozkładów  prawoskośnych  
  • 22. Dobór  statystyki   22   I  tak  znaleźliśmy  się  w  świecie  statystyk   nieparametrycznych.     Tak,  macie  rację.  Nie  uczyli  o  tym  zbyt  wiele  na  studiach   J   Test  Manna-­‐Whitneya   Test  Kołmogorowa-­‐Smirnowa   Test  Kruskala-­‐Wallisa  
  • 23. Od  testu  do  wdrożenia  na  całym   serwisie   Dobra  praktyka  –  przełączamy  małymi  grupkami   (np.:  po  5%  dziennie)  i  obserwujemy.   23  
  • 24. Dużo  jednoczesnych  testów  -­‐>  kiedy   uruchomić  kolejny   Id   testu   Początek  testu   Koniec  testu   1   2015-­‐01-­‐01  00:00:00   2015-­‐11-­‐30  23:59:59   2   2015-­‐07-­‐01  00:00:00   2015-­‐12-­‐31  23:59:59   3   2015-­‐06-­‐20  14:21:00   2015-­‐10-­‐20  15:29:59   4   2015-­‐10-­‐03  12:00:00   2015-­‐10-­‐31  11:59:59   …   …   …   24   Wskaż  optymalny  moment  do  przeprowadzenia  testu,  który  ma   trwać  dwa  tygodnie.  Ma  się  pokrywać  z  jak  najmniejszą  ilością   zaplanowanych  testów.   Złożoność  wielomianowa  mile  widziana.  
  • 25. Dziękuję  za  uwagę.   radoslaw.kita@allegrogroup.com     25