Культура A/B
   тестов


     ,1
Что бывает
   • "Ну я же говорил"

   • "Вот, надо было делать так как я сказал"

   • "А давайте попробуем вот это, а это
     пробовать не будем?"

   • "Я точно знаю что нужно именно так"


Или же просто упёрлись: какие ещё сделать фичи – не
         знаем, но конверсию растить надо.
                         ,2
Что такое A/B?
• Части аудитории показываем одно, части -
  другое (в нашем случае - "новое" и "старое")

• Считаем показатели - конверсию, клики и
  т.п.

• Выбираем то, что имеет лучшие показатели
  – те, которые нам интересны.


                       ,3
А также

А если нечего выбирать? Тогда либо ждём
ещё, либо выбираем то, что больше нравится.



  Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть.




                                         ,4
Математика
• На самом деле, правильный A/B тест показывает что "с
  такой-то вероятностью вариант А работает на Х% лучше
  чем вариант B"

• Но часто на это забивают - считают например CTR при
  небольшом количестве попыток. Ну и ладно ))

• Есть формулы, всё это растёт из статистики. Например,
  для того чтобы с 80% вероятностью увидеть изменение
  на 5 и более процентов - нужно порядка 1200 измерений.

• Да, чем больше экспериментов – тем лучше результат.



                           ,5
Культура
 Правило: каждое изменение на сайте должно
 проходить через A/B тест. То есть надо
 сравнивать показатели "с фичей" и "без фичи"

 Да, любое новое на сайте должно внедряться
 только после AB теста.


На самом деле – втаскивать культуру долго и нудно.
               Но оно этого стоит.

                        ,6
Что это даёт
• Мы знаем в количественных мерках что даёт
  то или иное изменение. То есть -
  перекрашивание кнопки из красной в
  зелёную дало 5% уменьшения продаж

• И это знание стоит достаточно дорого




                      ,7
Например
• "Петя сделал вот эту хрень и у нас продажи
  поднялись на 2%". (Или не поднялись.)

• Благодаря X, Y и Z мы выросли на такие-то
  показатели. А благодаря своевременному
  выключению A, B, и С - не упали.




                      ,8
И неожиданно
• "Товарищ продакт, вот тебе два макета, я не знаю
  какой лучше"

• "-А можно я сделаю вот эту хрень, это же круто? -
  Можно, вот тебе 10% аудитории на опыты"

• Т.к. умеем измерять – то порог "go" на фичи
  становится ниже: если не будет работать, то
  просто выкинем, и всё.

• Да, работаем медленнее, но результаты осязаемее.

                          ,9
Ещё математика
• Разные эксперименты влияют друг на друга. То есть
  лучше одному пользователю показывать _только_
  один эксперимент. Но правда трафика на это не
  напасёшься.

• Лучше измерять всю воронку - часто бывает что
  показатели второго шага сильно проседают, а
  третьего – очень сильно вырастают. И наоборот ))

• Первые дни статистика разъезжается, нельзя
  смотреть на "45% увеличения", если уровень доверия
  маленький.


                          ,10
Что делать
• Отдельный каталог всех AB тестов – идущих
  и прошедших (Это, на самом деле,
  достаточно муторная работа. Зато мы знаем
  что заработало, что не заработало - с
  картинками и цифрами.)

• Отдельная страница со всеми пожеланиями.
  Начиная от "давайте перекрасим кнопку" и
  заканчивая бизнес фичами. Бизнес фичи -
  нужны для планирования.

И отдельная роль, которая за этим следит.
                     ,11
Что делать
• Регулярное ревью списка задач - постановка в план на
  разработку

• Регулярные ревью результатов - с публичными
  результатами (письмо на all@ например)

• Результаты и прогресс должны быть публичными,
  простыми для понимания и легко доступными (впрочем,
  это вообще можно сказать про многое)

• Привязывание достижений в цифрах к результатам
  работы сотрудников. Хотя бы просто как "Спасибо Пете
  за 2% к конверсии".


                           ,12
Что сложного
• Не все понимают что это важно. Вообще, кажется это
  вопрос веры.

• Сделать два лендинга в полтора-два раза сложнее чем
  сделать один лендинг.

• Кто-то зажигается, кто-то нет.

• Статистика сложная, результатов много

• Результата надо ждать.

• В коде появляется куча if'ов, надо не забывать вычищать.


                             ,13
Инструментарий
   • Django-lean, например, нам не подошёл.

   • Инструмент должен быть простой для пользования: можно легко
     посмотреть статистику, можно легко посмотреть на текущие
     эксперименты, можно посмотреть как выглядит каждый
     эксперимент.

   • Нужно чтобы весь тест мог быть сделан одним
     программистом.

   • Данных - много. Особенно если считать показатели воронки.
     Инструмент должен уметь это переваривать.

   • Отдельные задачи на изготовление фичи, отдельные на убирание
     или на оставление.


Скорее всего - один FTE только на инструментарий.
                                   ,14
Инструментарий
• Есть какие-то тулзы, бесплатные, дешёвые и не очень
  дешёвые – но всё равно пришлось писать своё.

• Гугловый инструмент годится чтобы менять тексты на
  лендингах (т.е. это целиком для клиентской части).

• Хотя известны компании, которые AB тесты ведут в
  Google Analytics.

• У букинг.ком список клиентских тестов с
  выразительными названиями зашит в js плейнтекстом
  ))


                          ,15
Что можно измерять
• Баннеры с блондинками vs баннеры с
  брюнетками. Два разных телефона - на какой
  больше звонят. Блондинки лучше.

• Страницы лендингов – "а давайте подвинем эту
  фигнюшку на два пикселя правее и посмотрим
  как это повлияет". (Ну, если полгода подождать)

• "Пользователи, которые видели Х - как влияет
  это на результат"



                       ,16
Что конкретно
• Поставить счётчики на каждый шаг в воронке.

• Когда человек проходит этот шаг воронки и
  он участвует в определённом эксперименте –
  начинать считать его действия дальше в
  воронке. (Т.е. не путать на втором шаге
  воронки людей, пришедших с лендинга и
  людей пришедших с первого шага)

• Считать сессии, а не людей.


                      ,17
Из опыта
• Дизайнеры перестали спорить.
• Дизайнеры начали приносить по два макета.
• Разработчики начали придумывать и делать тесты сами
• Увеличился порог толерантности к глупым пожеланиям –
  можно сделать и посмотреть, а вдруг?
• Нет больше "А я же говорил". (Ну, кроме откровенно глупых
  пожеланий)) )
• Не все зажглись. ((
• Гендиру можно в цифрах доказать что чёрный цвет фона –
  гавно ))

                             ,18
Упрощаем
• Забиваем на корелляцию

• Забиваем на "один пользователь – один тест"

• Вся аудитория участвует в тестировании – 50/50

• Верим в 5% улучшения при 80% уверенности

• Тупо считаем конверсию, заказы – ничего
  больше.

          Зато хоть что-то происходит
                       ,19
Если очень хочется
• Можно считать транзакции в штуках, а можно
  в деньгах. А можно - вообще в комиссии.

• Можно заморочиться на канал, откуда
  пришёл пользователь и делать отдельные
  тесты для отдельных каналов.

• Можно делать ABC тесты и смотреть какой
  тест на что влияет – считать корелляцию и
  т.п.


                      ,20
Это вера
• И она требует евангелизма.

• Например - мы обязаны сделать Х тестов на каждой
  неделе

• Например - каждый раз на продакшене должно
  работать Х тестов

• И вообще – веру надо прививать иногда и силой.

• Быстро – не получится, граблей будет много, но это
  стоит того, чтобы делать.


                          ,21
Если интересно - 40 минут на почитать:

  http://elem.com/~btilly/effective-ab-testing/

                        

                 Денис Танаев

              deetan@gmail.com

А по вопросам тревела - d.tanaev@corp.mail.ru

              twitter.com/deetan

               +7 903 599 5555

                       ,22

денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию

  • 1.
    Культура A/B тестов ,1
  • 2.
    Что бывает • "Ну я же говорил" • "Вот, надо было делать так как я сказал" • "А давайте попробуем вот это, а это пробовать не будем?" • "Я точно знаю что нужно именно так" Или же просто упёрлись: какие ещё сделать фичи – не знаем, но конверсию растить надо. ,2
  • 3.
    Что такое A/B? •Части аудитории показываем одно, части - другое (в нашем случае - "новое" и "старое") • Считаем показатели - конверсию, клики и т.п. • Выбираем то, что имеет лучшие показатели – те, которые нам интересны. ,3
  • 4.
    А также А еслинечего выбирать? Тогда либо ждём ещё, либо выбираем то, что больше нравится. Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть. ,4
  • 5.
    Математика • На самомделе, правильный A/B тест показывает что "с такой-то вероятностью вариант А работает на Х% лучше чем вариант B" • Но часто на это забивают - считают например CTR при небольшом количестве попыток. Ну и ладно )) • Есть формулы, всё это растёт из статистики. Например, для того чтобы с 80% вероятностью увидеть изменение на 5 и более процентов - нужно порядка 1200 измерений. • Да, чем больше экспериментов – тем лучше результат. ,5
  • 6.
    Культура Правило: каждоеизменение на сайте должно проходить через A/B тест. То есть надо сравнивать показатели "с фичей" и "без фичи" Да, любое новое на сайте должно внедряться только после AB теста. На самом деле – втаскивать культуру долго и нудно. Но оно этого стоит. ,6
  • 7.
    Что это даёт •Мы знаем в количественных мерках что даёт то или иное изменение. То есть - перекрашивание кнопки из красной в зелёную дало 5% уменьшения продаж • И это знание стоит достаточно дорого ,7
  • 8.
    Например • "Петя сделалвот эту хрень и у нас продажи поднялись на 2%". (Или не поднялись.) • Благодаря X, Y и Z мы выросли на такие-то показатели. А благодаря своевременному выключению A, B, и С - не упали. ,8
  • 9.
    И неожиданно • "Товарищпродакт, вот тебе два макета, я не знаю какой лучше" • "-А можно я сделаю вот эту хрень, это же круто? - Можно, вот тебе 10% аудитории на опыты" • Т.к. умеем измерять – то порог "go" на фичи становится ниже: если не будет работать, то просто выкинем, и всё. • Да, работаем медленнее, но результаты осязаемее. ,9
  • 10.
    Ещё математика • Разныеэксперименты влияют друг на друга. То есть лучше одному пользователю показывать _только_ один эксперимент. Но правда трафика на это не напасёшься. • Лучше измерять всю воронку - часто бывает что показатели второго шага сильно проседают, а третьего – очень сильно вырастают. И наоборот )) • Первые дни статистика разъезжается, нельзя смотреть на "45% увеличения", если уровень доверия маленький. ,10
  • 11.
    Что делать • Отдельныйкаталог всех AB тестов – идущих и прошедших (Это, на самом деле, достаточно муторная работа. Зато мы знаем что заработало, что не заработало - с картинками и цифрами.) • Отдельная страница со всеми пожеланиями. Начиная от "давайте перекрасим кнопку" и заканчивая бизнес фичами. Бизнес фичи - нужны для планирования. И отдельная роль, которая за этим следит. ,11
  • 12.
    Что делать • Регулярноеревью списка задач - постановка в план на разработку • Регулярные ревью результатов - с публичными результатами (письмо на all@ например) • Результаты и прогресс должны быть публичными, простыми для понимания и легко доступными (впрочем, это вообще можно сказать про многое) • Привязывание достижений в цифрах к результатам работы сотрудников. Хотя бы просто как "Спасибо Пете за 2% к конверсии". ,12
  • 13.
    Что сложного • Невсе понимают что это важно. Вообще, кажется это вопрос веры. • Сделать два лендинга в полтора-два раза сложнее чем сделать один лендинг. • Кто-то зажигается, кто-то нет. • Статистика сложная, результатов много • Результата надо ждать. • В коде появляется куча if'ов, надо не забывать вычищать. ,13
  • 14.
    Инструментарий • Django-lean, например, нам не подошёл. • Инструмент должен быть простой для пользования: можно легко посмотреть статистику, можно легко посмотреть на текущие эксперименты, можно посмотреть как выглядит каждый эксперимент. • Нужно чтобы весь тест мог быть сделан одним программистом. • Данных - много. Особенно если считать показатели воронки. Инструмент должен уметь это переваривать. • Отдельные задачи на изготовление фичи, отдельные на убирание или на оставление. Скорее всего - один FTE только на инструментарий. ,14
  • 15.
    Инструментарий • Есть какие-тотулзы, бесплатные, дешёвые и не очень дешёвые – но всё равно пришлось писать своё. • Гугловый инструмент годится чтобы менять тексты на лендингах (т.е. это целиком для клиентской части). • Хотя известны компании, которые AB тесты ведут в Google Analytics. • У букинг.ком список клиентских тестов с выразительными названиями зашит в js плейнтекстом )) ,15
  • 16.
    Что можно измерять •Баннеры с блондинками vs баннеры с брюнетками. Два разных телефона - на какой больше звонят. Блондинки лучше. • Страницы лендингов – "а давайте подвинем эту фигнюшку на два пикселя правее и посмотрим как это повлияет". (Ну, если полгода подождать) • "Пользователи, которые видели Х - как влияет это на результат" ,16
  • 17.
    Что конкретно • Поставитьсчётчики на каждый шаг в воронке. • Когда человек проходит этот шаг воронки и он участвует в определённом эксперименте – начинать считать его действия дальше в воронке. (Т.е. не путать на втором шаге воронки людей, пришедших с лендинга и людей пришедших с первого шага) • Считать сессии, а не людей. ,17
  • 18.
    Из опыта • Дизайнерыперестали спорить. • Дизайнеры начали приносить по два макета. • Разработчики начали придумывать и делать тесты сами • Увеличился порог толерантности к глупым пожеланиям – можно сделать и посмотреть, а вдруг? • Нет больше "А я же говорил". (Ну, кроме откровенно глупых пожеланий)) ) • Не все зажглись. (( • Гендиру можно в цифрах доказать что чёрный цвет фона – гавно )) ,18
  • 19.
    Упрощаем • Забиваем накорелляцию • Забиваем на "один пользователь – один тест" • Вся аудитория участвует в тестировании – 50/50 • Верим в 5% улучшения при 80% уверенности • Тупо считаем конверсию, заказы – ничего больше. Зато хоть что-то происходит ,19
  • 20.
    Если очень хочется •Можно считать транзакции в штуках, а можно в деньгах. А можно - вообще в комиссии. • Можно заморочиться на канал, откуда пришёл пользователь и делать отдельные тесты для отдельных каналов. • Можно делать ABC тесты и смотреть какой тест на что влияет – считать корелляцию и т.п. ,20
  • 21.
    Это вера • Иона требует евангелизма. • Например - мы обязаны сделать Х тестов на каждой неделе • Например - каждый раз на продакшене должно работать Х тестов • И вообще – веру надо прививать иногда и силой. • Быстро – не получится, граблей будет много, но это стоит того, чтобы делать. ,21
  • 22.
    Если интересно -40 минут на почитать: http://elem.com/~btilly/effective-ab-testing/ Денис Танаев deetan@gmail.com А по вопросам тревела - d.tanaev@corp.mail.ru twitter.com/deetan +7 903 599 5555 ,22