2. Что бывает
• "Ну я же говорил"
• "Вот, надо было делать так как я сказал"
• "А давайте попробуем вот это, а это
пробовать не будем?"
• "Я точно знаю что нужно именно так"
Или же просто упёрлись: какие ещё сделать фичи – не
знаем, но конверсию растить надо.
,2
3. Что такое A/B?
• Части аудитории показываем одно, части -
другое (в нашем случае - "новое" и "старое")
• Считаем показатели - конверсию, клики и
т.п.
• Выбираем то, что имеет лучшие показатели
– те, которые нам интересны.
,3
4. А также
А если нечего выбирать? Тогда либо ждём
ещё, либо выбираем то, что больше нравится.
Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть.
,4
5. Математика
• На самом деле, правильный A/B тест показывает что "с
такой-то вероятностью вариант А работает на Х% лучше
чем вариант B"
• Но часто на это забивают - считают например CTR при
небольшом количестве попыток. Ну и ладно ))
• Есть формулы, всё это растёт из статистики. Например,
для того чтобы с 80% вероятностью увидеть изменение
на 5 и более процентов - нужно порядка 1200 измерений.
• Да, чем больше экспериментов – тем лучше результат.
,5
6. Культура
Правило: каждое изменение на сайте должно
проходить через A/B тест. То есть надо
сравнивать показатели "с фичей" и "без фичи"
Да, любое новое на сайте должно внедряться
только после AB теста.
На самом деле – втаскивать культуру долго и нудно.
Но оно этого стоит.
,6
7. Что это даёт
• Мы знаем в количественных мерках что даёт
то или иное изменение. То есть -
перекрашивание кнопки из красной в
зелёную дало 5% уменьшения продаж
• И это знание стоит достаточно дорого
,7
8. Например
• "Петя сделал вот эту хрень и у нас продажи
поднялись на 2%". (Или не поднялись.)
• Благодаря X, Y и Z мы выросли на такие-то
показатели. А благодаря своевременному
выключению A, B, и С - не упали.
,8
9. И неожиданно
• "Товарищ продакт, вот тебе два макета, я не знаю
какой лучше"
• "-А можно я сделаю вот эту хрень, это же круто? -
Можно, вот тебе 10% аудитории на опыты"
• Т.к. умеем измерять – то порог "go" на фичи
становится ниже: если не будет работать, то
просто выкинем, и всё.
• Да, работаем медленнее, но результаты осязаемее.
,9
10. Ещё математика
• Разные эксперименты влияют друг на друга. То есть
лучше одному пользователю показывать _только_
один эксперимент. Но правда трафика на это не
напасёшься.
• Лучше измерять всю воронку - часто бывает что
показатели второго шага сильно проседают, а
третьего – очень сильно вырастают. И наоборот ))
• Первые дни статистика разъезжается, нельзя
смотреть на "45% увеличения", если уровень доверия
маленький.
,10
11. Что делать
• Отдельный каталог всех AB тестов – идущих
и прошедших (Это, на самом деле,
достаточно муторная работа. Зато мы знаем
что заработало, что не заработало - с
картинками и цифрами.)
• Отдельная страница со всеми пожеланиями.
Начиная от "давайте перекрасим кнопку" и
заканчивая бизнес фичами. Бизнес фичи -
нужны для планирования.
И отдельная роль, которая за этим следит.
,11
12. Что делать
• Регулярное ревью списка задач - постановка в план на
разработку
• Регулярные ревью результатов - с публичными
результатами (письмо на all@ например)
• Результаты и прогресс должны быть публичными,
простыми для понимания и легко доступными (впрочем,
это вообще можно сказать про многое)
• Привязывание достижений в цифрах к результатам
работы сотрудников. Хотя бы просто как "Спасибо Пете
за 2% к конверсии".
,12
13. Что сложного
• Не все понимают что это важно. Вообще, кажется это
вопрос веры.
• Сделать два лендинга в полтора-два раза сложнее чем
сделать один лендинг.
• Кто-то зажигается, кто-то нет.
• Статистика сложная, результатов много
• Результата надо ждать.
• В коде появляется куча if'ов, надо не забывать вычищать.
,13
14. Инструментарий
• Django-lean, например, нам не подошёл.
• Инструмент должен быть простой для пользования: можно легко
посмотреть статистику, можно легко посмотреть на текущие
эксперименты, можно посмотреть как выглядит каждый
эксперимент.
• Нужно чтобы весь тест мог быть сделан одним
программистом.
• Данных - много. Особенно если считать показатели воронки.
Инструмент должен уметь это переваривать.
• Отдельные задачи на изготовление фичи, отдельные на убирание
или на оставление.
Скорее всего - один FTE только на инструментарий.
,14
15. Инструментарий
• Есть какие-то тулзы, бесплатные, дешёвые и не очень
дешёвые – но всё равно пришлось писать своё.
• Гугловый инструмент годится чтобы менять тексты на
лендингах (т.е. это целиком для клиентской части).
• Хотя известны компании, которые AB тесты ведут в
Google Analytics.
• У букинг.ком список клиентских тестов с
выразительными названиями зашит в js плейнтекстом
))
,15
16. Что можно измерять
• Баннеры с блондинками vs баннеры с
брюнетками. Два разных телефона - на какой
больше звонят. Блондинки лучше.
• Страницы лендингов – "а давайте подвинем эту
фигнюшку на два пикселя правее и посмотрим
как это повлияет". (Ну, если полгода подождать)
• "Пользователи, которые видели Х - как влияет
это на результат"
,16
17. Что конкретно
• Поставить счётчики на каждый шаг в воронке.
• Когда человек проходит этот шаг воронки и
он участвует в определённом эксперименте –
начинать считать его действия дальше в
воронке. (Т.е. не путать на втором шаге
воронки людей, пришедших с лендинга и
людей пришедших с первого шага)
• Считать сессии, а не людей.
,17
18. Из опыта
• Дизайнеры перестали спорить.
• Дизайнеры начали приносить по два макета.
• Разработчики начали придумывать и делать тесты сами
• Увеличился порог толерантности к глупым пожеланиям –
можно сделать и посмотреть, а вдруг?
• Нет больше "А я же говорил". (Ну, кроме откровенно глупых
пожеланий)) )
• Не все зажглись. ((
• Гендиру можно в цифрах доказать что чёрный цвет фона –
гавно ))
,18
19. Упрощаем
• Забиваем на корелляцию
• Забиваем на "один пользователь – один тест"
• Вся аудитория участвует в тестировании – 50/50
• Верим в 5% улучшения при 80% уверенности
• Тупо считаем конверсию, заказы – ничего
больше.
Зато хоть что-то происходит
,19
20. Если очень хочется
• Можно считать транзакции в штуках, а можно
в деньгах. А можно - вообще в комиссии.
• Можно заморочиться на канал, откуда
пришёл пользователь и делать отдельные
тесты для отдельных каналов.
• Можно делать ABC тесты и смотреть какой
тест на что влияет – считать корелляцию и
т.п.
,20
21. Это вера
• И она требует евангелизма.
• Например - мы обязаны сделать Х тестов на каждой
неделе
• Например - каждый раз на продакшене должно
работать Х тестов
• И вообще – веру надо прививать иногда и силой.
• Быстро – не получится, граблей будет много, но это
стоит того, чтобы делать.
,21
22. Если интересно - 40 минут на почитать:
http://elem.com/~btilly/effective-ab-testing/
Денис Танаев
deetan@gmail.com
А по вопросам тревела - d.tanaev@corp.mail.ru
twitter.com/deetan
+7 903 599 5555
,22