денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию

Культура A/B
тестов

,1

Что бывает
• "Ну я же говорил"

• "Вот, надо было делать так как я сказал"

• "А давайте попробуем вот это, а это
пробовать не будем?"

• "Я точно знаю что нужно именно так"

Или же просто упёрлись: какие ещё сделать фичи – не
знаем, но конверсию растить надо.
,2

Что такое A/B?
• Части аудитории показываем одно, части -
другое (в нашем случае - "новое" и "старое")

• Считаем показатели - конверсию, клики и
т.п.

• Выбираем то, что имеет лучшие показатели
– те, которые нам интересны.

,3

А также

А если нечего выбирать? Тогда либо ждём
ещё, либо выбираем то, что больше нравится.

Если что – то я не настоящий сварщик, и я часто просто знаю где можно посмотреть.

,4

Математика
• На самом деле, правильный A/B тест показывает что "с
такой-то вероятностью вариант А работает на Х% лучше
чем вариант B"

• Но часто на это забивают - считают например CTR при
небольшом количестве попыток. Ну и ладно ))

• Есть формулы, всё это растёт из статистики. Например,
для того чтобы с 80% вероятностью увидеть изменение
на 5 и более процентов - нужно порядка 1200 измерений.

• Да, чем больше экспериментов – тем лучше результат.

,5

Культура
Правило: каждое изменение на сайте должно
проходить через A/B тест. То есть надо
сравнивать показатели "с фичей" и "без фичи"

Да, любое новое на сайте должно внедряться
только после AB теста.

На самом деле – втаскивать культуру долго и нудно.
Но оно этого стоит.

,6

Что это даёт
• Мы знаем в количественных мерках что даёт
то или иное изменение. То есть -
перекрашивание кнопки из красной в
зелёную дало 5% уменьшения продаж

• И это знание стоит достаточно дорого

,7

Например
• "Петя сделал вот эту хрень и у нас продажи
поднялись на 2%". (Или не поднялись.)

• Благодаря X, Y и Z мы выросли на такие-то
показатели. А благодаря своевременному
выключению A, B, и С - не упали.

,8

И неожиданно
• "Товарищ продакт, вот тебе два макета, я не знаю
какой лучше"

• "-А можно я сделаю вот эту хрень, это же круто? -
Можно, вот тебе 10% аудитории на опыты"

• Т.к. умеем измерять – то порог "go" на фичи
становится ниже: если не будет работать, то
просто выкинем, и всё.

• Да, работаем медленнее, но результаты осязаемее.

,9

Ещё математика
• Разные эксперименты влияют друг на друга. То есть
лучше одному пользователю показывать _только_
один эксперимент. Но правда трафика на это не
напасёшься.

• Лучше измерять всю воронку - часто бывает что
показатели второго шага сильно проседают, а
третьего – очень сильно вырастают. И наоборот ))

• Первые дни статистика разъезжается, нельзя
смотреть на "45% увеличения", если уровень доверия
маленький.

,10

Что делать
• Отдельный каталог всех AB тестов – идущих
и прошедших (Это, на самом деле,
достаточно муторная работа. Зато мы знаем
что заработало, что не заработало - с
картинками и цифрами.)

• Отдельная страница со всеми пожеланиями.
Начиная от "давайте перекрасим кнопку" и
заканчивая бизнес фичами. Бизнес фичи -
нужны для планирования.

И отдельная роль, которая за этим следит.
,11

Что делать
• Регулярное ревью списка задач - постановка в план на
разработку

• Регулярные ревью результатов - с публичными
результатами (письмо на all@ например)

• Результаты и прогресс должны быть публичными,
простыми для понимания и легко доступными (впрочем,
это вообще можно сказать про многое)

• Привязывание достижений в цифрах к результатам
работы сотрудников. Хотя бы просто как "Спасибо Пете
за 2% к конверсии".

,12

Что сложного
• Не все понимают что это важно. Вообще, кажется это
вопрос веры.

• Сделать два лендинга в полтора-два раза сложнее чем
сделать один лендинг.

• Кто-то зажигается, кто-то нет.

• Статистика сложная, результатов много

• Результата надо ждать.

• В коде появляется куча if'ов, надо не забывать вычищать.

,13

Инструментарий
• Django-lean, например, нам не подошёл.

• Инструмент должен быть простой для пользования: можно легко
посмотреть статистику, можно легко посмотреть на текущие
эксперименты, можно посмотреть как выглядит каждый
эксперимент.

• Нужно чтобы весь тест мог быть сделан одним
программистом.

• Данных - много. Особенно если считать показатели воронки.
Инструмент должен уметь это переваривать.

• Отдельные задачи на изготовление фичи, отдельные на убирание
или на оставление.

Скорее всего - один FTE только на инструментарий.
,14

Инструментарий
• Есть какие-то тулзы, бесплатные, дешёвые и не очень
дешёвые – но всё равно пришлось писать своё.

• Гугловый инструмент годится чтобы менять тексты на
лендингах (т.е. это целиком для клиентской части).

• Хотя известны компании, которые AB тесты ведут в
Google Analytics.

• У букинг.ком список клиентских тестов с
выразительными названиями зашит в js плейнтекстом
))

,15

Что можно измерять
• Баннеры с блондинками vs баннеры с
брюнетками. Два разных телефона - на какой
больше звонят. Блондинки лучше.

• Страницы лендингов – "а давайте подвинем эту
фигнюшку на два пикселя правее и посмотрим
как это повлияет". (Ну, если полгода подождать)

• "Пользователи, которые видели Х - как влияет
это на результат"

,16

Что конкретно
• Поставить счётчики на каждый шаг в воронке.

• Когда человек проходит этот шаг воронки и
он участвует в определённом эксперименте –
начинать считать его действия дальше в
воронке. (Т.е. не путать на втором шаге
воронки людей, пришедших с лендинга и
людей пришедших с первого шага)

• Считать сессии, а не людей.

,17

Из опыта
• Дизайнеры перестали спорить.
• Дизайнеры начали приносить по два макета.
• Разработчики начали придумывать и делать тесты сами
• Увеличился порог толерантности к глупым пожеланиям –
можно сделать и посмотреть, а вдруг?
• Нет больше "А я же говорил". (Ну, кроме откровенно глупых
пожеланий)) )
• Не все зажглись. ((
• Гендиру можно в цифрах доказать что чёрный цвет фона –
гавно ))

,18

Упрощаем
• Забиваем на корелляцию

• Забиваем на "один пользователь – один тест"

• Вся аудитория участвует в тестировании – 50/50

• Верим в 5% улучшения при 80% уверенности

• Тупо считаем конверсию, заказы – ничего
больше.

Зато хоть что-то происходит
,19

Если очень хочется
• Можно считать транзакции в штуках, а можно
в деньгах. А можно - вообще в комиссии.

• Можно заморочиться на канал, откуда
пришёл пользователь и делать отдельные
тесты для отдельных каналов.

• Можно делать ABC тесты и смотреть какой
тест на что влияет – считать корелляцию и
т.п.

,20

Это вера
• И она требует евангелизма.

• Например - мы обязаны сделать Х тестов на каждой
неделе

• Например - каждый раз на продакшене должно
работать Х тестов

• И вообще – веру надо прививать иногда и силой.

• Быстро – не получится, граблей будет много, но это
стоит того, чтобы делать.

,21

Если интересно - 40 минут на почитать:

http://elem.com/~btilly/effective-ab-testing/

Денис Танаев

deetan@gmail.com

А по вопросам тревела - d.tanaev@corp.mail.ru

twitter.com/deetan

+7 903 599 5555

,22

денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию

Similar to денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию (20)

More from PCampRussia

More from PCampRussia (20)

денис танаев (Mail.ru) втаскиваем культуру a-b тестов в организацию