Successfully reported this slideshow.
Your SlideShare is downloading. ×

AB-тестирование: на что следует обратить внимание / Артур Маликов (Яндекс)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 27 Ad

AB-тестирование: на что следует обратить внимание / Артур Маликов (Яндекс)

Download to read offline

Основы AB-тестирования, история вопроса. Что необходимо для построения инфраструктуры AB-тестирования? Технические и пользовательские сложности при проведении AB-тестирования. Анализ результатов.

Рассмотрим несколько важных моментов:
- На что обратить внимание при выборе контрольной группы?
- Множественная проверка гипотез.
- Сколько экспериментов может видеть пользователь?

Какие инструменты вам могут понадобиться для проведения и анализа экспериментов?
Разберем несколько поучительных примеров.

Основы AB-тестирования, история вопроса. Что необходимо для построения инфраструктуры AB-тестирования? Технические и пользовательские сложности при проведении AB-тестирования. Анализ результатов.

Рассмотрим несколько важных моментов:
- На что обратить внимание при выборе контрольной группы?
- Множественная проверка гипотез.
- Сколько экспериментов может видеть пользователь?

Какие инструменты вам могут понадобиться для проведения и анализа экспериментов?
Разберем несколько поучительных примеров.

Advertisement
Advertisement

More Related Content

Slideshows for you (15)

Viewers also liked (16)

Advertisement

Similar to AB-тестирование: на что следует обратить внимание / Артур Маликов (Яндекс) (20)

More from Ontico (20)

Advertisement

Recently uploaded (20)

AB-тестирование: на что следует обратить внимание / Артур Маликов (Яндекс)

  1. 1. АБТ: на что следует обратить внимание? Маликов Артур, руководитель группы, Яндекс v7
  2. 2. •Как оценить влияние запуска? •Как избежать типичных ошибок?
  3. 3. Продажи Amazon Kindle
  4. 4. Kindle Is Oprah’s «New Favorite Thing in the World»
  5. 5. Проведение AB-экспериментов в вебе •Контроль и эксперимент идут одновременно •Пользователь не знает, что находится в эксперименте •Нет непосредственного контакта
  6. 6. Сравнить две версии между собой
  7. 7. Реализация •Разбиение на группы • Составление и выкладка конфигурации экспериментов • Логирование факта попадания в эксперимент •Обработка логов, расчет метрик и значимости изменений • Анализ результатов и принятие решения.
  8. 8. Разбиение на группы •Случайное разбиение •Варианты разбиения: • По пользователям (куки) • По запросам •Минимальный размер выборки (слот) • Репрезентативность •Как часто перемешивать группы? • Каждые N часов • По окончании эксперимента
  9. 9. Метрики •Типы метрик •Примеры метрик • Число запросов • Время до первого клика • Доля запросов без кликов • Число сессий на пользователя •Границы применимости
  10. 10. Матчасть •A vs B (“контроль” и “эксперимент”) •M(X) – случайная величина •diff = M(A)-M(B) •diff значима? •diff = эффект воздействия изменения + случайность •Для измерения эффекта используем статистические тесты
  11. 11. Анализ результатов
  12. 12. Метрики •Валидация метрик •Регламент приемки
  13. 13. АБТ: Важные моменты
  14. 14. До запуска эксперимента •Длительность задается заранее •Выписать ожидания и критерий приемки
  15. 15. Контрольная группа •Каждому эксперименту свой контроль? • Для серии экспериментов – нет • Для разных экспериментов – да •Контроль и эксперимент равных объемов?
  16. 16. Некоторые особенности интерфейсных экспериментов •Пользователь должен привыкнуть •Расчет результатов по определенным пользователям •Изменение поведенческих привычек
  17. 17. Поисковая выдача
  18. 18. Сколько экспериментов может видеть пользователь? Control1 EXP1 EXP2 Control2 salt2 Попадает в EXP2 и Control 1 Попадает в EXP2 и EXP 1 salt1
  19. 19. Полезности •Мониторинги и возможность быстро отключить эксперименты •Считать метрики только на том потоке, где были изменения •Обратные эксперименты •Длительность эксперимента (7N)
  20. 20. АБТ: Инструменты и анализ результатов
  21. 21. Анализ результатов •Сопоставлять план и факт •Неожиданное улучшение – всё равно надо разобраться •Смотрим на метрики для контроля •Помним о границах применимости метрик
  22. 22. Инструменты •Хранить историю проведения экспериментов и логи(!) •Анализ поведения отдельного пользователя •Возможность считать метрики по срезам и быстро переключаться между ними • Яркий пример среза – браузеры
  23. 23. Статистика Яндекс.Поиск @ 2014: • ~1000 экспериментов за год • ~100 экспериментов одновременно • 21% выкатывается в продакшн Бинг @ 2013: • 1 пользователь видит до 15 экспериментов одновременно Информация из открытых источников: http://www.exp-platform.com
  24. 24. Email: phtc@ya.ru Вопросы?
  25. 25. АБТ: Бонус про матчасть
  26. 26. Матчасть •Формулировка основной гипотезы H0 (метрики равны) конкурирующей гипотезы H1 (метрик не равны) •Задание уровеня значимости α (ошибка первого рода) •Расчет p-value •Принятие решения • P-value > α – тогда принимаем основную гипотезу • P-value <= α – конкурирующую гипотезу

Editor's Notes

  • Сегодня я расскажу вам об АB-экспериментах, и о том как избежать типичных ошибок
    Многие компании думают о том, как измерять эффект от своих внедрений.
    Некоторые измеряют эффект внедрений на основе изменений показателей в динамике.
  • Давайте рассмотрим пример: на диаграмме мы видим динамику продаж Kindle.
    27 октября сайт изменил дизайн, и с 28 числа мы видим внушительный рост продаж.
    Можно было бы подумать, что это благодаря новому дизайну. Но такой подход не учитывает множества внешних факторов,
    Ведь мир изменчив: меняется погода, происходят форс-мажоры, конкуренты выпускают новую продукуцию
  • Конкретно в этом случае компании Amazon очень повезло. Популярная американская телеведущая Опра Уинфри в интервью
    Сказала: Теперь Kindle – моя любимая вещь.
  • Проговорить про контроль, про эксперимент.
    многие покупаются, даже профессиональные статистики
    Решение надо принимать на фактах, AB-тестирование

    Миллионы наблюдений.
  • Степени своводы
  • Пример – доля запросов без кликов.
    CTR блока
  • Устойчивость на контролях
    На заведомо плохих экспериментах
  • Протестировать изменение
  • Изменение поведенческих привычек
    С каким блоками можно экспериментировать?
  • Эксперименты: явные и неявные
    Зачем может понадобиться многомерная схема?
    Разбиваем пространство пользователей на блоки.
    Как убедиться, что многомерная схема работает?

×