SlideShare a Scribd company logo
Как заработать 
миллионы 
на своих данных и машинном обучении 
Михаил Левин 
Руководитель группы анализа больших 
данных
2 
Реклама над результатами поиска
3 
Справа
4 
И под результатами поиска
5 
Как отбирается реклама 
• Рекламодатели создают объявления 
• Выбирают ключевые фразы 
• Указывают ставки 
• Пользователь задает запрос 
• Отбираем подходящие фразы 
• Показываем лучшие объявления 
• Рекламодатель платит за клики
6 
Как работает система 
• Релевантные объявления - клики 
• Релевантный сайт – конверсии 
• Нерелевантные – отток пользователей 
• У рекламодателей аукцион за клики 
• Ставками управляют рекламодатели 
• Мы управляем аукционом и отбором
7 
Что оптимизируем 
• Счастье пользователей 
• Счастье рекламодателей 
• Деньги 
• Противоречащие цели? 
• Нет 
• Но речь не об этом
8 
Как оптимизировать деньги 
• Математическое ожидание денег 
• CPM = P(click) * bid 
• Упорядочиваем по CPM 
• Ставки даны, надо узнать P(click) 
• Прогнозирование вероятности клика 
• А еще можно улучшать дизайн
9 
Поисковая реклама 
• Мировой рынок поисковой рекламы $25B 
• Выручка Яндекса в 2013 > $1B 
• Улучшение на 2% - $20M в год 
• Таких и более происходит несколько в год
10 
Улучшения 
• Прогнозирование вероятности клика 
• Дизайн 
• Параметры аукциона 
• Релевантность 
• …
11 
Метрики 
• Деньги 
• Показы 
• Клики 
• CTR 
• Конверсии 
• CPA 
• Хорошие клики
12 
Как на деле узнать, стало ли лучше? 
• Запустим новую и посмотрим на метрики? 
• А что если погода плохая? 
• Запустим новую на новых пользователях? 
• Они отличаются от старых 
• Мужчинам покажем новую версию? 
• ITшникам новую версию? 
• Они нерепрезентативны 
• Новую версию в Минске? 
• Даже минчане нерепрезентативны
13 
Как на деле узнать, стало ли лучше? 
• На случайную долю запросов? 
• Нас интересует влияние на пользователя 
• Случайная доля пользователей, 2% 
• Тоже не идеально, но жить можно 
• Сравним метрики в среднем на 1% 
пользователей 
• Как долго ждать? 
• Оценим статистическую значимость 
• A/B-тестирование
14 
Как оптимизировать? 
• Все время эксперименты – дорого и тяжело 
• Оффлайн-метрики 
• Точность, полнота, AUC, Log-likelihood 
• Нужна корреляция с онлайн-метриками! 
• +1% AUC даст +1% денег… 
• …Если подкрутить параметры  
• А как крутить? 
• Оффлайн-прогноз
15 
Как оптимизировать? 
• Две формулы: старая и новая 
• Берем запросы из прошлого 
• Берем всю базу с объявлениями 
• Симулируем аукцион с обеими формулами 
• Смотрим, где больше кликов, денег 
• Откуда взять клики? 
• Генерируем клики новой формулой
16 
Вероятность клика или CTR 
• Как предсказывать? 
• Исторические данные 
• Пишем логи 
• CTR (click-through rate) ≔ P(click) = ? 
• P(click) = Clicks / Shows
17 
Вероятность клика или CTR 
• P(click) = Clicks / Shows 
• Зависит от запроса Q 
• P(click) = Clicks(Q, Ad) / Shows(Q, Ad) 
• Слишком много уникальных запросов  
• Фраза P – почти то же, что запрос Q 
• Фраз ограниченное число 
• P(click) = Clicks(P, Ad) / Shows(P, Ad)
18 
«Жирные» слова в заголовке
19 
Вероятность клика 
• P(click) = Clicks(P, Ad) / Shows(P, Ad) 
• За какой период брать статистику? 
• А если запрос все-таки влияет? 
– Ключевая фраза iphone, продают последнюю модель 
– iphone 3GS, iphone 5, iphone 6, iphone наушники – разный CTR 
• Объявление отвечает на запрос? 
• Есть доставка в регион пользователя? 
• Смотрит с компьютера или с телефона?
20 
Вероятность клика 
• Как использовать всю информацию? 
• Сотни миллионов строк логов 
• В каждой строке сотни признаков 
• Машинное обучение 
Clicks Shows Region Text Relevance … Click? P(click) 
10 100 Москва 0.586 … 0 0.11 
1 200 Ростов 0.253 … 0 0.003 
… … … … … … … 
0 1 СПб 0.85 1 0.12
21 
Время течет… 
• Поведение пользователей меняется 
• Сезонность 
• Время суток 
• День недели 
• Появляются новые объявления 
• Новые пользователи 
• Модель устаревает
22 
Что делать? 
• Все время запускать новые? 
• Это целый процесс 
• Момент запуска – все меняется 
• Момент запуска – «стресс» для рынка 
• Устаревает не так быстро 
• Все время запускать эксперименты… 
• …Автоматически
23 
Автоэксперименты 
• Берем последний месяц логов 
• Делим на обучение и тест 
• Обучаем модель, считаем качество 
• Письмо на рассылку с метриками 
• Подбираем параметры 
• Запускаем эксперимент автоматически 
• Ждем, оцениваем 
• Письмо с результатами 
• Если лучше – жмем кнопку и запускаем
24 
Автоэксперименты - будущее 
• А если есть критерий запуска… 
• Модель перезапускается сама 
• А мы все отдыхаем на островах  
• …Но пока так делать страшно 
25 
Вопросы?
Михаил Левин 
Руководитель группы 
анализа больших данных 
mlevin@yandex-team.ru 
Спасибо

More Related Content

Viewers also liked

Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015
rusbase
 
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
rusbase
 
Тимур Кузеев — Meta System — ICBDA 2015
Тимур Кузеев — Meta System — ICBDA 2015Тимур Кузеев — Meta System — ICBDA 2015
Тимур Кузеев — Meta System — ICBDA 2015
rusbase
 
Александр Емешев — Tinkoff — ICBDA 2015
Александр Емешев — Tinkoff — ICBDA 2015Александр Емешев — Tinkoff — ICBDA 2015
Александр Емешев — Tinkoff — ICBDA 2015
rusbase
 
Михаил Кечинов — REES46 — ICBDA 2015
Михаил Кечинов — REES46 — ICBDA 2015Михаил Кечинов — REES46 — ICBDA 2015
Михаил Кечинов — REES46 — ICBDA 2015
rusbase
 
Александр Фонарев — Rubbles — ICBDA 2015
Александр Фонарев — Rubbles — ICBDA 2015Александр Фонарев — Rubbles — ICBDA 2015
Александр Фонарев — Rubbles — ICBDA 2015
rusbase
 

Viewers also liked (6)

Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015Сергей Кашпоров — Frank Research Group — ICBDA 2015
Сергей Кашпоров — Frank Research Group — ICBDA 2015
 
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
Кирилл Чистов — Data-Centric Alliance — ICBDA 2015
 
Тимур Кузеев — Meta System — ICBDA 2015
Тимур Кузеев — Meta System — ICBDA 2015Тимур Кузеев — Meta System — ICBDA 2015
Тимур Кузеев — Meta System — ICBDA 2015
 
Александр Емешев — Tinkoff — ICBDA 2015
Александр Емешев — Tinkoff — ICBDA 2015Александр Емешев — Tinkoff — ICBDA 2015
Александр Емешев — Tinkoff — ICBDA 2015
 
Михаил Кечинов — REES46 — ICBDA 2015
Михаил Кечинов — REES46 — ICBDA 2015Михаил Кечинов — REES46 — ICBDA 2015
Михаил Кечинов — REES46 — ICBDA 2015
 
Александр Фонарев — Rubbles — ICBDA 2015
Александр Фонарев — Rubbles — ICBDA 2015Александр Фонарев — Rubbles — ICBDA 2015
Александр Фонарев — Rubbles — ICBDA 2015
 

Similar to Левин Михаил - Как заработать миллионы на своих данных и машинном обучении. Yandex

Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ruОптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
Александр Терешко
 
как математика позволяет зарабатывать деньги
как математика позволяет зарабатывать деньгикак математика позволяет зарабатывать деньги
как математика позволяет зарабатывать деньгиYandex
 
Хитрости контекстной рекламы
Хитрости контекстной рекламыХитрости контекстной рекламы
Хитрости контекстной рекламыMaxim Samoylenko
 
оптимизация рекламы от HiConvertion
оптимизация рекламы от HiConvertionоптимизация рекламы от HiConvertion
оптимизация рекламы от HiConvertion
Sergey Shmakov
 
Продвижение в интернете, ч. 1 (семантическое ядро)
Продвижение в интернете, ч. 1 (семантическое ядро)Продвижение в интернете, ч. 1 (семантическое ядро)
Продвижение в интернете, ч. 1 (семантическое ядро)
Alexey Kostin
 
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
PCampRussia
 
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страницKONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
Eugene Trofimenko
 
модуль 5. развитие продукта. часть 1
модуль 5. развитие продукта. часть 1модуль 5. развитие продукта. часть 1
модуль 5. развитие продукта. часть 1
Программа Развития
 
1 search
1 search1 search
1 search
Yandex
 
Www.inmyday.ru presentation early stage
Www.inmyday.ru presentation early stageWww.inmyday.ru presentation early stage
Www.inmyday.ru presentation early stageIvan Isaev
 
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсовСергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
web2win
 
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
borovoystudio
 
татьяна авлочинская (Z gamessofteq) все что вы хотели знать о мобильных иг...
татьяна авлочинская (Z gamessofteq)   все что вы хотели знать о мобильных иг...татьяна авлочинская (Z gamessofteq)   все что вы хотели знать о мобильных иг...
татьяна авлочинская (Z gamessofteq) все что вы хотели знать о мобильных иг...PCampRussia
 
Хочу сделать мобильную игру - ProductCamp Kiev2012
Хочу сделать мобильную игру - ProductCamp Kiev2012Хочу сделать мобильную игру - ProductCamp Kiev2012
Хочу сделать мобильную игру - ProductCamp Kiev2012Tatiana Aulachynskaya
 
Почему ваш сайт не продает?
Почему ваш сайт не продает?Почему ваш сайт не продает?
Почему ваш сайт не продает?
Воронюк Антон
 
I have a digital dream
I have a digital dreamI have a digital dream
I have a digital dream
Nikolay Shestakov
 
Оксана Дунина. Profitbase: как оживить кладбище лидов
Оксана Дунина. Profitbase: как оживить кладбище лидовОксана Дунина. Profitbase: как оживить кладбище лидов
Оксана Дунина. Profitbase: как оживить кладбище лидов
Artsofte IT company
 
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
Fert
 
Как снять сливки с мобильной рекламы на раз-два?
Как снять сливки с мобильной рекламы на раз-два?Как снять сливки с мобильной рекламы на раз-два?
Как снять сливки с мобильной рекламы на раз-два?
AppTractor
 

Similar to Левин Михаил - Как заработать миллионы на своих данных и машинном обучении. Yandex (20)

Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ruОптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
Оптимизация таргетированной рекламы в соц сетях с помощью Hiconversion.ru
 
как математика позволяет зарабатывать деньги
как математика позволяет зарабатывать деньгикак математика позволяет зарабатывать деньги
как математика позволяет зарабатывать деньги
 
Хитрости контекстной рекламы
Хитрости контекстной рекламыХитрости контекстной рекламы
Хитрости контекстной рекламы
 
оптимизация рекламы от HiConvertion
оптимизация рекламы от HiConvertionоптимизация рекламы от HiConvertion
оптимизация рекламы от HiConvertion
 
Продвижение в интернете, ч. 1 (семантическое ядро)
Продвижение в интернете, ч. 1 (семантическое ядро)Продвижение в интернете, ч. 1 (семантическое ядро)
Продвижение в интернете, ч. 1 (семантическое ядро)
 
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
Про построение стартап-лаборатории, процесс тестирования бизнес моделей (Вале...
 
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страницKONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
KONVR - интерактивное тестирование и улучшение конверсии рекламных страниц
 
модуль 5. развитие продукта. часть 1
модуль 5. развитие продукта. часть 1модуль 5. развитие продукта. часть 1
модуль 5. развитие продукта. часть 1
 
Kopeikoff
KopeikoffKopeikoff
Kopeikoff
 
1 search
1 search1 search
1 search
 
Www.inmyday.ru presentation early stage
Www.inmyday.ru presentation early stageWww.inmyday.ru presentation early stage
Www.inmyday.ru presentation early stage
 
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсовСергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
Сергей Куликов. Как привлекать трафик и заказы при дефиците ресурсов
 
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
Как грамотный сайт и стратегический поисковой маркетинг помогают развивать би...
 
татьяна авлочинская (Z gamessofteq) все что вы хотели знать о мобильных иг...
татьяна авлочинская (Z gamessofteq)   все что вы хотели знать о мобильных иг...татьяна авлочинская (Z gamessofteq)   все что вы хотели знать о мобильных иг...
татьяна авлочинская (Z gamessofteq) все что вы хотели знать о мобильных иг...
 
Хочу сделать мобильную игру - ProductCamp Kiev2012
Хочу сделать мобильную игру - ProductCamp Kiev2012Хочу сделать мобильную игру - ProductCamp Kiev2012
Хочу сделать мобильную игру - ProductCamp Kiev2012
 
Почему ваш сайт не продает?
Почему ваш сайт не продает?Почему ваш сайт не продает?
Почему ваш сайт не продает?
 
I have a digital dream
I have a digital dreamI have a digital dream
I have a digital dream
 
Оксана Дунина. Profitbase: как оживить кладбище лидов
Оксана Дунина. Profitbase: как оживить кладбище лидовОксана Дунина. Profitbase: как оживить кладбище лидов
Оксана Дунина. Profitbase: как оживить кладбище лидов
 
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
ОСОБЕННОСТИ СОВРЕМЕННОГО ПОИСКОВОГО ПРОДВИЖЕНИЯ
 
Как снять сливки с мобильной рекламы на раз-два?
Как снять сливки с мобильной рекламы на раз-два?Как снять сливки с мобильной рекламы на раз-два?
Как снять сливки с мобильной рекламы на раз-два?
 

More from WG_ Events

Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
WG_ Events
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
WG_ Events
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
WG_ Events
 
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
WG_ Events
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
WG_ Events
 
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
WG_ Events
 
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
WG_ Events
 
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
WG_ Events
 
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
WG_ Events
 
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - WargamingКонстантин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
WG_ Events
 
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - WargamingОлеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
WG_ Events
 
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
WG_ Events
 
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
WG_ Events
 
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник HappymagentaАртем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
WG_ Events
 
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
WG_ Events
 
Алексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ WargamingАлексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ Wargaming
WG_ Events
 
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ruМихаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
WG_ Events
 
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - WargamingОльга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
WG_ Events
 
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - WargamingИлья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
WG_ Events
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
WG_ Events
 

More from WG_ Events (20)

Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
 
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
​Конкурентный анализ. Учимся на чужих ошибках / Евгений Пальчевский для DataT...
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
 
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
DataTalks #4: Необходимый минимум инструментов для построения своей системы р...
 
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
DataTalks #4: Как ответить на вопрос «Что будет?»: практические советы / Андр...
 
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
DataTalks #4: Что такое предиктивная аналитика и кому она нужна / Надежда Руч...
 
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
DataTalks #4: Использование предиктивной аналитики для управления ценностью к...
 
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - WargamingКонстантин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
Константин Гавриков - Люди, процесс и результат. Дизайн и корпорации - Wargaming
 
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - WargamingОлеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
Олеся Плеханова - UX-дизайнер на работе и в жизни - Wargaming
 
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
Юрий Ветров - Продуктовый дизайнер. Современное понимание профессии - Mail.Ru...
 
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
Роман Буй “Рандомный маркетинг или как мы выпускали World of Tanks Blitz” / W...
 
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник HappymagentaАртем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
Артем Глущеня "Про аркадки и людей" / Дизайнер-мультистаночник Happymagenta
 
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
Даниил ‘Censored_ID’ Копытько “Расширенный текстуринг под мобильные устройств...
 
Алексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ WargamingАлексей Алексеев ”Blitz-доклад”/ Wargaming
Алексей Алексеев ”Blitz-доклад”/ Wargaming
 
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ruМихаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
Михаил Фролов - Конверсия в социальных сетях и продажа эмоций - Fotostrana.ru
 
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - WargamingОльга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
Ольга Качалина - Mobile prototyping. fake it till you make it. - Wargaming
 
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - WargamingИлья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
Илья Трегубов - Борьба с привычками. Cтратегии редизайна - Wargaming
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
 

Левин Михаил - Как заработать миллионы на своих данных и машинном обучении. Yandex

  • 1. Как заработать миллионы на своих данных и машинном обучении Михаил Левин Руководитель группы анализа больших данных
  • 2. 2 Реклама над результатами поиска
  • 4. 4 И под результатами поиска
  • 5. 5 Как отбирается реклама • Рекламодатели создают объявления • Выбирают ключевые фразы • Указывают ставки • Пользователь задает запрос • Отбираем подходящие фразы • Показываем лучшие объявления • Рекламодатель платит за клики
  • 6. 6 Как работает система • Релевантные объявления - клики • Релевантный сайт – конверсии • Нерелевантные – отток пользователей • У рекламодателей аукцион за клики • Ставками управляют рекламодатели • Мы управляем аукционом и отбором
  • 7. 7 Что оптимизируем • Счастье пользователей • Счастье рекламодателей • Деньги • Противоречащие цели? • Нет • Но речь не об этом
  • 8. 8 Как оптимизировать деньги • Математическое ожидание денег • CPM = P(click) * bid • Упорядочиваем по CPM • Ставки даны, надо узнать P(click) • Прогнозирование вероятности клика • А еще можно улучшать дизайн
  • 9. 9 Поисковая реклама • Мировой рынок поисковой рекламы $25B • Выручка Яндекса в 2013 > $1B • Улучшение на 2% - $20M в год • Таких и более происходит несколько в год
  • 10. 10 Улучшения • Прогнозирование вероятности клика • Дизайн • Параметры аукциона • Релевантность • …
  • 11. 11 Метрики • Деньги • Показы • Клики • CTR • Конверсии • CPA • Хорошие клики
  • 12. 12 Как на деле узнать, стало ли лучше? • Запустим новую и посмотрим на метрики? • А что если погода плохая? • Запустим новую на новых пользователях? • Они отличаются от старых • Мужчинам покажем новую версию? • ITшникам новую версию? • Они нерепрезентативны • Новую версию в Минске? • Даже минчане нерепрезентативны
  • 13. 13 Как на деле узнать, стало ли лучше? • На случайную долю запросов? • Нас интересует влияние на пользователя • Случайная доля пользователей, 2% • Тоже не идеально, но жить можно • Сравним метрики в среднем на 1% пользователей • Как долго ждать? • Оценим статистическую значимость • A/B-тестирование
  • 14. 14 Как оптимизировать? • Все время эксперименты – дорого и тяжело • Оффлайн-метрики • Точность, полнота, AUC, Log-likelihood • Нужна корреляция с онлайн-метриками! • +1% AUC даст +1% денег… • …Если подкрутить параметры  • А как крутить? • Оффлайн-прогноз
  • 15. 15 Как оптимизировать? • Две формулы: старая и новая • Берем запросы из прошлого • Берем всю базу с объявлениями • Симулируем аукцион с обеими формулами • Смотрим, где больше кликов, денег • Откуда взять клики? • Генерируем клики новой формулой
  • 16. 16 Вероятность клика или CTR • Как предсказывать? • Исторические данные • Пишем логи • CTR (click-through rate) ≔ P(click) = ? • P(click) = Clicks / Shows
  • 17. 17 Вероятность клика или CTR • P(click) = Clicks / Shows • Зависит от запроса Q • P(click) = Clicks(Q, Ad) / Shows(Q, Ad) • Слишком много уникальных запросов  • Фраза P – почти то же, что запрос Q • Фраз ограниченное число • P(click) = Clicks(P, Ad) / Shows(P, Ad)
  • 18. 18 «Жирные» слова в заголовке
  • 19. 19 Вероятность клика • P(click) = Clicks(P, Ad) / Shows(P, Ad) • За какой период брать статистику? • А если запрос все-таки влияет? – Ключевая фраза iphone, продают последнюю модель – iphone 3GS, iphone 5, iphone 6, iphone наушники – разный CTR • Объявление отвечает на запрос? • Есть доставка в регион пользователя? • Смотрит с компьютера или с телефона?
  • 20. 20 Вероятность клика • Как использовать всю информацию? • Сотни миллионов строк логов • В каждой строке сотни признаков • Машинное обучение Clicks Shows Region Text Relevance … Click? P(click) 10 100 Москва 0.586 … 0 0.11 1 200 Ростов 0.253 … 0 0.003 … … … … … … … 0 1 СПб 0.85 1 0.12
  • 21. 21 Время течет… • Поведение пользователей меняется • Сезонность • Время суток • День недели • Появляются новые объявления • Новые пользователи • Модель устаревает
  • 22. 22 Что делать? • Все время запускать новые? • Это целый процесс • Момент запуска – все меняется • Момент запуска – «стресс» для рынка • Устаревает не так быстро • Все время запускать эксперименты… • …Автоматически
  • 23. 23 Автоэксперименты • Берем последний месяц логов • Делим на обучение и тест • Обучаем модель, считаем качество • Письмо на рассылку с метриками • Подбираем параметры • Запускаем эксперимент автоматически • Ждем, оцениваем • Письмо с результатами • Если лучше – жмем кнопку и запускаем
  • 24. 24 Автоэксперименты - будущее • А если есть критерий запуска… • Модель перезапускается сама • А мы все отдыхаем на островах  • …Но пока так делать страшно 
  • 26. Михаил Левин Руководитель группы анализа больших данных mlevin@yandex-team.ru Спасибо