SlideShare a Scribd company logo
Как	устроено	машинное	
обучение	в	Qlean
Евгений	Гапон @	Data	Science	Week
• Мы	сервис по	уборке	квартир
• Работаем	в	3 городах	России
• Сайт	и	iOS-приложение	для	клиентов
• Android-приложение	для	исполнителей
• Свои CRM	для	клиентов	и	исполнителей
• Микросервисная архитектура
А	еще	у	нас	есть	машинное	обучение
• Скоринг заказов	на	вероятность	отмены
• Модель	активности	клиентов	следующие	N	дней
• Модель	активности	исполнителей	следующие	N	дней
• Скоринг исполнителей	на	вероятность	неявки	на	заказ
• Скоринг лидов исполнителей
Нужно	пройти	всего	6	этапов*
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
*	– обязательно	должны	быть	культура	работы	с	данными	и	люди
План	прост	и	потому	красив
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
Мы	собрали	данные	из	разных	источников	в	одном	месте
Наши	источники	данных:
• Операционные	данные	из	production	
базы
• Клик- и	ивент-стримы из	Snowplow
• Мобильный	трекинг	из	Adjust
• Обращения	в	поддержку	из	Zendesk
• Данные	по	звонкам	из	Манго
• Затраты	на	рекламу	из	различных	
источников
Postgres
Мы	сделали	данные	доступными
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
Некоторые	задачи	можно	решить	и	без	машинного	обучения
SQL vs
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
Shit	in	shit	out
Признаки Прогноз
Модель
Заинжениренные признаки	работают	лучше
Кол-во	отмен	в	прошлом
Привязана	ли	кредитная	карта
Кол-во	доп.	услуг	в	заказе
Доля	отмен	по	прошедшим	заказам
Наличие	отдельных	доп.	услуг
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
Получше	разберитесь	с	полученным	результатом
0%
20%
40%
60%
80%
100%
0
200
400
600
800
1000
1200
1400
1600
Доля	отмен
Кол-во	заказов
Вероятность	отмены
заказ	отменился
заказ	состоялся
доля	отмен
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
До	внедрения	модели	мы	проводим	ручное	A/B-тестирование
40%
50%
60%
70%
80%
90%
100%
[50%;60%) [60%;70%) [70%;80%) [80%;90%) [90%;100%]
Доля	отмен
Вероятность	отмены	заказа
control test
Мы	руками	начисляли	бонус	за	сохранение	заказа	тестовой	группе.	Чем	больше	
вероятность	отмены,	тем	больше	бонус.
• Сбор	и	хранение	данных
• Формулировка	задачи
• Извлечение	признаков
• Построение	и	оценка	модели
• Бизнес-тестирование	модели
• Внедрение	модели
Вот	так	устроена	наша	«ml-инфраструктура»
Production	среда
Production	база
процесс	1
процесс	2
процесс	3
• Соберите	данные	в	одном	месте	и	начните	пользоваться	ими
• Задачи	должны	приходить	от	бизнеса
• Некоторые	задачи	можно	решить	и	без	машинного	обучения
• Не	жалейте	времени	на	извлечение	признаков
• Заинжениренные признаки	работают	лучше
• Разберитесь	с	полученным	результатом
• Проводите	ручное	A/B-тестирование
• Наколеночная инфраструктура	рулит!
Итого
Спасибо!
Евгений	Гапон
inbox@gapon.me
facebook.com/egapon

More Related Content

Similar to Как устроено машинное обучение в Qlean

Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015
rusbase
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketing
CleverDATA
 
Применимость SAFe в крупной финансовой организации
Применимость SAFe в крупной финансовой организацииПрименимость SAFe в крупной финансовой организации
Применимость SAFe в крупной финансовой организации
Anton Nemchinov
 
Предсказание вероятности конверсии на данных систем аналитики
Предсказание вероятности конверсии на данных систем аналитикиПредсказание вероятности конверсии на данных систем аналитики
Предсказание вероятности конверсии на данных систем аналитики
Netpeak
 
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
mparunakyan
 
Антон Немчинов, Применимость SAFe в крупной финансовой организации
Антон Немчинов, Применимость SAFe в крупной финансовой организацииАнтон Немчинов, Применимость SAFe в крупной финансовой организации
Антон Немчинов, Применимость SAFe в крупной финансовой организации
ScrumTrek
 
Bizapps, Симферополь
Bizapps, СимферопольBizapps, Симферополь
Bizapps, Симферополь
Denis Matrosov
 
Geek week 2015. Создание полезных приложений в оговоренный срок.
Geek week 2015. Создание полезных приложений в оговоренный срок.Geek week 2015. Создание полезных приложений в оговоренный срок.
Geek week 2015. Создание полезных приложений в оговоренный срок.
Anna Tarasenko
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
AlgoMost
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
Alina Sobolevskaya
 
Процесс разработки дата-сервисов или CRISP курильщика
Процесс разработки дата-сервисов или CRISP курильщикаПроцесс разработки дата-сервисов или CRISP курильщика
Процесс разработки дата-сервисов или CRISP курильщика
Дмитрий Колодезев
 
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Cybermarketing, Moscow
 
Система управления жизненным циклом разработки программного обеспечения Devpr...
Система управления жизненным циклом разработки программного обеспечения Devpr...Система управления жизненным циклом разработки программного обеспечения Devpr...
Система управления жизненным циклом разработки программного обеспечения Devpr...
Evgeny Savitsky
 
Принцип достаточности
Принцип достаточностиПринцип достаточности
Принцип достаточности
Альбина Минуллина
 
Trademag credentials 2_лапшова
Trademag credentials 2_лапшоваTrademag credentials 2_лапшова
Trademag credentials 2_лапшоваTrademag
 
Аналитика в SaaS-бизнесе на примере OWOX BI
Аналитика в SaaS-бизнесе на примере OWOX BIАналитика в SaaS-бизнесе на примере OWOX BI
Аналитика в SaaS-бизнесе на примере OWOX BI
Маркетинг-аналитика с OWOX BI
 
ATK QlikView For Microfinance: решение и опыт
ATK QlikView For Microfinance: решение и опытATK QlikView For Microfinance: решение и опыт
ATK QlikView For Microfinance: решение и опыт
Marina Payvina
 
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
borovoystudio
 
11 nov splunk_conf_мониторинг доступности услуг в мегафон
11 nov splunk_conf_мониторинг доступности услуг в мегафон11 nov splunk_conf_мониторинг доступности услуг в мегафон
11 nov splunk_conf_мониторинг доступности услуг в мегафон
Timur Bagirov
 

Similar to Как устроено машинное обучение в Qlean (20)

Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketing
 
Применимость SAFe в крупной финансовой организации
Применимость SAFe в крупной финансовой организацииПрименимость SAFe в крупной финансовой организации
Применимость SAFe в крупной финансовой организации
 
Предсказание вероятности конверсии на данных систем аналитики
Предсказание вероятности конверсии на данных систем аналитикиПредсказание вероятности конверсии на данных систем аналитики
Предсказание вероятности конверсии на данных систем аналитики
 
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
ПОЛНАЯ ВЕРСИЯ ПРЕЗЕНТАЦИИ. ПРОГРАММНАЯ ПЛАТФОРМА ДЛЯ РАЗРАБОТКИ БИЗНЕС ПРИЛО...
 
Антон Немчинов, Применимость SAFe в крупной финансовой организации
Антон Немчинов, Применимость SAFe в крупной финансовой организацииАнтон Немчинов, Применимость SAFe в крупной финансовой организации
Антон Немчинов, Применимость SAFe в крупной финансовой организации
 
Bizapps, Симферополь
Bizapps, СимферопольBizapps, Симферополь
Bizapps, Симферополь
 
Geek week 2015. Создание полезных приложений в оговоренный срок.
Geek week 2015. Создание полезных приложений в оговоренный срок.Geek week 2015. Создание полезных приложений в оговоренный срок.
Geek week 2015. Создание полезных приложений в оговоренный срок.
 
AlgoMost presentation
AlgoMost presentationAlgoMost presentation
AlgoMost presentation
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
 
Процесс разработки дата-сервисов или CRISP курильщика
Процесс разработки дата-сервисов или CRISP курильщикаПроцесс разработки дата-сервисов или CRISP курильщика
Процесс разработки дата-сервисов или CRISP курильщика
 
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
 
Система управления жизненным циклом разработки программного обеспечения Devpr...
Система управления жизненным циклом разработки программного обеспечения Devpr...Система управления жизненным циклом разработки программного обеспечения Devpr...
Система управления жизненным циклом разработки программного обеспечения Devpr...
 
Принцип достаточности
Принцип достаточностиПринцип достаточности
Принцип достаточности
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
Trademag credentials 2_лапшова
Trademag credentials 2_лапшоваTrademag credentials 2_лапшова
Trademag credentials 2_лапшова
 
Аналитика в SaaS-бизнесе на примере OWOX BI
Аналитика в SaaS-бизнесе на примере OWOX BIАналитика в SaaS-бизнесе на примере OWOX BI
Аналитика в SaaS-бизнесе на примере OWOX BI
 
ATK QlikView For Microfinance: решение и опыт
ATK QlikView For Microfinance: решение и опытATK QlikView For Microfinance: решение и опыт
ATK QlikView For Microfinance: решение и опыт
 
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
Осознанное развитие бизнеса в интернете. Что нужно ЗНАТЬ, чтобы не ошибиться ...
 
11 nov splunk_conf_мониторинг доступности услуг в мегафон
11 nov splunk_conf_мониторинг доступности услуг в мегафон11 nov splunk_conf_мониторинг доступности услуг в мегафон
11 nov splunk_conf_мониторинг доступности услуг в мегафон
 

Как устроено машинное обучение в Qlean