Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"

Automated Machine Learning:
building a conveyor
Михаил Овчинников
Badoo

— Подходы к сбору данных и обучению моделей
— Как эффективно построить “конвейер” из разных этапов ML
— Возможно ли полностью автоматическое обучение модели?
— Оценка модели, деплой и мониторинг
О чем доклад

Badoo — социальная сеть
400 Миллионов пользователей
350 Миллионов сообщений / сутки
300 Инженеров

Машинное обучение

Где вообще может помочь ML?
● Предсказание оттока
● Прогнозирование оплаты
● Матчинг пользователей
● Антиспам

Пример: будет ли юзер кликать по письму
?

Процесс машинного обучения

Идея, выбор “Фичей”
Сбор “Фичей”
Обучение модели
Оценка модели
Деплой модели
Мониторинг

1. Входные данные

Разработка и Машинное обучение
Программисты Data Scientists
Работают с Production-БД
Хранят сырые данные
Понимают смысл данных
Знают как работает сервис
Работают с аналитическими БД
Хранят агрегированные данные
Разбираются в особенностях ML
Умеют в Feature Engineering
VS

Разработка и Машинное обучение
Программисты Data Scientists
Работают с Production-БД
Хранят сырые данные
Понимают смысл данных
Знают как работает сервис
Работают с аналитическими БД
Хранят агрегированные данные
Разбираются в особенностях ML
Умеют в Feature Engineering

Машинное обучение в реальном времени
Production
Сбор Данных

Production
Features Log
Target Log

Production
Features Log
Target Log Готовая модель
Предсказание

Недостатки
● От разработчиков требуется чуть больше компетенции
● Придется заранее агрегировать данные
● Нужно заранее выбирать фичи
● Данные нужны быстро, онлайн

Плюсы
● Более надежные и консистентные модели
● Предсказания в реальном времени
● Более качественные фичи
● Больше возможностей для автоматизации всего процесса

2. Разработка
Как решить задачу автоматизации обучения
для классификации и регрессии

AML: Automated Machine Learning
Модели
Версии
Фичи
Контроль качества

Данные важнее алгоритма

Большинство моделей имеет одно и то же “Ядро” фичей
● Пол, возраст, страна, континент, устройство
● Сколько сообщение, голосов, визитов профиля
● Оплата, клики по письмам и пушам, давность регистрации
● Подтверждение аккаунта (фото, телефон, соц.сети)

Примеры фичей для модели предсказания кликов
● Время суток, день недели (+)
● Email-домен, рейтинг (-)

● В Badoo более 1000 базовых фичей
● Отдельные модели используют до 3000 фичей
● Доступны онлайн менее чем за 100 мс.

● Фичи размечены типами данных
● Заданы значения по-умолчанию, и стратегия замещения
ip_country :
Type : int_categorical
Default : profile_country
facebook_friends :
Type : int_continious
Default : avg(profile_country, gender, age)
● Данные собираются в удобное хранилище (Hive/Presto)
● Обучающая выборка обычно несколько млн. строк

Feature engineering: Простые методы всегда работают
Ratio, min, max, avg, last timestamp, etc.
● Отношение Входящих/Исходящих голосов, сообщений
● Отношение Голосов/Матчей, Матчей/Чатов
● Средняя длина диалога, среднее врпмя в приложении
● Время последнего матча, клика по пушу

Автоматическое обучение
● Данные уже подготовлены
● Достаточно взять самые обычные алгоритмы
Random Forest, Gradient Boosted Decision Trees
● Grid Search + Много Железа = Profit

Автоматическое обучение
Google’s Chief Scientist Peter Norvig:
“We don’t have better algorithms than anyone else; we just
have more data”

Модель предсказания клика по письмам:
● Ядро фичей
● Подробная статистика по открытиям и кликам
● Простейший feature engineering
● 10-15 человеко-часов
● 5 машинных часов (24 ядра)
Результат:
● Сокращение кол-ва писем до 60%, без потерь
● Экономия десятки тысяч $
● Менее назойливый email-маркетинг
● Меньше шансы попасть в папку “Спам”

Ручное обучение: половина работы уже сделана
● Данные уже собраны и размечены,
трансформированы, очищены
● Feature engineering уже готов
● Автоматическая модель уже показывает в каком
направлении двигаться

Оценка техническими метриками
● После обучения система выдает оценки по
ROC AUC / Accuracy / Precision / Recall

Оценка бизнес-метриками:
Поиск порогов и баланса ложных срабатываний по
заданным бизнес-критериям.
До обучения: настроить Grid Search оптимизировать модель
в нужную сторону
После обучения: оценить как модель повлияет на бизнес-
показатели

— Сколько % кликов мы потеряем, если выкинем 25%
писем, по которым модель предсказывает отсутствие клика
— Сколько % хороших юзеров мы заблокируем, если будем
блокировать 25% спамеров, согласно предсказанию модели

False Positive
False Negative

Оценка фичей / ресурсов:
● Алгоритм обучения выдает показатель “важности”
каждой фичи
● Системе известно кол-во времени и ресурсов,
необходимых на сбор фичи

Проблема деплоя
Training Environment:
Python + Sklearn
Scala + Spark ML
!=
Prediction Environment:
PHP
GoLang

Решение проблемы деплоя:
Портируемые / Сериализуемые модели
Плюс: реимплементация механизма предсказаний гораздо
легче, чем механизма обучения
Минус: Требуется переносить все преобразования вместе с
моделью

После деплоя
● Анализ на реальных событиях, сравнение разных версия
модели (А/Б тест)
● Автоматический мониторинг попадания в “бизнес-
критерии”
● Легко повторяемый процесс дообучения:
Больше фичей и/или Больше данных

После деплоя
Регулярное автоматическое до-обучение:
● Антиспам
● Аномальные временные периоды

С точки зрения бизнеса и продукта, можно строить модели
просто тыкая в интерфейс:
1. Выбираем точку события
2. Выбираем фичи (можно все)
3. Выбираем точку, когда известен результат
4. Жмем кнопочку, ждем
5. Смотрим, внедряем

● Обучение автоматическое и итеративное
● Повторное обучение на новых выборках и на новых фичах
● Быстрые и безболезненные эксперименты

● В продукте всегда есть что улучшать с помощью ML
● Разработчикам не нужно глубоко разбираться в Data Science
● Конвейер из идей в рост бизнес-метрик

Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"

Recommended

Recommended

More Related Content

Similar to Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"

Similar to Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor" (20)

More from Fwdays

More from Fwdays (20)

Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"