Использование машинного обучения на больших данных

Использование машинного обучения на больших данных
(на примере задачи классификации
интернет-пользователей)
Николай Анохин

Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 9

Работа системы:
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
1 / 9

Контроль качества:
при построении модели: auROC, aﬃnity, MSE, ...
при использовании модели: охват, распределения, ...
1 / 9

Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей



в сжатом виде 1T в день
“Активные” пользователи
- 200М кук
- 80М аккаунтов ОК
- 70М почтовых аккаунтов



в день
Размер типичной обучающей выборки — миллион пользователей
Количество актуальных задач в каждый момент времени — около ста
2 / 9

Технологический стек
3 / 9

Больше данных или сложная модель?
4 / 9

Распределение выборки имеет значение
при обучении
5 / 9

Распределение выборки имеет значение
при валидации и выборе модели
Пусть распределение тестовой выборки
P(A) = P(B) = 0.5
а распределение “реальности”
P∗
(A) = 0.4, P∗
(B) = 0.6
Предложенная модель дает
recallA = 0.8, recallB = 0.6
тогда accuracy на тестовой выборке и в “реальности” (упс):
acc = 0.7, acc∗
= 0.68
6 / 9

Переобучение при отборе признаков
7 / 9

Выводы
разработка реальной системы ! = решение задачи на kaggle
больше данных – лучше, чем сложная модель
oversampling решает вопросы
следить за переобучением, везде
8 / 9

Двухминутка пиара

Russian Data Science community

#OpenDataScience

opendatascience.ru

Использование машинного обучения на больших данных

Recommended

Recommended

More Related Content

Similar to Использование машинного обучения на больших данных

Similar to Использование машинного обучения на больших данных (20)

More from DataMonsters

More from DataMonsters (6)

Использование машинного обучения на больших данных