2. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 9
3. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Работа системы:
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
1 / 9
4. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Контроль качества:
при построении модели: auROC, affinity, MSE, ...
при использовании модели: охват, распределения, ...
1 / 9
5. Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей
в сжатом виде 1T в день
“Активные” пользователи
- 200М кук
- 80М аккаунтов ОК
- 70М почтовых аккаунтов
в день
Размер типичной обучающей выборки — миллион пользователей
Количество актуальных задач в каждый момент времени — около ста
2 / 9
10. Распределение выборки имеет значение
при валидации и выборе модели
Пусть распределение тестовой выборки
P(A) = P(B) = 0.5
а распределение “реальности”
P∗
(A) = 0.4, P∗
(B) = 0.6
Предложенная модель дает
recallA = 0.8, recallB = 0.6
тогда accuracy на тестовой выборке и в “реальности” (упс):
acc = 0.7, acc∗
= 0.68
6 / 9
13. Выводы
разработка реальной системы ! = решение задачи на kaggle
больше данных – лучше, чем сложная модель
oversampling решает вопросы
следить за переобучением, везде
8 / 9