SlideShare a Scribd company logo
1 of 18
Download to read offline
Использование машинного обучения на больших данных
(на примере задачи классификации
интернет-пользователей)
Николай Анохин
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 9
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Работа системы:
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
1 / 9
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Контроль качества:
при построении модели: auROC, affinity, MSE, ...
при использовании модели: охват, распределения, ...
1 / 9
Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей



в сжатом виде 1T в день
“Активные” пользователи
- 200М кук
- 80М аккаунтов ОК
- 70М почтовых аккаунтов



в день
Размер типичной обучающей выборки — миллион пользователей
Количество актуальных задач в каждый момент времени — около ста
2 / 9
Технологический стек
3 / 9
Больше данных или сложная модель?
4 / 9
Распределение выборки имеет значение
при обучении
5 / 9
Распределение выборки имеет значение
при обучении
5 / 9
Распределение выборки имеет значение
при валидации и выборе модели
Пусть распределение тестовой выборки
P(A) = P(B) = 0.5
а распределение “реальности”
P∗
(A) = 0.4, P∗
(B) = 0.6
Предложенная модель дает
recallA = 0.8, recallB = 0.6
тогда accuracy на тестовой выборке и в “реальности” (упс):
acc = 0.7, acc∗
= 0.68
6 / 9
Переобучение при отборе признаков
7 / 9
Переобучение при отборе признаков
7 / 9
Выводы
разработка реальной системы ! = решение задачи на kaggle
больше данных – лучше, чем сложная модель
oversampling решает вопросы
следить за переобучением, везде
8 / 9
Двухминутка пиара
Russian Data Science community
#OpenDataScience

opendatascience.ru
Q & A

More Related Content

Similar to Использование машинного обучения на больших данных

Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
BranchMarketing
 
Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...
ddushkin
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
Witology
 
компоненты E learn для Plone
компоненты E learn для Ploneкомпоненты E learn для Plone
компоненты E learn для Plone
Sergey Greger
 
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама   ключевой инструмент продаж, Абрамов, BegunКонтекстная реклама   ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
web2win
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2
it-park
 
новые функции и процессы н.лосева
новые функции и процессы н.лосевановые функции и процессы н.лосева
новые функции и процессы н.лосева
Jane Kuzmina
 
Исследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображенийИсследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображений
Anatoly Simkin
 

Similar to Использование машинного обучения на больших данных (20)

Artem abm
Artem abmArtem abm
Artem abm
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
 
Симуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииСимуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологии
 
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
 
Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...
 
Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...
 
9.1 Usability testing
9.1 Usability testing9.1 Usability testing
9.1 Usability testing
 
Курсы по User Experience от ITMINE
Курсы по User Experience от ITMINEКурсы по User Experience от ITMINE
Курсы по User Experience от ITMINE
 
Graduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby AdbertisingGraduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby Adbertising
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
роль стандартов метаданных
роль стандартов метаданныхроль стандартов метаданных
роль стандартов метаданных
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
компоненты E learn для Plone
компоненты E learn для Ploneкомпоненты E learn для Plone
компоненты E learn для Plone
 
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама   ключевой инструмент продаж, Абрамов, BegunКонтекстная реклама   ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
 
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
 
Recommend me. Pandem.
Recommend me. Pandem.Recommend me. Pandem.
Recommend me. Pandem.
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2
 
открытый урок по информатике
открытый урок по информатикеоткрытый урок по информатике
открытый урок по информатике
 
новые функции и процессы н.лосева
новые функции и процессы н.лосевановые функции и процессы н.лосева
новые функции и процессы н.лосева
 
Исследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображенийИсследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображений
 

More from DataMonsters

More from DataMonsters (6)

РИФ - Omnichannel marketing
РИФ - Omnichannel marketing РИФ - Omnichannel marketing
РИФ - Omnichannel marketing
 
Услуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентовУслуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентов
 
Streamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продажStreamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продаж
 
СПАРК
СПАРКСПАРК
СПАРК
 
ДАННЫЕ И МИР
ДАННЫЕ И МИРДАННЫЕ И МИР
ДАННЫЕ И МИР
 
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLEОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
 

Использование машинного обучения на больших данных