SlideShare a Scribd company logo
Использование машинного обучения на больших данных
(на примере задачи классификации
интернет-пользователей)
Николай Анохин
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 9
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Работа системы:
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
1 / 9
Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Контроль качества:
при построении модели: auROC, affinity, MSE, ...
при использовании модели: охват, распределения, ...
1 / 9
Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей



в сжатом виде 1T в день
“Активные” пользователи
- 200М кук
- 80М аккаунтов ОК
- 70М почтовых аккаунтов



в день
Размер типичной обучающей выборки — миллион пользователей
Количество актуальных задач в каждый момент времени — около ста
2 / 9
Технологический стек
3 / 9
Больше данных или сложная модель?
4 / 9
Распределение выборки имеет значение
при обучении
5 / 9
Распределение выборки имеет значение
при обучении
5 / 9
Распределение выборки имеет значение
при валидации и выборе модели
Пусть распределение тестовой выборки
P(A) = P(B) = 0.5
а распределение “реальности”
P∗
(A) = 0.4, P∗
(B) = 0.6
Предложенная модель дает
recallA = 0.8, recallB = 0.6
тогда accuracy на тестовой выборке и в “реальности” (упс):
acc = 0.7, acc∗
= 0.68
6 / 9
Переобучение при отборе признаков
7 / 9
Переобучение при отборе признаков
7 / 9
Выводы
разработка реальной системы ! = решение задачи на kaggle
больше данных – лучше, чем сложная модель
oversampling решает вопросы
следить за переобучением, везде
8 / 9
Двухминутка пиара
Russian Data Science community
#OpenDataScience

opendatascience.ru
Q & A

More Related Content

Similar to Использование машинного обучения на больших данных

Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоBranchMarketing
 
Симуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииСимуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологии
Sergey Gorshkov
 
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Optimization conference
 
Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...
Многопрофильный образовательный центр ЭДУКОР
 
Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...ddushkin
 
Курсы по User Experience от ITMINE
Курсы по User Experience от ITMINEКурсы по User Experience от ITMINE
Курсы по User Experience от ITMINE
Anastasia Schebrova
 
Graduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby AdbertisingGraduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby Adbertising
Anna Kholina
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Provectus
 
роль стандартов метаданных
роль стандартов метаданныхроль стандартов метаданных
роль стандартов метаданных
Valeriy Platonov
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинараWitology
 
компоненты E learn для Plone
компоненты E learn для Ploneкомпоненты E learn для Plone
компоненты E learn для PloneSergey Greger
 
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама   ключевой инструмент продаж, Абрамов, BegunКонтекстная реклама   ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама ключевой инструмент продаж, Абрамов, Begunweb2win
 
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Roman Rabinovich
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2it-park
 
открытый урок по информатике
открытый урок по информатикеоткрытый урок по информатике
открытый урок по информатике
Вспомогательный образовательный сайт
 
новые функции и процессы н.лосева
новые функции и процессы н.лосевановые функции и процессы н.лосева
новые функции и процессы н.лосеваJane Kuzmina
 
Исследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображенийИсследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображений
Anatoly Simkin
 

Similar to Использование машинного обучения на больших данных (20)

Artem abm
Artem abmArtem abm
Artem abm
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
 
Симуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииСимуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологии
 
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...
 
Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...Использование инструментов веб-аналитики для повышения эффективности рекламны...
Использование инструментов веб-аналитики для повышения эффективности рекламны...
 
Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...Современная система управления порталом для создания сервисов в интернет ново...
Современная система управления порталом для создания сервисов в интернет ново...
 
9.1 Usability testing
9.1 Usability testing9.1 Usability testing
9.1 Usability testing
 
Курсы по User Experience от ITMINE
Курсы по User Experience от ITMINEКурсы по User Experience от ITMINE
Курсы по User Experience от ITMINE
 
Graduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby AdbertisingGraduate Project: designing a web site and 3D application for Elby Adbertising
Graduate Project: designing a web site and 3D application for Elby Adbertising
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
роль стандартов метаданных
роль стандартов метаданныхроль стандартов метаданных
роль стандартов метаданных
 
Программа семинара
Программа семинараПрограмма семинара
Программа семинара
 
компоненты E learn для Plone
компоненты E learn для Ploneкомпоненты E learn для Plone
компоненты E learn для Plone
 
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама   ключевой инструмент продаж, Абрамов, BegunКонтекстная реклама   ключевой инструмент продаж, Абрамов, Begun
Контекстная реклама ключевой инструмент продаж, Абрамов, Begun
 
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
Neuromap Learning Platform (MOOC, eLearning, Crowdsourcing)
 
Recommend me. Pandem.
Recommend me. Pandem.Recommend me. Pandem.
Recommend me. Pandem.
 
Smart guide rus_v2
Smart guide rus_v2Smart guide rus_v2
Smart guide rus_v2
 
открытый урок по информатике
открытый урок по информатикеоткрытый урок по информатике
открытый урок по информатике
 
новые функции и процессы н.лосева
новые функции и процессы н.лосевановые функции и процессы н.лосева
новые функции и процессы н.лосева
 
Исследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображенийИсследование и разработка программного обеспечения интерполяции изображений
Исследование и разработка программного обеспечения интерполяции изображений
 

More from DataMonsters

РИФ - Omnichannel marketing
РИФ - Omnichannel marketing РИФ - Omnichannel marketing
РИФ - Omnichannel marketing
DataMonsters
 
Услуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентовУслуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентов
DataMonsters
 
Streamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продажStreamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продаж
DataMonsters
 
СПАРК
СПАРКСПАРК
СПАРК
DataMonsters
 
ДАННЫЕ И МИР
ДАННЫЕ И МИРДАННЫЕ И МИР
ДАННЫЕ И МИР
DataMonsters
 
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLEОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
DataMonsters
 

More from DataMonsters (6)

РИФ - Omnichannel marketing
РИФ - Omnichannel marketing РИФ - Omnichannel marketing
РИФ - Omnichannel marketing
 
Услуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентовУслуги InspiRational по анализу базы клиентов
Услуги InspiRational по анализу базы клиентов
 
Streamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продажStreamboard - измерение и улучшение воронки продаж
Streamboard - измерение и улучшение воронки продаж
 
СПАРК
СПАРКСПАРК
СПАРК
 
ДАННЫЕ И МИР
ДАННЫЕ И МИРДАННЫЕ И МИР
ДАННЫЕ И МИР
 
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLEОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE
 

Использование машинного обучения на больших данных