Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Fwdays
What is the most difficult part of the machine learning process? Data collection? Feature Engineering? Model selection and tuning? Deploy and monitoring? What if you have a whole bunch of models, and business requires you to continuously improve, experiment, re-train and integrate models? And what if you are not even a Data Scientist?
In this talk:
How to not be drown in chaos, and build structured ML-integration process in a large company
Taking a close look at what can be automated (spoiler: everything)
Discussing "conveyor" taking ideas as input can make a great impact on business metrics, through fast and convenient machine learning integration
What can we achieve by using very basic and simple models
Mikhail Ovchinnikov "Automated Machine Learning: building a conveyor"Fwdays
What is the most difficult part of the machine learning process? Data collection? Feature Engineering? Model selection and tuning? Deploy and monitoring? What if you have a whole bunch of models, and business requires you to continuously improve, experiment, re-train and integrate models? And what if you are not even a Data Scientist?
In this talk:
How to not be drown in chaos, and build structured ML-integration process in a large company
Taking a close look at what can be automated (spoiler: everything)
Discussing "conveyor" taking ideas as input can make a great impact on business metrics, through fast and convenient machine learning integration
What can we achieve by using very basic and simple models
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...Optimization conference
- Какие виды данных использует современная поведенческая аналитика
- Как происходит анализ
- Примеры проверки гипотез
- Глубокая персонализация
- Примеры машинного обучения в поведенческой аналитике: оценка вероятности целевого действия
Доклад на конференции Optimization 2016.
Graduate Project: designing a web site and 3D application for Elby AdbertisingAnna Kholina
Department of Information Technologies in Design
Saint-Petersburg State Polytechnical University
www.it-design.org
The project by students Nikita Shanin and Maria Garkusha
Исследование и разработка программного обеспечения интерполяции изображенийAnatoly Simkin
В ходе курсовой работы, проведенной на первом семестре магистратуры МГТУ им. Баумана, были исследованы алгоритмы решения задачи интерполяции изображений. Разработаны алгоритмы трех методов решения поставленной задачи. Проведены их экспериментальные исследования в части зависимости производительности от размера изображения и метода обработки. По результатам анализа экспериментов определен наиболее оптимальный алгоритм обработки. Работа была выполнена в конце 2009 года. Исходные коды вложены на GitHub https://github.com/asimkin/20091201_Interpolation.
This work was carried out during the first term of the master program «Intelligent Systems and Control» at the Bauman University. In this work, Anatoly researched and developed algorithms for image interpolation. He examined three algorithms and analyzed how their performance depends on the image size and the interpolation method. The coursework was completed at the end of 2009. The source code of this work has been published under the GPL license at GitHub at https://github.com/asimkin/20091201_Interpolation, and research notes at http://www.slideshare.net/asimkin/ss-25037557.
Как построить систему маркетинга в крупной компании:
1. Выстраивать инструменты вокруг потока клиентов
2. Определить и устранить барьеры покупки
3. Систематически повышать зрелость системы маркетинга
Услуги InspiRational по анализу базы клиентовDataMonsters
Сегментирование клиентской базы и внедрение умных алгоритмов анализа данных позволяет значительно повысить конверсию рассылок и повысить повторные продажи
More Related Content
Similar to Использование машинного обучения на больших данных
Виктор Крылов, Современная поведенческая аналитика в большом e-commerce, Opti...Optimization conference
- Какие виды данных использует современная поведенческая аналитика
- Как происходит анализ
- Примеры проверки гипотез
- Глубокая персонализация
- Примеры машинного обучения в поведенческой аналитике: оценка вероятности целевого действия
Доклад на конференции Optimization 2016.
Graduate Project: designing a web site and 3D application for Elby AdbertisingAnna Kholina
Department of Information Technologies in Design
Saint-Petersburg State Polytechnical University
www.it-design.org
The project by students Nikita Shanin and Maria Garkusha
Исследование и разработка программного обеспечения интерполяции изображенийAnatoly Simkin
В ходе курсовой работы, проведенной на первом семестре магистратуры МГТУ им. Баумана, были исследованы алгоритмы решения задачи интерполяции изображений. Разработаны алгоритмы трех методов решения поставленной задачи. Проведены их экспериментальные исследования в части зависимости производительности от размера изображения и метода обработки. По результатам анализа экспериментов определен наиболее оптимальный алгоритм обработки. Работа была выполнена в конце 2009 года. Исходные коды вложены на GitHub https://github.com/asimkin/20091201_Interpolation.
This work was carried out during the first term of the master program «Intelligent Systems and Control» at the Bauman University. In this work, Anatoly researched and developed algorithms for image interpolation. He examined three algorithms and analyzed how their performance depends on the image size and the interpolation method. The coursework was completed at the end of 2009. The source code of this work has been published under the GPL license at GitHub at https://github.com/asimkin/20091201_Interpolation, and research notes at http://www.slideshare.net/asimkin/ss-25037557.
Similar to Использование машинного обучения на больших данных (20)
Как построить систему маркетинга в крупной компании:
1. Выстраивать инструменты вокруг потока клиентов
2. Определить и устранить барьеры покупки
3. Систематически повышать зрелость системы маркетинга
Услуги InspiRational по анализу базы клиентовDataMonsters
Сегментирование клиентской базы и внедрение умных алгоритмов анализа данных позволяет значительно повысить конверсию рассылок и повысить повторные продажи
2. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Варианты использования:
классификация: образование, ...
упорядоченная классификация: просмотр телевизора, ...
лукэлайк: автолюбители, ...
мультиклассовый лукэлайк: котоводы/собаководы, ...
регрессия: семейный доход, ...
1 / 9
3. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Работа системы:
частое перестроение
моделей
ежедневная дозагрузка
проклассифицированных
пользователей
1 / 9
4. Обзор задачи
Разработать систему, позволяющую предсказывать заданные характеристики
пользователей интернета (для таргетирования)
Контроль качества:
при построении модели: auROC, affinity, MSE, ...
при использовании модели: охват, распределения, ...
1 / 9
5. Обзор данных
Сырые данные
- пользовательский кликстрим
- контент посещенных страниц
- демография пользователей
в сжатом виде 1T в день
“Активные” пользователи
- 200М кук
- 80М аккаунтов ОК
- 70М почтовых аккаунтов
в день
Размер типичной обучающей выборки — миллион пользователей
Количество актуальных задач в каждый момент времени — около ста
2 / 9
10. Распределение выборки имеет значение
при валидации и выборе модели
Пусть распределение тестовой выборки
P(A) = P(B) = 0.5
а распределение “реальности”
P∗
(A) = 0.4, P∗
(B) = 0.6
Предложенная модель дает
recallA = 0.8, recallB = 0.6
тогда accuracy на тестовой выборке и в “реальности” (упс):
acc = 0.7, acc∗
= 0.68
6 / 9
13. Выводы
разработка реальной системы ! = решение задачи на kaggle
больше данных – лучше, чем сложная модель
oversampling решает вопросы
следить за переобучением, везде
8 / 9