Ключевые идеи алгоритмов обучения по прецедентам и почему про них следует помнить при выборе алгоритма и его настройке, поиске оптимальных параметров. Какие подходы позволяют повысить качество модели, какие программные средства удобно использовать при проведении экспериментов и где спрятаны любимые “грабли”.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Our fall 12-Week Data Science bootcamp starts on Sept 21st,2015. Apply now to get a spot!
If you are hiring Data Scientists, call us at (1)888-752-7585 or reach info@nycdatascience.com to share your openings and set up interviews with our excellent students.
---------------------------------------------------------------
Come join our meet-up and learn how easily you can use R for advanced Machine learning. In this meet-up, we will demonstrate how to understand and use Xgboost for Kaggle competition. Tong is in Canada and will do remote session with us through google hangout.
---------------------------------------------------------------
Speaker Bio:
Tong is a data scientist in Supstat Inc and also a master students of Data Mining. He has been an active R programmer and developer for 5 years. He is the author of the R package of XGBoost, one of the most popular and contest-winning tools on kaggle.com nowadays.
Pre-requisite(if any): R /Calculus
Preparation: A laptop with R installed. Windows users might need to have RTools installed as well.
Agenda:
Introduction of Xgboost
Real World Application
Model Specification
Parameter Introduction
Advanced Features
Kaggle Winning Solution
Event arrangement:
6:45pm Doors open. Come early to network, grab a beer and settle in.
7:00-9:00pm XgBoost Demo
Reference:
https://github.com/dmlc/xgboost
Gradient Boosted Regression Trees in scikit-learnDataRobot
Slides of the talk "Gradient Boosted Regression Trees in scikit-learn" by Peter Prettenhofer and Gilles Louppe held at PyData London 2014.
Abstract:
This talk describes Gradient Boosted Regression Trees (GBRT), a powerful statistical learning technique with applications in a variety of areas, ranging from web page ranking to environmental niche modeling. GBRT is a key ingredient of many winning solutions in data-mining competitions such as the Netflix Prize, the GE Flight Quest, or the Heritage Health Price.
I will give a brief introduction to the GBRT model and regression trees -- focusing on intuition rather than mathematical formulas. The majority of the talk will be dedicated to an in depth discussion how to apply GBRT in practice using scikit-learn. We will cover important topics such as regularization, model tuning and model interpretation that should significantly improve your score on Kaggle.
Top contenders in the 2015 KDD cup include the team from DataRobot comprising Owen Zhang, #1 Ranked Kaggler and top Kagglers Xavier Contort and Sergey Yurgenson. Get an in-depth look as Xavier describes their approach. DataRobot allowed the team to focus on feature engineering by automating model training, hyperparameter tuning, and model blending - thus giving the team a firm advantage.
Предсказание оттока игроков из World of TanksYandex
Одна из наиболее часто возникающих задач в бизнес-аналитике для компаний — это предсказание оттока клиентов. Ведь если заранее знать, что клиент собирается уйти к конкуренту, его можно попытаться остановить. Задача будет рассмотрена на примере прогнозирования оттока игроков из World of Tanks.
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Newprolab
Юрий Макаров, Data Scientist, E-Contenta. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
рассмотрим основные этапы обработки данных физики высоких энергий на примере одного из экспериментов Большого Адронного Коллайдера — LHCb; мы увидим насколько похожими оказываются решения отдельных задач LHCb на решения, используемые в Яндексе.
Предлагаемый угол зрения на проблемы физики элементарных частиц позволяет увидеть возможности, открывающиеся от взаимного расширения спектра методов и технологий, а также возможность проведении междисциплинарных исследований, способных усилить каждую из этих областей.
Станислав Семенов — Консультант по анализу данных, победитель чемпионата ICBD...rusbase
Международная научно-практическая конференция International Conference on Big Data and its Applications (ICBDA) выросла из мероприятия Big Data Russia и проводится один раз в год, объединяя на одной площадке создателей новых технологий в области больших данных, представителей бизнеса, а также научных сотрудников и молодых ученых.
Организаторы: Rusbase и Global Innovation Labs.
Организаторы ICBDA благодарят Data-Centric Alliance (DCA) за поддержку мероприятия, а также отдельное спасибо Artox Media и NVIDIA.
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Similar to Supervised ML in Practice: Tips & Tricks (20)
Everything has its pros and cons, and machine learning algorithms are not an exception. We will discuss several cases where classical methods of machine learning prove to be more effective than neural networks. We will emphasize on the importance of a comprehensive view of machine learning, and rational approach to each problem.
В докладе попытка ответить на вопрос «Кто такой data scientist». На самом деле этим словом разные IT-компании называют принципиально разных специалистов, совместить работу которых сможет в себе лишь утопический data scientist. Рассматривается структура специальностей и академических инициатив в области анализа данных, которые есть в мире, обсудим их программы. На уровне компетенций объясняется, почему читаются именно такие курсы, соответствует ли их содержание ожиданиям индустрии.
Разработка интеллектуальных информационных систем: взгляд изнутриDzianis Pirshtuk
Каждый день в мире обсуждаются новые идеи и алгоритмы анализа быстрорастущих данных, рассказываются, как искусственные нейронные сети все больше захватывают мир и помогают людям. Обычно обсуждений так много, что голова идет кругом. Мы же пробуем рассмотреть на примерах, в сторону каких технологий в каком случае следует смотреть, и на какой список вопросов следует самому себе ответить, планируя разработку новых Data Science-фичей.
Обзорный рассказ про СУБД PostgreSQL, ее место в мире RDBMS и архитектурные особенности для митапа Big Data Minsk User Group 17 марта 2016 г.: https://www.facebook.com/events/1551967968434009/
Видеозапись: https://www.youtube.com/watch?v=_-sdVNwKcEA
Обзорный рассказ про новые возможности в мире PostgreSQL для митапа Big Data Minsk User Group 29 апреля 2016 г.: https://www.facebook.com/events/120784531655479/
3. 3
Обучение с учителем: типы задач
• Бинарная классификация (письмо/спам)
• Классификация (собака, кошка, мышь)
• Регрессия (курс доллара)
• Ранжирование (поисковая выдача)
4. Задача:
Конкурс ОТП Банка 2011
Предсказание отклика клиентов банка
на маркетинговую кампанию
Главная страница конкурса:
http://bit.ly/1DPWwG2
5. 5
Примеры входных данных (признаков)
• Бинарные
– наличие в собственности квартиры
– адрес регистрации и адрес фактического пребывания совпадают
– наличие в собственности автомобиля российского производства :-)
• Числовые
– возраст клиента
– личный доход (в рублях)
– количество месяцев проживания по месту фактического пребывания
– сумма последнего кредита клиента (в рублях)
• Категориальные
– отрасль работы клиента
– должность
– семейное положение
6. 6
Какую метрику выбрать?
• Чувствительность (sensitivity, recall rate) – доля
найденных классификатором «1» из всех «1».
• Точность (precision) – доля истинных «1» из
всех предсказанных «1».
• Специфичность (specificity, false positive rate) –
доля предсказанных «1» из всех «0».
• F1 = 2 * recall * precision / (precision + recall).
14. 14
SVM: качество в конкурсе ОТП Банка
C Train AUC Test AUC
0.05 0.68866 0.65710
0.5 0.74619 0.66544
1.0 0.77207 0.66102
3.0 0.81860 0.64397
7.0 0.85313 0.63001
15. 15
SVM: качество в конкурсе ОТП Банка
C Train AUC Test AUC Количество
опорных вект.
0.05 0.68866 0.65710 13608
0.5 0.74619 0.66544 12262
1.0 0.77207 0.66102 11988
3.0 0.81860 0.64397 11500
7.0 0.85313 0.63001 11013
16. 16
Наивный Байес: качество в конкурсе
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB().fit(X_scaled, y)
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB().fit(X_scaled, y)
• GaussianNB
– Train AUC: 0.64978
– Test AUC: 0.64447
• BernoulliNB
– Train AUC: 0.65662
– Test AUC: 0.65017
23. 23
XGBoost (eXtreme Gradient Boosting)
• https://github.com/tqchen/xgboost
• Apache License 2.0
• Generalized linear and regression tree
boosters
• «Быстрый старт» для задач классификации,
регрессии, ранжирования
• Обертки для Python, R, Julia
• Hadoop & MPI-версии (distributed version)
– Column-based data splitter – разбиение на узлы по колонкам
– Row-based data splitter – разбиение на узлы по строкам
27. 27
Категориальные признаки
• Стратегия 1: заменить категории на доли
«1» в ней
• Стратегия 2: заменить категориальные
признак из N возможных значений на N
бинарных