Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №1 "Задачи Data Mining"
Лектор - Николай Анохин
Обзор задач Data Mining. Стандартизация подхода к решению задач Data Mining. Процесс CRISP-DM. Виды данных. Кластеризация, классификация, регрессия. Понятие модели и алгоритма обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Unsupervised learning representation with Deep Convolutional Generative Adversarial Network, Paper by Alec Radford, Luke Metz, and Soumith Chintala
(indico Research, Facebook AI Research).
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №11 "Основы нейронных сетей"
Лектор - Павел Нестеров
Биологический нейрон и нейронные сети. Искусственный нейрон Маккалока-Питтса и искусственная нейронная сеть. Персептрон Розенблатта и Румельхарта. Алгоритм обратного распространения ошибки. Момент обучения, регуляризация в нейросети, локальная скорость обучения, softmax слой. Различные режимы обучения.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Unsupervised learning representation with Deep Convolutional Generative Adversarial Network, Paper by Alec Radford, Luke Metz, and Soumith Chintala
(indico Research, Facebook AI Research).
References:
"Gaussian Process", Lectured by Professor Il-Chul Moon
"Gaussian Processes", Cornell CS4780 , Lectured by Professor
Kilian Weinberger
Bayesian Deep Learning by Sungjoon Choi
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionMohammad Imam Hossain
1. Uncertainty and Decision Theory
2. Basic Prob. Theory
3. Prior and posterior probabilities
4. Bayes' Rule
5. Random variable
6. Different types of probability distribution
On the stability of clustering financial time seriesGautier Marti
Talk at IEEE ICMLA 2015 Miami
In this presentation, we suggest some data perturbations that can help to validate or reject a clustering methodology besides yielding insights on the time series at hand. We show in this study that Pearson correlation is not that relevant for clustering these time series since it yields unstable clusters; prefer a more robust measure such as Spearman correlation based on rank statistics.
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №3 "Различные алгоритмы кластеризации"
Лектор - Николай Анохин
Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
References:
"Gaussian Process", Lectured by Professor Il-Chul Moon
"Gaussian Processes", Cornell CS4780 , Lectured by Professor
Kilian Weinberger
Bayesian Deep Learning by Sungjoon Choi
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionMohammad Imam Hossain
1. Uncertainty and Decision Theory
2. Basic Prob. Theory
3. Prior and posterior probabilities
4. Bayes' Rule
5. Random variable
6. Different types of probability distribution
On the stability of clustering financial time seriesGautier Marti
Talk at IEEE ICMLA 2015 Miami
In this presentation, we suggest some data perturbations that can help to validate or reject a clustering methodology besides yielding insights on the time series at hand. We show in this study that Pearson correlation is not that relevant for clustering these time series since it yields unstable clusters; prefer a more robust measure such as Spearman correlation based on rank statistics.
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лектор - Николай Анохин
Постановка задачи кластеризации. Функции расстояния. Критерии качества кластеризации. EM-алгоритм. K-means и модификации.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №3 "Различные алгоритмы кластеризации"
Лектор - Николай Анохин
Иерархическая кластеризация. Agglomerative и Divisive алгоритмы. Различные виды расстояний между кластерами. Stepwise-optimal алгоритм. Случай неэвклидовых пространств. Критерии выбора количества кластеров: rand, silhouette. DBSCAN.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №10 "Алгоритмические композиции. Завершение"
Лектор - Владимир Гулин
Ключевые идеи бустинга. Отличия бустинга и бэггинга. Алгорим AdaBoost. Градиентный бустинг. Мета-алгоритмы над алгоритмическими композициями. Алгоритм BagBoo.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №7 "Машина опорных векторов"
Лектор - Николай Анохин
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. KKT-условия. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №8 "Методы снижения размерности пространства"
Лектор - Владимир Гулин
Проблема проклятия размерности. Отбор и выделение признаков. Методы выделения признаков (feature extraction). Метод главных компонент (PCA). Метод независимых компонент (ICA). Методы основанные на автоэнкодерах. Методы отбора признаков (feature selection). Методы основанные на взаимной корреляции признаков. Метод максимальной релевантность и минимальной избыточности (mRMR). Методы основанные на деревьях решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №5 "Обработка текстов, Naive Bayes"
Лектор - Николай Анохин
Условная вероятность и теорема Байеса. Нормальное распределение. Naive Bayes: multinomial, binomial, gaussian. Сглаживание. Генеративная модель NB и байесовский вывод. Графические модели.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...WG_ Events
Многие проекты рано или поздно встают перед выбором – какую систему аналитики выбрать? Создавать что-то самим или брать готовое решение на рынке? А если брать, то как выбрать оптимальный вариант? Василий расскажет о том, какие существуют системы аналитики, чем они отличаются друг от друга, как они интегрируются в продукт и чем могут быть ему полезны.
Петрова Ксения - Data mining на практике - dmlabs.orgWG_ Events
В своем докладе Ксения рассказала об основных ошибках в Data Minning и как их избежать. Она объяснла, как выглядит цикл по решению задач в анализе данных и почему задачи нельзя решить "в лоб".
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...WG_ Events
Многие проекты рано или поздно встают перед выбором – какую систему аналитики выбрать? Создавать что-то самим или брать готовое решение на рынке? А если брать, то как выбрать оптимальный вариант? Василий расскажет о том, какие существуют системы аналитики, чем они отличаются друг от друга, как они интегрируются в продукт и чем могут быть ему полезны.
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...WG_ Events
Более 5 лет в сфере веб-аналитики. Работал как в качестве внешнего консультанта, так и внутри продуктовой компании. Основной инструмент в работе – Tableau. Последние полтора года работает над развитием Tableau-студии (Disrupt).
Как построить стратегию интернет-маркетингаНетология
Краеугольные понятия интернет-маркетинга и шесть простых шагов, благодаря которым вы сможете быстро создать стратегию продвижения вашей компании. Опытом делится Андрей Гавриков, CEO «Комплето».
Вы научитесь:
— различать интернет-маркетинг, электронный маркетинг и маркет-микс;
— определять ваши маркетинговые цели;
— создавать структуру формирования эффективного маркетинга для вашего бизнеса.
Видеоверсию программы «На 10 минут круче» смотрите по ссылке: http://netolo.gy/ov
Методы машинного обучения в физике элементарных частицAndrey Ustyuzhanin
рассмотрим основные этапы обработки данных физики высоких энергий на примере одного из экспериментов Большого Адронного Коллайдера — LHCb; мы увидим насколько похожими оказываются решения отдельных задач LHCb на решения, используемые в Яндексе.
Предлагаемый угол зрения на проблемы физики элементарных частиц позволяет увидеть возможности, открывающиеся от взаимного расширения спектра методов и технологий, а также возможность проведении междисциплинарных исследований, способных усилить каждую из этих областей.
Метод искусственной пчелиной колонии, алгоритм пчёлKirill Netreba
A new population-based search algorithm called the Bees Algorithm (BA) is presented. The algorithm mimics the food foraging behaviour of swarms of honey bees. In its basic version, the algorithm performs a kind of neighbourhood search combined with random search and can be used for both combinatorial optimisation and functional optimisation.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №13 "Глубокие нейронные сети"
Лектор - Павел Нестеров
Трудности обучения многослойного персептрона. Предобучение используя РБМ. Глубокий автоэнкодер, глубокая многослойная нейросеть. Deep belief network и deep Boltzmann machine. Устройство человеческого глаза и зрительной коры головного мозга. Сверточные сети.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №12 "Ограниченная машина Больцмана"
Лектор - Павел Нестеров
Нейросетейвой автоэнкодер. Стохастические и рекурентные нейронные сети. Машина Больцмана и ограниченная машина Больцмана. Распределение Гиббса. Алгоритм contrastive divergence для обучения РБМ. Сэмплирование данных из РБМ. Бинарная РБМ и гауссово-бинарная РБМ. Влияние регуляризации, нелинейное сжатие размерности, извлечение признаков. Semantic hashing.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №9 "Алгоритмические композиции. Начало"
Лектор - Владимир Гулин
Комбинации классификаторов. Модельные деревья решений. Смесь экспертов. Stacking. Стохастические методы построения ансамблей классификаторов. Bagging. RSM. Алгоритм RandomForest.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
4. Структура курса
Модуль 1
1. Задачи Data Mining (Николай Анохин)
2. Задача кластеризации и EM-алгоритм (Николай Анохин)
3. Различные алгоритмы кластеризации (Николай Анохин)H
4. Задача классификации (Николай Анохин)
5. Naive Bayes (Николай Анохин)
6. Линейные модели (Николай Анохин)
7. Метод опорных векторов (Николай Анохин)HP
Модуль 2
1. Снижение размерности пространства (Владимир Гулин)
2. Алгоритмические композиции 1 (Владимир Гулин)
3. Алгоритмические композиции 2 (Владимир Гулин)H
4. Нейросети, обучение с учителем (Павел Нестеров)H
5. Нейросети, обучение без учителя (Павел Нестеров)
6. Нейросети, глубокие сети (Павел Нестеров)
3 / 23
5. Контроль знаний
ДЗ
4 домашних задания на 6-8 часов самостоятельной работы каждое
(4x15 баллов)
Экзамен
Презентация и защита семестрового проекта
(40 баллов)
4 / 23
6. Правила
+ Можно задавать вопросы по ходу лекции
+ Можно входить и выходить, не мешая коллегам
— Нельзя нарушать порядок в аудитории
— Нельзя разговаривать по телефону
Общение с преподавателем на “Вы”
Ваши правила?
5 / 23
7. DM как KDD
Data Mining
Процесс извлечения знаний из различных источников данных, таких
как базы данных, текст, картинки, видео и т.д. Полученные знания
должны быть достоверными, полезными и интерпретируемыми.
6 / 23
8. DM как моделирование
Data Mining
Процесс построения модели, хорошо описывающей закономерности,
которые порождают данные.
Подходы к построению моделей
cтатистический
на основании машинного обучения
вычислительный
7 / 23
9. DM и DS
Data Scientist
Person who is better at statistics than any software engineer and better
at software engineering than any statistician
(J. Wills, Data Scientist at Cloudera Inc.)
Data-
-architecture
-acquisition
-analysis
-archiving
8 / 23
11. Fail (Программа TIA)
Наблюдаем 109
человек
Человек в среднем посещает отель раз в 100 дней
Есть 105
отелей на 100 человек каждый
Проверим посещения за 1000 дней
Вероятность для конкретной пары встретиться в отеле в конкретный
день:
p1 =
1
100
2
· 10−5
= 10−9
Всего пар людей
npp = C109
2 ≈
(109
)2
2
= 5 · 1017
а пар дней
npd = C103
2 ≈
(103
)2
2
= 5 · 105
Ожидаемое количество “подозрительных” встреч в отелях
N = p2
1nppnpd = 250000 10
10 / 23
12. Принцип Бонферрони
Вычислить количество рассматриваемых событий при
предположении их полной случайности. Если это количество
намного превосходит количество событий, о котором идет речь в
задаче, полученные результаты нельзя будет считать достоверными.
11 / 23
13. Cross Industry Standard Process for Data Mining
CRISP-DM
SPSS
Teradata
Daimler AG
NCR Corporation
OHRA
IBM
Другие процессы: KDD, SEMMA
12 / 23
15. Признаки
D – множество объектов (data set)
d ∈ D – обучающий объект
φj : D → Fj – признак
Виды признаков
Бинарные/Binary
Fj = {true, false}
Номинальные/Categorical
Fj – конечно
Порядковый/Ordinal
Fj – конечно, упорядочено
Количественный/Numerical
Fj = R
Представление di
xi = (φ1(di ), . . . , φn(di )) ∈ X
14 / 23
20. Exploratory data analysis
EDA направлен на предварительное изучение данных
формироваие гипотез относително структуры данных
выбор необходимых инструментов анализа
Особенность метода состоит в визуализации и поиске важных
характеристик и тенденций
19 / 23
22. Полезные советы
Все познается в сравнении
Причинно-следственные связи
Размерность имеет значение
(больше-лучше)
Не избегать пояснений
Content is king
21 / 23
23. Задача
Дано: информация о посещении пользователями интернет-сайтов
Требуется: исследовать распределение количества уникальных
пользователей в зависимости от популярности сайта
Пошаговая инструкция
1. Скачать файл с данными (400M) http://bit.ly/1xdOrHD
2. Скачать и запустить шаблон кода на python
http://bit.ly/1B6fEcO
$ python eda.py -h
$ python eda.py -n 20 eda.dat
3. Заполнить функцию top_domain_user_counts
4. Заполнить функцию plot_log_top_domains и посмотреть на
распределение в log-log шкале
5. Заполнить функцию plot_linear_model, попутно осознав
параметры модели
6. Выписать полученное распределение nusers(rank)
22 / 23