SlideShare a Scribd company logo
Лекция 1
Задачи Data Mining
Николай Анохин
25 сентября 2014 г.
Николай Анохин
e-mail: n.anokhin@corp.mail.ru
тел.: +7 (903) 111-44-60
1 / 23
План лекции
Структура курса
Что такое Data Mining
Процесс Data Mining
Exploratory data analysis
2 / 23
Структура курса
Модуль 1
1. Задачи Data Mining (Николай Анохин)
2. Задача кластеризации и EM-алгоритм (Николай Анохин)
3. Различные алгоритмы кластеризации (Николай Анохин)H
4. Задача классификации (Николай Анохин)
5. Naive Bayes (Николай Анохин)
6. Линейные модели (Николай Анохин)
7. Метод опорных векторов (Николай Анохин)HP
Модуль 2
1. Снижение размерности пространства (Владимир Гулин)
2. Алгоритмические композиции 1 (Владимир Гулин)
3. Алгоритмические композиции 2 (Владимир Гулин)H
4. Нейросети, обучение с учителем (Павел Нестеров)H
5. Нейросети, обучение без учителя (Павел Нестеров)
6. Нейросети, глубокие сети (Павел Нестеров)
3 / 23
Контроль знаний
ДЗ
4 домашних задания на 6-8 часов самостоятельной работы каждое
(4x15 баллов)
Экзамен
Презентация и защита семестрового проекта
(40 баллов)
4 / 23
Правила
+ Можно задавать вопросы по ходу лекции
+ Можно входить и выходить, не мешая коллегам
— Нельзя нарушать порядок в аудитории
— Нельзя разговаривать по телефону
Общение с преподавателем на “Вы”
Ваши правила?
5 / 23
DM как KDD
Data Mining
Процесс извлечения знаний из различных источников данных, таких
как базы данных, текст, картинки, видео и т.д. Полученные знания
должны быть достоверными, полезными и интерпретируемыми.
6 / 23
DM как моделирование
Data Mining
Процесс построения модели, хорошо описывающей закономерности,
которые порождают данные.
Подходы к построению моделей
 cтатистический
 на основании машинного обучения
 вычислительный
7 / 23
DM и DS
Data Scientist
Person who is better at statistics than any software engineer and better
at software engineering than any statistician
(J. Wills, Data Scientist at Cloudera Inc.)
Data-
 -architecture
 -acquisition
 -analysis
 -archiving
8 / 23
Success stories
(a) Google (b) LinkedIn
(c) KnowDelay (d) Handwritten digits
9 / 23
Fail (Программа TIA)
Наблюдаем 109
человек
Человек в среднем посещает отель раз в 100 дней
Есть 105
отелей на 100 человек каждый
Проверим посещения за 1000 дней
Вероятность для конкретной пары встретиться в отеле в конкретный
день:
p1 =
1
100
2
· 10−5
= 10−9
Всего пар людей
npp = C109
2 ≈
(109
)2
2
= 5 · 1017
а пар дней
npd = C103
2 ≈
(103
)2
2
= 5 · 105
Ожидаемое количество “подозрительных” встреч в отелях
N = p2
1nppnpd = 250000  10
10 / 23
Принцип Бонферрони
Вычислить количество рассматриваемых событий при
предположении их полной случайности. Если это количество
намного превосходит количество событий, о котором идет речь в
задаче, полученные результаты нельзя будет считать достоверными.
11 / 23
Cross Industry Standard Process for Data Mining
CRISP-DM
SPSS
Teradata
Daimler AG
NCR Corporation
OHRA
IBM
Другие процессы: KDD, SEMMA
12 / 23
Задача: на рыболовном
предприятии автоматизировать
сортировку улова
(a) Сибас
(b) Лосось
13 / 23
Признаки
D – множество объектов (data set)
d ∈ D – обучающий объект
φj : D → Fj – признак
Виды признаков
Бинарные/Binary
Fj = {true, false}
Номинальные/Categorical
Fj – конечно
Порядковый/Ordinal
Fj – конечно, упорядочено
Количественный/Numerical
Fj = R
Представление di
xi = (φ1(di ), . . . , φn(di )) ∈ X
14 / 23
Удаление шума
Заполнение отсутствующих
значений
Трансформация факторов
Выбор факторов
Использование априорных
знаний
В итоге:
X =


x1
. . .
xN

 , xi ∈ X
Y =


y1
. . .
yN

 , yi ∈ Y
15 / 23
Модель
семейство параметрических
функций вида
H = {h(x, θ) : X × Θ → Y}
Алгоритм обучения
выбор наилучших параметров θ∗
A(X, Y ) : (X × Y)N
→ Θ
В итоге:
h∗
(x) = h(x, θ∗
)
16 / 23
точность или аппроксимация?
bias или variance?
интерпретируемость или
качество?
17 / 23
18 / 23
Exploratory data analysis
EDA направлен на предварительное изучение данных
формироваие гипотез относително структуры данных
выбор необходимых инструментов анализа
Особенность метода состоит в визуализации и поиске важных
характеристик и тенденций
19 / 23
Примеры
(a) Plot (b) Scatter (c) Barplot
(d) Piechart (e) Heatmap (f) Boxplot
20 / 23
Полезные советы
Все познается в сравнении
Причинно-следственные связи
Размерность имеет значение
(больше-лучше)
Не избегать пояснений
Content is king
21 / 23
Задача
Дано: информация о посещении пользователями интернет-сайтов
Требуется: исследовать распределение количества уникальных
пользователей в зависимости от популярности сайта
Пошаговая инструкция
1. Скачать файл с данными (400M) http://bit.ly/1xdOrHD
2. Скачать и запустить шаблон кода на python
http://bit.ly/1B6fEcO
$ python eda.py -h
$ python eda.py -n 20 eda.dat
3. Заполнить функцию top_domain_user_counts
4. Заполнить функцию plot_log_top_domains и посмотреть на
распределение в log-log шкале
5. Заполнить функцию plot_linear_model, попутно осознав
параметры модели
6. Выписать полученное распределение nusers(rank)
22 / 23
Вопросы

More Related Content

What's hot

2 distribuições discretas
2   distribuições discretas2   distribuições discretas
2 distribuições discretasFernando Lucas
 
Gaussian Process Regression
Gaussian Process Regression  Gaussian Process Regression
Gaussian Process Regression
SEMINARGROOT
 
Aula 8 profmat congruencias - 20 10-17
Aula 8   profmat congruencias - 20 10-17Aula 8   profmat congruencias - 20 10-17
Aula 8 profmat congruencias - 20 10-17
Aline Guedes
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9J M
 
Clustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture modelClustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture model
jins0618
 
Probabilidade e Estatística
Probabilidade e EstatísticaProbabilidade e Estatística
Probabilidade e Estatística
rubensejunior
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosRegis Andrade
 
Função composta
Função compostaFunção composta
Função composta
luizleira
 
AI 8 | Probability Basics, Bayes' Rule, Probability Distribution
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionAI 8 | Probability Basics, Bayes' Rule, Probability Distribution
AI 8 | Probability Basics, Bayes' Rule, Probability Distribution
Mohammad Imam Hossain
 
Função do 1º grau em ppt
Função do 1º grau em pptFunção do 1º grau em ppt
Função do 1º grau em ppt
Lucimeires Cabral Dias
 
Aula 10 profmat - congruencias lineares e quadraticas - 10 11-17
Aula 10   profmat - congruencias lineares e quadraticas - 10 11-17Aula 10   profmat - congruencias lineares e quadraticas - 10 11-17
Aula 10 profmat - congruencias lineares e quadraticas - 10 11-17
Aline Guedes
 
Jeu lean management
Jeu lean managementJeu lean management
Jeu lean management
CIPE
 
Resumo de matemática (números complexos e matrizes)
Resumo de matemática (números complexos e matrizes)Resumo de matemática (números complexos e matrizes)
Resumo de matemática (números complexos e matrizes)
Elton Crn
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
Arlindo Correia
 
Resolução comentada matemática 002
Resolução comentada matemática  002Resolução comentada matemática  002
Resolução comentada matemática 002comentada
 
On the stability of clustering financial time series
On the stability of clustering financial time seriesOn the stability of clustering financial time series
On the stability of clustering financial time series
Gautier Marti
 

What's hot (20)

2 distribuições discretas
2   distribuições discretas2   distribuições discretas
2 distribuições discretas
 
Gaussian Process Regression
Gaussian Process Regression  Gaussian Process Regression
Gaussian Process Regression
 
Aula 8 profmat congruencias - 20 10-17
Aula 8   profmat congruencias - 20 10-17Aula 8   profmat congruencias - 20 10-17
Aula 8 profmat congruencias - 20 10-17
 
Estatistica regular 9
Estatistica regular 9Estatistica regular 9
Estatistica regular 9
 
Matemática básica derivada e integral
Matemática básica   derivada e integralMatemática básica   derivada e integral
Matemática básica derivada e integral
 
Clustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture modelClustering:k-means, expect-maximization and gaussian mixture model
Clustering:k-means, expect-maximization and gaussian mixture model
 
Probabilidade e Estatística
Probabilidade e EstatísticaProbabilidade e Estatística
Probabilidade e Estatística
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
 
Função composta
Função compostaFunção composta
Função composta
 
AI 8 | Probability Basics, Bayes' Rule, Probability Distribution
AI 8 | Probability Basics, Bayes' Rule, Probability DistributionAI 8 | Probability Basics, Bayes' Rule, Probability Distribution
AI 8 | Probability Basics, Bayes' Rule, Probability Distribution
 
Função do 1º grau em ppt
Função do 1º grau em pptFunção do 1º grau em ppt
Função do 1º grau em ppt
 
Aula 10 profmat - congruencias lineares e quadraticas - 10 11-17
Aula 10   profmat - congruencias lineares e quadraticas - 10 11-17Aula 10   profmat - congruencias lineares e quadraticas - 10 11-17
Aula 10 profmat - congruencias lineares e quadraticas - 10 11-17
 
6 Sigma
6 Sigma6 Sigma
6 Sigma
 
Jeu lean management
Jeu lean managementJeu lean management
Jeu lean management
 
Resumo de matemática (números complexos e matrizes)
Resumo de matemática (números complexos e matrizes)Resumo de matemática (números complexos e matrizes)
Resumo de matemática (números complexos e matrizes)
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
 
Exercicios derivada lista3
Exercicios derivada lista3Exercicios derivada lista3
Exercicios derivada lista3
 
Resolução comentada matemática 002
Resolução comentada matemática  002Resolução comentada matemática  002
Resolução comentada matemática 002
 
On the stability of clustering financial time series
On the stability of clustering financial time seriesOn the stability of clustering financial time series
On the stability of clustering financial time series
 
6 teste de hipótese
6   teste de hipótese6   teste de hipótese
6 teste de hipótese
 

Viewers also liked

Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
Technosphere1
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
Technosphere1
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Technosphere1
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
Technosphere1
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
Technosphere1
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russia
rusbase.vc
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
Technosphere1
 
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Bitworks Software
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: ЗаключительнаяTechnosphere1
 
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
WG_ Events
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.org
WG_ Events
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
WG_ Events
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
Technosphere1
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
WG_ Events
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
Technosphere1
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
Technosphere1
 
Как построить стратегию интернет-маркетинга
Как построить стратегию интернет-маркетингаКак построить стратегию интернет-маркетинга
Как построить стратегию интернет-маркетинга
Нетология
 

Viewers also liked (20)

Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russia
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правилData Mining. Анализ рыночной корзины. Поиск ассоциативных правил
Data Mining. Анализ рыночной корзины. Поиск ассоциативных правил
 
L13: Заключительная
L13: ЗаключительнаяL13: Заключительная
L13: Заключительная
 
Webdev7 (2)
Webdev7 (2)Webdev7 (2)
Webdev7 (2)
 
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
Интегрировать сторонний продукт или пилить самим? К вопросу о выборе системы ...
 
Петрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.orgПетрова Ксения - Data mining на практике - dmlabs.org
Петрова Ксения - Data mining на практике - dmlabs.org
 
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
Оценка потенциала игрового продукта по косвенным признакам / Борис Cиницкий д...
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
 
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
Self Service BI. Как перейти от Excel к визуализации / Иван Климович для Data...
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Как построить стратегию интернет-маркетинга
Как построить стратегию интернет-маркетингаКак построить стратегию интернет-маркетинга
Как построить стратегию интернет-маркетинга
 

Similar to Лекция №1 "Задачи Data Mining"

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераYandex
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
Andrey Ustyuzhanin
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06Computer Science Club
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
Technosphere1
 
Метод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёлМетод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёл
Kirill Netreba
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
maxkalachev
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхSoftline
 
Обработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявленийОбработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявлений
corehard_by
 
Vychislenie proizvodnoj
Vychislenie proizvodnojVychislenie proizvodnoj
Vychislenie proizvodnoj
Иван Иванов
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
Technosphere1
 
001умнов
001умнов001умнов
001умнов
Alexandra Kaminskaya
 
002умнов
002умнов002умнов
002умнов
Yandex
 

Similar to Лекция №1 "Задачи Data Mining" (13)

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 
Метод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёлМетод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёл
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Обработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявленийОбработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявлений
 
Vychislenie proizvodnoj
Vychislenie proizvodnojVychislenie proizvodnoj
Vychislenie proizvodnoj
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
 
001умнов
001умнов001умнов
001умнов
 
002умнов
002умнов002умнов
002умнов
 
002умнов
002умнов002умнов
002умнов
 

More from Technosphere1

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
Technosphere1
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
Technosphere1
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
Technosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
Technosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
Technosphere1
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
Technosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
Technosphere1
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
Technosphere1
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
Technosphere1
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
Technosphere1
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
Technosphere1
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
Technosphere1
 

More from Technosphere1 (13)

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 

Лекция №1 "Задачи Data Mining"

  • 1. Лекция 1 Задачи Data Mining Николай Анохин 25 сентября 2014 г.
  • 3. План лекции Структура курса Что такое Data Mining Процесс Data Mining Exploratory data analysis 2 / 23
  • 4. Структура курса Модуль 1 1. Задачи Data Mining (Николай Анохин) 2. Задача кластеризации и EM-алгоритм (Николай Анохин) 3. Различные алгоритмы кластеризации (Николай Анохин)H 4. Задача классификации (Николай Анохин) 5. Naive Bayes (Николай Анохин) 6. Линейные модели (Николай Анохин) 7. Метод опорных векторов (Николай Анохин)HP Модуль 2 1. Снижение размерности пространства (Владимир Гулин) 2. Алгоритмические композиции 1 (Владимир Гулин) 3. Алгоритмические композиции 2 (Владимир Гулин)H 4. Нейросети, обучение с учителем (Павел Нестеров)H 5. Нейросети, обучение без учителя (Павел Нестеров) 6. Нейросети, глубокие сети (Павел Нестеров) 3 / 23
  • 5. Контроль знаний ДЗ 4 домашних задания на 6-8 часов самостоятельной работы каждое (4x15 баллов) Экзамен Презентация и защита семестрового проекта (40 баллов) 4 / 23
  • 6. Правила + Можно задавать вопросы по ходу лекции + Можно входить и выходить, не мешая коллегам — Нельзя нарушать порядок в аудитории — Нельзя разговаривать по телефону Общение с преподавателем на “Вы” Ваши правила? 5 / 23
  • 7. DM как KDD Data Mining Процесс извлечения знаний из различных источников данных, таких как базы данных, текст, картинки, видео и т.д. Полученные знания должны быть достоверными, полезными и интерпретируемыми. 6 / 23
  • 8. DM как моделирование Data Mining Процесс построения модели, хорошо описывающей закономерности, которые порождают данные. Подходы к построению моделей cтатистический на основании машинного обучения вычислительный 7 / 23
  • 9. DM и DS Data Scientist Person who is better at statistics than any software engineer and better at software engineering than any statistician (J. Wills, Data Scientist at Cloudera Inc.) Data- -architecture -acquisition -analysis -archiving 8 / 23
  • 10. Success stories (a) Google (b) LinkedIn (c) KnowDelay (d) Handwritten digits 9 / 23
  • 11. Fail (Программа TIA) Наблюдаем 109 человек Человек в среднем посещает отель раз в 100 дней Есть 105 отелей на 100 человек каждый Проверим посещения за 1000 дней Вероятность для конкретной пары встретиться в отеле в конкретный день: p1 = 1 100 2 · 10−5 = 10−9 Всего пар людей npp = C109 2 ≈ (109 )2 2 = 5 · 1017 а пар дней npd = C103 2 ≈ (103 )2 2 = 5 · 105 Ожидаемое количество “подозрительных” встреч в отелях N = p2 1nppnpd = 250000 10 10 / 23
  • 12. Принцип Бонферрони Вычислить количество рассматриваемых событий при предположении их полной случайности. Если это количество намного превосходит количество событий, о котором идет речь в задаче, полученные результаты нельзя будет считать достоверными. 11 / 23
  • 13. Cross Industry Standard Process for Data Mining CRISP-DM SPSS Teradata Daimler AG NCR Corporation OHRA IBM Другие процессы: KDD, SEMMA 12 / 23
  • 14. Задача: на рыболовном предприятии автоматизировать сортировку улова (a) Сибас (b) Лосось 13 / 23
  • 15. Признаки D – множество объектов (data set) d ∈ D – обучающий объект φj : D → Fj – признак Виды признаков Бинарные/Binary Fj = {true, false} Номинальные/Categorical Fj – конечно Порядковый/Ordinal Fj – конечно, упорядочено Количественный/Numerical Fj = R Представление di xi = (φ1(di ), . . . , φn(di )) ∈ X 14 / 23
  • 16. Удаление шума Заполнение отсутствующих значений Трансформация факторов Выбор факторов Использование априорных знаний В итоге: X =   x1 . . . xN   , xi ∈ X Y =   y1 . . . yN   , yi ∈ Y 15 / 23
  • 17. Модель семейство параметрических функций вида H = {h(x, θ) : X × Θ → Y} Алгоритм обучения выбор наилучших параметров θ∗ A(X, Y ) : (X × Y)N → Θ В итоге: h∗ (x) = h(x, θ∗ ) 16 / 23
  • 18. точность или аппроксимация? bias или variance? интерпретируемость или качество? 17 / 23
  • 20. Exploratory data analysis EDA направлен на предварительное изучение данных формироваие гипотез относително структуры данных выбор необходимых инструментов анализа Особенность метода состоит в визуализации и поиске важных характеристик и тенденций 19 / 23
  • 21. Примеры (a) Plot (b) Scatter (c) Barplot (d) Piechart (e) Heatmap (f) Boxplot 20 / 23
  • 22. Полезные советы Все познается в сравнении Причинно-следственные связи Размерность имеет значение (больше-лучше) Не избегать пояснений Content is king 21 / 23
  • 23. Задача Дано: информация о посещении пользователями интернет-сайтов Требуется: исследовать распределение количества уникальных пользователей в зависимости от популярности сайта Пошаговая инструкция 1. Скачать файл с данными (400M) http://bit.ly/1xdOrHD 2. Скачать и запустить шаблон кода на python http://bit.ly/1B6fEcO $ python eda.py -h $ python eda.py -n 20 eda.dat 3. Заполнить функцию top_domain_user_counts 4. Заполнить функцию plot_log_top_domains и посмотреть на распределение в log-log шкале 5. Заполнить функцию plot_linear_model, попутно осознав параметры модели 6. Выписать полученное распределение nusers(rank) 22 / 23