Data Science and Machine learning overview by CleverDATA Data Scientist Konstantin Obukhov for meet up with Moscow Economics and Statistic Institute's students in Dec 2014
2. Данные
растут
с
невероятной
скоростью
cleverdata.ru
|
info@cleverdata.ru
Каждую
минуту:
2
миллиона
поисковых
запросов
72
часа
видео
загружается
на
YouTube
500К
+
твитов
90%
всех
данных
было
создано
за
последние
2
года
3. Big
Data
–
объем,
скорость,
разнообразие
cleverdata.ru
|
info@cleverdata.ru
Real
Time
Periodic
Batch
PB
GB
MB
Unstructured
Web,
Photo,
Audio
Tables
4. cleverdata.ru
|
info@cleverdata.ru
Data
Science
для
бизнеса
Data
Science
превращает
объем,
скорость
и
разнообразие
Big
Data
в
знания,
которые
позволяют
вывести
бизнес
на
новый
уровень
5. Data
Analygcs
vs
Data
Science
cleverdata.ru
|
info@cleverdata.ru
Гипотеза
Данные
Ответ
Данные
сами
порождают
анализ
6. cleverdata.ru
|
info@cleverdata.ru
Что
изучает
Data
Science?
Теория
вероятностей
и
математическая
статистика
Машинное
обучение
и
распознавание
образов
Глубинное
обучение
(Deep
Learning)
Обработка
естественного
языка
(NLP)
7. cleverdata.ru
|
info@cleverdata.ru
Машинное
обучение
Машинное
обучение
изучает
методы
построения
моделей
и
алгоритмов,
способных
обучаться
на
данных
Данные
Алгоритм
Модель
8. cleverdata.ru
|
info@cleverdata.ru
Supervised
Learning
• Необходимо
задать
обучающую
выборку
–
набор
данных
признаки
:
результат
• Алгоритм
применяется
для
распознавания
неизвестных
объектов
Классификация
Регрессия
9. cleverdata.ru
|
info@cleverdata.ru
Unsupervised
Learning
• Для
обучения
нужна
выборка
только
признаков
• Алгоритм
применяется
для
обнаружения
взаимосвязей
и
закономерностей
между
объектами
Кластеризация
Поиск
ассоциативных
правил
11. Шаг
1.
Собрать
обучающую
выборку
cleverdata.ru
|
info@cleverdata.ru
1.4
м
0.35
м
# Вес
Рост
Длина
0.5
м
0.25
м
Наличие
хвоста
Положение
Длина
хвоста
Класс
Пространство
признаков
Целевая
переменная
3
кг
12. cleverdata.ru
|
info@cleverdata.ru
Шаг
2.
Убрать
выбросы
Вес
(кг)
2.8
1.9
25
2.4
1.6
Среднее
=
6,7
кг
Медиана
=
2,4
кг
выброс
Медиана
не
чувствительна
к
выбросам
13. Шаг
3.
Найти
предиктивные
признаки
cleverdata.ru
|
info@cleverdata.ru
Вес
Рост
Длина
Наличие
хвоста
Положение
Длина
хвоста
Вес
Рост
Длина
Длина
хвоста
Feature
Selecgon
Отбор
релевантных
признаков,
влияющих
на
целевую
переменную
14. cleverdata.ru
|
info@cleverdata.ru
Шаг
4.
Обучить
алгоритм
Алгоритмы
классификации
KNN
Decision
Trees
Logisvc
Regression
Naïve
Bayes
SVM
Train
Set
Test
Set
С
помощью
кросс
валидации
достигается
максимальная
точность
на
тестовых
данных
15. cleverdata.ru
|
info@cleverdata.ru
Что
такое
переобучение?
Недообучение
Переобучение
У
переобученной
модели
очень
низкая
точность
на
тестовой
выборке
16. Шаг
5.
Провести
анализ
результатов
Вероятностные
модели
сопоставляют
объекту
вероятность
класса
P(Кошка)
P(Собака)
75%
25%
13%
87%
40%
60%
90%
10%
50%
50%
cleverdata.ru
|
info@cleverdata.ru
Модель
сопоставляет
новому
объекту
его
класс
17. cleverdata.ru
|
info@cleverdata.ru
Статистическая
среда
R
Статистическая
обработка
данных
Построение
моделей
машинного
обучения
Работа
с
графикой,
аналитика
Распознавание
текста
Рекомендательные
системы
Скоринговые
модели
18. cleverdata.ru
|
info@cleverdata.ru
Распознавание
текста
Text
mining
-‐
выявление
информации
из
текстовых
документов
и
классификация
их
в
рамках
заданной
таксономии