SlideShare a Scribd company logo
1 of 19
Download to read offline
Make 
your 
data 
clever 
Company 
Profile
Данные 
растут 
с 
невероятной 
скоростью 
cleverdata.ru 
| 
info@cleverdata.ru 
Каждую 
минуту: 
2 
миллиона 
поисковых 
запросов 
72 
часа 
видео 
загружается 
на 
YouTube 
500К 
+ 
твитов 
90% 
всех 
данных 
было 
создано 
за 
последние 
2 
года
Big 
Data 
– 
объем, 
скорость, 
разнообразие 
cleverdata.ru 
| 
info@cleverdata.ru 
Real 
Time 
Periodic 
Batch 
PB 
GB 
MB 
Unstructured 
Web, 
Photo, 
Audio 
Tables
cleverdata.ru 
| 
info@cleverdata.ru 
Data 
Science 
для 
бизнеса 
Data 
Science 
превращает 
объем, 
скорость 
и 
разнообразие 
Big 
Data 
в 
знания, 
которые 
позволяют 
вывести 
бизнес 
на 
новый 
уровень
Data 
Analygcs 
vs 
Data 
Science 
cleverdata.ru 
| 
info@cleverdata.ru 
Гипотеза 
Данные 
Ответ 
Данные 
сами 
порождают 
анализ
cleverdata.ru 
| 
info@cleverdata.ru 
Что 
изучает 
Data 
Science? 
Теория 
вероятностей 
и 
математическая 
статистика 
Машинное 
обучение 
и 
распознавание 
образов 
Глубинное 
обучение 
(Deep 
Learning) 
Обработка 
естественного 
языка 
(NLP)
cleverdata.ru 
| 
info@cleverdata.ru 
Машинное 
обучение 
Машинное 
обучение 
изучает 
методы 
построения 
моделей 
и 
алгоритмов, 
способных 
обучаться 
на 
данных 
Данные 
Алгоритм 
Модель
cleverdata.ru 
| 
info@cleverdata.ru 
Supervised 
Learning 
• Необходимо 
задать 
обучающую 
выборку 
– 
набор 
данных 
признаки 
: 
результат 
• Алгоритм 
применяется 
для 
распознавания 
неизвестных 
объектов 
Классификация 
Регрессия
cleverdata.ru 
| 
info@cleverdata.ru 
Unsupervised 
Learning 
• Для 
обучения 
нужна 
выборка 
только 
признаков 
• Алгоритм 
применяется 
для 
обнаружения 
взаимосвязей 
и 
закономерностей 
между 
объектами 
Кластеризация 
Поиск 
ассоциативных 
правил
cleverdata.ru 
| 
info@cleverdata.ru 
Задача 
классификации 
По 
картинке 
распознать 
животное 
как 
{Кошку} 
или 
{Собаку}
Шаг 
1. 
Собрать 
обучающую 
выборку 
cleverdata.ru 
| 
info@cleverdata.ru 
1.4 
м 
0.35 
м 
# Вес 
Рост 
Длина 
0.5 
м 
0.25 
м 
Наличие 
хвоста 
Положение 
Длина 
хвоста 
Класс 
Пространство 
признаков 
Целевая 
переменная 
3 
кг
cleverdata.ru 
| 
info@cleverdata.ru 
Шаг 
2. 
Убрать 
выбросы 
Вес 
(кг) 
2.8 
1.9 
25 
2.4 
1.6 
Среднее 
= 
6,7 
кг 
Медиана 
= 
2,4 
кг 
выброс 
Медиана 
не 
чувствительна 
к 
выбросам
Шаг 
3. 
Найти 
предиктивные 
признаки 
cleverdata.ru 
| 
info@cleverdata.ru 
Вес 
Рост 
Длина 
Наличие 
хвоста 
Положение 
Длина 
хвоста 
Вес 
Рост 
Длина 
Длина 
хвоста 
Feature 
Selecgon 
Отбор 
релевантных 
признаков, 
влияющих 
на 
целевую 
переменную
cleverdata.ru 
| 
info@cleverdata.ru 
Шаг 
4. 
Обучить 
алгоритм 
Алгоритмы 
классификации 
KNN 
Decision 
Trees 
Logisvc 
Regression 
Naïve 
Bayes 
SVM 
Train 
Set 
Test 
Set 
С 
помощью 
кросс 
валидации 
достигается 
максимальная 
точность 
на 
тестовых 
данных
cleverdata.ru 
| 
info@cleverdata.ru 
Что 
такое 
переобучение? 
Недообучение 
Переобучение 
У 
переобученной 
модели 
очень 
низкая 
точность 
на 
тестовой 
выборке
Шаг 
5. 
Провести 
анализ 
результатов 
Вероятностные 
модели 
сопоставляют 
объекту 
вероятность 
класса 
P(Кошка) 
P(Собака) 
75% 
25% 
13% 
87% 
40% 
60% 
90% 
10% 
50% 
50% 
cleverdata.ru 
| 
info@cleverdata.ru 
Модель 
сопоставляет 
новому 
объекту 
его 
класс
cleverdata.ru 
| 
info@cleverdata.ru 
Статистическая 
среда 
R 
Статистическая 
обработка 
данных 
Построение 
моделей 
машинного 
обучения 
Работа 
с 
графикой, 
аналитика 
Распознавание 
текста 
Рекомендательные 
системы 
Скоринговые 
модели
cleverdata.ru 
| 
info@cleverdata.ru 
Распознавание 
текста 
Text 
mining 
-­‐ 
выявление 
информации 
из 
текстовых 
документов 
и 
классификация 
их 
в 
рамках 
заданной 
таксономии
cleverdata.ru 
| 
info@cleverdata.ru

More Related Content

Viewers also liked

Splunk 6.2 new features
Splunk 6.2 new featuresSplunk 6.2 new features
Splunk 6.2 new featuresCleverDATA
 
Splunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceSplunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceCleverDATA
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingCleverDATA
 
CleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverDATA
 
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015CleverDATA
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analyticsCleverDATA
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA
 

Viewers also liked (7)

Splunk 6.2 new features
Splunk 6.2 new featuresSplunk 6.2 new features
Splunk 6.2 new features
 
Splunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceSplunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service Intelligence
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketing
 
CleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.Obukhov
 
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analytics
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_Public
 

Similar to MESImeetup_K.obukhovpresentation

Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.Andrey Sozykin
 
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...Yuryy Granovsky
 
Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasNetpeak
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full versionDmitry Guzenko
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...Mail.ru Group
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineSergiy Povolyashko
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Bitworks Software
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)Technosphere1
 
Кафедра "Информационные системы управления и автоматизации"
Кафедра "Информационные системы управления и автоматизации"Кафедра "Информационные системы управления и автоматизации"
Кафедра "Информационные системы управления и автоматизации"valdemar1353
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceSQALab
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Ontico
 
2013 Кириченко диплом
2013 Кириченко диплом2013 Кириченко диплом
2013 Кириченко дипломRF-Lab
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
 
Решение задач с помощью больших данных
Решение задач с помощью больших данныхРешение задач с помощью больших данных
Решение задач с помощью больших данныхSerghei Epifantsew
 

Similar to MESImeetup_K.obukhovpresentation (20)

Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
Презентация на семинаре Nvidia в ИТМО 16 мая 2017 г.
 
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...
Сценарии и статистика (Юрий Грановский, лекция по веб-аналитике и AB-тестиров...
 
Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой Pandas
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...CV в пайплайне распознавания ценников товаров: трюки и хитрости  Николай Масл...
CV в пайплайне распознавания ценников товаров: трюки и хитрости Николай Масл...
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 
Кафедра "Информационные системы управления и автоматизации"
Кафедра "Информационные системы управления и автоматизации"Кафедра "Информационные системы управления и автоматизации"
Кафедра "Информационные системы управления и автоматизации"
 
Николай Липкин (Artics internet Solutions) - "Ещё один подход к структуре ка...
Николай Липкин (Artics internet Solutions) - "Ещё один подход к структуре ка...Николай Липкин (Artics internet Solutions) - "Ещё один подход к структуре ка...
Николай Липкин (Artics internet Solutions) - "Ещё один подход к структуре ка...
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
 
2013 Кириченко диплом
2013 Кириченко диплом2013 Кириченко диплом
2013 Кириченко диплом
 
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (..."Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...
 
Решение задач с помощью больших данных
Решение задач с помощью больших данныхРешение задач с помощью больших данных
Решение задач с помощью больших данных
 

More from CleverDATA

CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CleverDATA
 
Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)CleverDATA
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)CleverDATA
 
Data exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиData exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиCleverDATA
 
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...CleverDATA
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиCleverDATA
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.CleverDATA
 
CleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиCleverDATA
 
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for financeCleverDATA
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsCleverDATA
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationCleverDATA
 
HR_Scoring_CleverDATA
HR_Scoring_CleverDATAHR_Scoring_CleverDATA
HR_Scoring_CleverDATACleverDATA
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA
 
CleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_adCleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_adCleverDATA
 
Julia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactionsJulia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactionsCleverDATA
 
Karel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmtKarel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmtCleverDATA
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverDATA
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis CleverDATA
 

More from CleverDATA (20)

CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы
 
Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
 
Data exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиData exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена данными
 
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
CleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomy
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за данными
 
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
CleverDATA (Denis Reymer) presentation for CNews Forum 2015 (Banking Section)
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_fors
 
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentationClever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation
 
HR_Scoring_CleverDATA
HR_Scoring_CleverDATAHR_Scoring_CleverDATA
HR_Scoring_CleverDATA
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015
 
CleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_adCleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_ad
 
Julia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactionsJulia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactions
 
Karel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmtKarel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmt
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.Kanevsky
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 

MESImeetup_K.obukhovpresentation

  • 1. Make your data clever Company Profile
  • 2. Данные растут с невероятной скоростью cleverdata.ru | info@cleverdata.ru Каждую минуту: 2 миллиона поисковых запросов 72 часа видео загружается на YouTube 500К + твитов 90% всех данных было создано за последние 2 года
  • 3. Big Data – объем, скорость, разнообразие cleverdata.ru | info@cleverdata.ru Real Time Periodic Batch PB GB MB Unstructured Web, Photo, Audio Tables
  • 4. cleverdata.ru | info@cleverdata.ru Data Science для бизнеса Data Science превращает объем, скорость и разнообразие Big Data в знания, которые позволяют вывести бизнес на новый уровень
  • 5. Data Analygcs vs Data Science cleverdata.ru | info@cleverdata.ru Гипотеза Данные Ответ Данные сами порождают анализ
  • 6. cleverdata.ru | info@cleverdata.ru Что изучает Data Science? Теория вероятностей и математическая статистика Машинное обучение и распознавание образов Глубинное обучение (Deep Learning) Обработка естественного языка (NLP)
  • 7. cleverdata.ru | info@cleverdata.ru Машинное обучение Машинное обучение изучает методы построения моделей и алгоритмов, способных обучаться на данных Данные Алгоритм Модель
  • 8. cleverdata.ru | info@cleverdata.ru Supervised Learning • Необходимо задать обучающую выборку – набор данных признаки : результат • Алгоритм применяется для распознавания неизвестных объектов Классификация Регрессия
  • 9. cleverdata.ru | info@cleverdata.ru Unsupervised Learning • Для обучения нужна выборка только признаков • Алгоритм применяется для обнаружения взаимосвязей и закономерностей между объектами Кластеризация Поиск ассоциативных правил
  • 10. cleverdata.ru | info@cleverdata.ru Задача классификации По картинке распознать животное как {Кошку} или {Собаку}
  • 11. Шаг 1. Собрать обучающую выборку cleverdata.ru | info@cleverdata.ru 1.4 м 0.35 м # Вес Рост Длина 0.5 м 0.25 м Наличие хвоста Положение Длина хвоста Класс Пространство признаков Целевая переменная 3 кг
  • 12. cleverdata.ru | info@cleverdata.ru Шаг 2. Убрать выбросы Вес (кг) 2.8 1.9 25 2.4 1.6 Среднее = 6,7 кг Медиана = 2,4 кг выброс Медиана не чувствительна к выбросам
  • 13. Шаг 3. Найти предиктивные признаки cleverdata.ru | info@cleverdata.ru Вес Рост Длина Наличие хвоста Положение Длина хвоста Вес Рост Длина Длина хвоста Feature Selecgon Отбор релевантных признаков, влияющих на целевую переменную
  • 14. cleverdata.ru | info@cleverdata.ru Шаг 4. Обучить алгоритм Алгоритмы классификации KNN Decision Trees Logisvc Regression Naïve Bayes SVM Train Set Test Set С помощью кросс валидации достигается максимальная точность на тестовых данных
  • 15. cleverdata.ru | info@cleverdata.ru Что такое переобучение? Недообучение Переобучение У переобученной модели очень низкая точность на тестовой выборке
  • 16. Шаг 5. Провести анализ результатов Вероятностные модели сопоставляют объекту вероятность класса P(Кошка) P(Собака) 75% 25% 13% 87% 40% 60% 90% 10% 50% 50% cleverdata.ru | info@cleverdata.ru Модель сопоставляет новому объекту его класс
  • 17. cleverdata.ru | info@cleverdata.ru Статистическая среда R Статистическая обработка данных Построение моделей машинного обучения Работа с графикой, аналитика Распознавание текста Рекомендательные системы Скоринговые модели
  • 18. cleverdata.ru | info@cleverdata.ru Распознавание текста Text mining -­‐ выявление информации из текстовых документов и классификация их в рамках заданной таксономии