SlideShare a Scribd company logo
1 of 28
Download to read offline
Продвинутый анализ и
машинное обучение с
помощью виртуализации
данных
Алексей Сидоров
Главный Евангелист и Директор по управлению данными
Denodo
Июль 2020
Алексей Сидоров
Главный Евангелист и
Директор по управлению
данными, Denodo
Докладчик
1. Для чего используется Машинное Обучение?
2. Проблема поиска нужных данных
3. Виртуальная Фабрика Данных
4. Жизненный Цикл Data Science
5. Машинное Обучение в режиме реального
времени с помощью Виртуализации Данных
6. Ключевые Моменты
7. Вопросы и Ответы
Программа
4
Машинному Обучению нужны Данные
Необходимые данные:
• В реальном времени
• Температура
• Кровяное давление
• Пульс
• Уровень сахара
• Семейная история
• Результаты тестов
• Визиты к врачу
• Прививки
Персонализированная
Медицина
Прогнозное
Техобслуживание
Прогнозирование
поздних платежей
Предотвращение
мошенничества
Прогнозирование
оттока клиентов
Необходимые данные:
• В режиме реального времени
• Температура
• Время выполнения
• Уровень сигнала
• Ошибки
• История техобслуживания
• Поставщики запчастей
Необходимые данные:
• Демография
• История покупок
• История прошлых платежей
• Логи поддержки клиентов
• Последние события
• Данные кредитного бюро
Необходимые данные:
• История заявителя
• Местоположение
• Сумма претензий
• Время суток
• Национальная база
данных о мошенничестве
Необходимые данные:
• Демография клиентов
• История покупок
• Использование продуктов
• Время с момента
последнего контакта
• Размер компании
• Доходы
5
The Economist
Самый ценный ресурс в мире
это уже не Нефть, а Данные.
6
Данные - Новая нефть ... Так же не просто добывать
7
Мнение Аналитиков
8
Мнение Специалистов
Виртуальная Фабрика Данных
9
Архитектура Виртуальной Фабрики Данных
iPaaS
Kafka
ETL
CDC
Sqoop
Flume
RawDataZoneStagingArea
CuratedDataZoneCoreDWHmodel
Хранилище Данных
Озеро Данных
Виртуальная Фабрика Данных
Analytical Views
Data Science Views
λ Views
Real-Time Views
DWH Views
Hybrid Views
Cloud Views
УнифицированныеВиртуальныеВитриныДанных
ЦентрализованныйКонтрольДоступа
Логическое Хранилище Данных
Reporting
Analytics
Data Science
Data Market Place
Data Monetization
AI/ML
Отчётность
Аналитика
Монетизация
ИИ/МО
Магазин Данных
Приложения
Файлы
Базы Данных
Облака
Real Time Веб Логи
Соцсети Датчики
ИсточникиДанных
11
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern
Analytical Needs, May 2018
“При правильном дизайне Виртуализация Данных может
ускорить интеграцию данных, снизить задержку данных,
обеспечить гибкость и повторное использование, а также
уменьшить разрастание данных по рассеянным источникам
данных.
Из-за своих многочисленных преимуществ Виртуализация
Данных часто является первым шагом для организаций,
превращающих традиционное хранилище данных в
логическую архитектуру”
Жизненный Цикл Data Science
12
13
Жизненный Цикл Data Science
Типовой рабочий процесс для Data Science:
• Сбор требований к бизнес-проблеме
• Определение и получение необходимых данных
• Очистка данных и преобразование в удобный формат
• Анализ данных
• Подготовка входных данных для алгоритмов
• Выполнение алгоритмов Машинного Обучения
• Визуализация результатов
14
Жизненный Цикл Data Science
80% времени - Поиск и подготовка данных
10% времени - Анализ
10% времени - Визуализация данных
15
На что тратится большая часть времени?
Большое количество времени и усилий уходит на задачи, не связанные с Data Science:
• Поиск нужных данных
• Получение доступа к данным
• Понимание методов и технологий доступа (NoSQL, REST API и т.д.)
• Преобразование данных в форматы, с которыми можно работать
• Объединение данных, первоначально доступных в различных источниках
• Профилирование и очистка данных для устранения неполноты и несовместимости в
данных
Постановка Задачи
Ускоряем проект по Машинному Обучению
при помощи Виртуализации Данных
16
17
https://flic.kr/p/x8HgrF
Можно ли прогнозировать использование
велосипедов CitiBike основываясь на
данных за прошлый год?
18
Наши Данные – Citibike
19
https://flic.kr/p/CYT7SS
20
Наши Данные – NWS Weather Data
21
Что мы будем делать …
1. Получим доступ к Данным
2. Отформатируем Данные и определим значимые факторы (например,
поездки в разные дни недели, разные месяцы года и т.д.)
3. Подготовим Данные для ввода в алгоритм ML
4. Используя Python, считаем данные за 2019 год и прогоним через наш
алгоритм ML для обучения
5. Считаем данные за 2020 год и протестируем алгоритм
6. Сохраним результаты для визуализации в платформе Denodo
Демонстрация
22
Ключевые Моменты
23
24
Ключевым ингредиентом для ML являются... Данные
Исходные Данные для проекта по Data Science могут поступать в различных и
форматах. Некоторые примеры:
• Файлы (CSV, логи)
• Реляционные базы данных (EDW, операционные системы)
• Системы NoSQL (пары ключевых значений, хранилища документов,
временные ряды и т.д.)
• SaaS API (Salesforce, Marketo, ServiceNow, Facebook, Twitter и т.д.)
• Озера Данных на базе Hadoop
25
Ключевые Моменты
• И последнее ... Люди не любят ездить на велосипедах в холодную погоду
• Платформа Denodo делает все виды данных из различных источников
доступными для специалистов Data Science
• Виртуализация данных сокращает фазу подготовки данных в проектах
Машинного Обучения
• Нет необходимости писать скрипты подготовки данных в Python, R и т.д.
• Встроенная интеграция с аналитическими инструментами, такими как Zeppelin
или Jupyter
• Вы можете использовать платформу Denodo, чтобы поделиться результатами
своей работы с другими
Вопросы & Ответы
Заказчики
Более 800 клиентов
F500, G2000 & Наукоёмкие стартапы
Офисы
Штаб-квартиры : Ла Корунья Испания и Пало
Альто США
Париж, Мюнхен, Лондон, Мадрид, Дубай
Планируется открытие офиса в Москве
Компания Denodo
20 лет опыта в области Виртуализации Данных
Признанный лидер рынка по мнению ведущих
аналитических агентств(Forrester, Gartner)
Множество наград и номинаций в сфере ИТ
ДАЛЬНЕЙШИЕ ШАГИ
Скачать Denodo
Express
Тест-драйв в
облаке (1ч)
Пройдите тренинг
Denodo
О КОМПАНИИ DENODO
https://www.denodo.com/en/denodo-platform/test-drives
Посетите наш русскоязычный сайт
СПРАВИМСЯ ВМЕСТЕ С COVID-19
Портал открытых данных по COVID-19
Компания Denodo
Спасибо!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.
28

More Related Content

What's hot

Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?FTS Russia
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikMarina Payvina
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Software Analytics in frontend
Software Analytics in frontendSoftware Analytics in frontend
Software Analytics in frontendDenis Kolesnikov
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse CloudAndrey Gorbunov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Marina Payvina
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)1с.до создание сэд (вебинар кодерлайн. 23.09 2015)
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)Helen Kopteva
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruLviv Startup Club
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovIlya Gershanov
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open LabDell_Russia
 
StoredIQ - управление контентом
StoredIQ - управление контентомStoredIQ - управление контентом
StoredIQ - управление контентомSergey Yakimchuk
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3antishmanti
 

What's hot (20)

Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?Как Microsoft Power BI меняет процесс принятия управленческих решений?
Как Microsoft Power BI меняет процесс принятия управленческих решений?
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Software Analytics in frontend
Software Analytics in frontendSoftware Analytics in frontend
Software Analytics in frontend
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
Бизнес-завтрак «Qlik: работаем с данными 1С эффективно»
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)1с.до создание сэд (вебинар кодерлайн. 23.09 2015)
1с.до создание сэд (вебинар кодерлайн. 23.09 2015)
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)Управление данными (хранилища данных и OLAP)
Управление данными (хранилища данных и OLAP)
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
StoredIQ - управление контентом
StoredIQ - управление контентомStoredIQ - управление контентом
StoredIQ - управление контентом
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3
 

Similar to Продвинутый анализ и машинное обучение с помощью виртуализации данных

Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхDenodo
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данныхSergey Gorshkov
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данныхElizaveta Alekseeva
 
BI-проекты глазами аналитика
BI-проекты глазами аналитикаBI-проекты глазами аналитика
BI-проекты глазами аналитикаSQALab
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Yuri Yashkin
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взглядAndrey Korshikov
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияDell_Russia
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
Оптимизация базы данных с помощью технологии архивирования
Оптимизация базы данных с помощью технологии архивированияОптимизация базы данных с помощью технологии архивирования
Оптимизация базы данных с помощью технологии архивированияDocsvision
 
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...Vlad Linnik
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымSergey Gorshkov
 
доклад на вмк 15.10.2015
доклад на вмк 15.10.2015доклад на вмк 15.10.2015
доклад на вмк 15.10.2015Alexandr Petrov
 
Индустрия 4.0
Индустрия 4.0Индустрия 4.0
Индустрия 4.0IBA Group
 
Как избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхКак избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхМаркетинг-аналитика с OWOX BI
 

Similar to Продвинутый анализ и машинное обучение с помощью виртуализации данных (20)

Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
 
BI-проекты глазами аналитика
BI-проекты глазами аналитикаBI-проекты глазами аналитика
BI-проекты глазами аналитика
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных
 
Big data
Big dataBig data
Big data
 
Big Data
Big DataBig Data
Big Data
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взгляд
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
03_Сагайда
03_Сагайда03_Сагайда
03_Сагайда
 
Оптимизация базы данных с помощью технологии архивирования
Оптимизация базы данных с помощью технологии архивированияОптимизация базы данных с помощью технологии архивирования
Оптимизация базы данных с помощью технологии архивирования
 
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...
Большие данные от гуманитария: как успешно реализовать проект на Big Data, не...
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
 
доклад на вмк 15.10.2015
доклад на вмк 15.10.2015доклад на вмк 15.10.2015
доклад на вмк 15.10.2015
 
Индустрия 4.0
Индустрия 4.0Индустрия 4.0
Индустрия 4.0
 
Как избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхКак избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данных
 

More from Denodo

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoDenodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerDenodo
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?Denodo
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeDenodo
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Denodo
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationDenodo
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Denodo
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardDenodo
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Denodo
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Denodo
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?Denodo
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsDenodo
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityDenodo
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesDenodo
 

More from Denodo (20)

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in Denodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services Layer
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business Landscape
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory Compliance
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me Anything
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usability
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidades
 

Продвинутый анализ и машинное обучение с помощью виртуализации данных

  • 1. Продвинутый анализ и машинное обучение с помощью виртуализации данных Алексей Сидоров Главный Евангелист и Директор по управлению данными Denodo Июль 2020
  • 2. Алексей Сидоров Главный Евангелист и Директор по управлению данными, Denodo Докладчик
  • 3. 1. Для чего используется Машинное Обучение? 2. Проблема поиска нужных данных 3. Виртуальная Фабрика Данных 4. Жизненный Цикл Data Science 5. Машинное Обучение в режиме реального времени с помощью Виртуализации Данных 6. Ключевые Моменты 7. Вопросы и Ответы Программа
  • 4. 4 Машинному Обучению нужны Данные Необходимые данные: • В реальном времени • Температура • Кровяное давление • Пульс • Уровень сахара • Семейная история • Результаты тестов • Визиты к врачу • Прививки Персонализированная Медицина Прогнозное Техобслуживание Прогнозирование поздних платежей Предотвращение мошенничества Прогнозирование оттока клиентов Необходимые данные: • В режиме реального времени • Температура • Время выполнения • Уровень сигнала • Ошибки • История техобслуживания • Поставщики запчастей Необходимые данные: • Демография • История покупок • История прошлых платежей • Логи поддержки клиентов • Последние события • Данные кредитного бюро Необходимые данные: • История заявителя • Местоположение • Сумма претензий • Время суток • Национальная база данных о мошенничестве Необходимые данные: • Демография клиентов • История покупок • Использование продуктов • Время с момента последнего контакта • Размер компании • Доходы
  • 5. 5 The Economist Самый ценный ресурс в мире это уже не Нефть, а Данные.
  • 6. 6 Данные - Новая нефть ... Так же не просто добывать
  • 10. Архитектура Виртуальной Фабрики Данных iPaaS Kafka ETL CDC Sqoop Flume RawDataZoneStagingArea CuratedDataZoneCoreDWHmodel Хранилище Данных Озеро Данных Виртуальная Фабрика Данных Analytical Views Data Science Views λ Views Real-Time Views DWH Views Hybrid Views Cloud Views УнифицированныеВиртуальныеВитриныДанных ЦентрализованныйКонтрольДоступа Логическое Хранилище Данных Reporting Analytics Data Science Data Market Place Data Monetization AI/ML Отчётность Аналитика Монетизация ИИ/МО Магазин Данных Приложения Файлы Базы Данных Облака Real Time Веб Логи Соцсети Датчики ИсточникиДанных
  • 11. 11 Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs, May 2018 “При правильном дизайне Виртуализация Данных может ускорить интеграцию данных, снизить задержку данных, обеспечить гибкость и повторное использование, а также уменьшить разрастание данных по рассеянным источникам данных. Из-за своих многочисленных преимуществ Виртуализация Данных часто является первым шагом для организаций, превращающих традиционное хранилище данных в логическую архитектуру”
  • 13. 13 Жизненный Цикл Data Science Типовой рабочий процесс для Data Science: • Сбор требований к бизнес-проблеме • Определение и получение необходимых данных • Очистка данных и преобразование в удобный формат • Анализ данных • Подготовка входных данных для алгоритмов • Выполнение алгоритмов Машинного Обучения • Визуализация результатов
  • 14. 14 Жизненный Цикл Data Science 80% времени - Поиск и подготовка данных 10% времени - Анализ 10% времени - Визуализация данных
  • 15. 15 На что тратится большая часть времени? Большое количество времени и усилий уходит на задачи, не связанные с Data Science: • Поиск нужных данных • Получение доступа к данным • Понимание методов и технологий доступа (NoSQL, REST API и т.д.) • Преобразование данных в форматы, с которыми можно работать • Объединение данных, первоначально доступных в различных источниках • Профилирование и очистка данных для устранения неполноты и несовместимости в данных
  • 16. Постановка Задачи Ускоряем проект по Машинному Обучению при помощи Виртуализации Данных 16
  • 17. 17 https://flic.kr/p/x8HgrF Можно ли прогнозировать использование велосипедов CitiBike основываясь на данных за прошлый год?
  • 20. 20 Наши Данные – NWS Weather Data
  • 21. 21 Что мы будем делать … 1. Получим доступ к Данным 2. Отформатируем Данные и определим значимые факторы (например, поездки в разные дни недели, разные месяцы года и т.д.) 3. Подготовим Данные для ввода в алгоритм ML 4. Используя Python, считаем данные за 2019 год и прогоним через наш алгоритм ML для обучения 5. Считаем данные за 2020 год и протестируем алгоритм 6. Сохраним результаты для визуализации в платформе Denodo
  • 24. 24 Ключевым ингредиентом для ML являются... Данные Исходные Данные для проекта по Data Science могут поступать в различных и форматах. Некоторые примеры: • Файлы (CSV, логи) • Реляционные базы данных (EDW, операционные системы) • Системы NoSQL (пары ключевых значений, хранилища документов, временные ряды и т.д.) • SaaS API (Salesforce, Marketo, ServiceNow, Facebook, Twitter и т.д.) • Озера Данных на базе Hadoop
  • 25. 25 Ключевые Моменты • И последнее ... Люди не любят ездить на велосипедах в холодную погоду • Платформа Denodo делает все виды данных из различных источников доступными для специалистов Data Science • Виртуализация данных сокращает фазу подготовки данных в проектах Машинного Обучения • Нет необходимости писать скрипты подготовки данных в Python, R и т.д. • Встроенная интеграция с аналитическими инструментами, такими как Zeppelin или Jupyter • Вы можете использовать платформу Denodo, чтобы поделиться результатами своей работы с другими
  • 27. Заказчики Более 800 клиентов F500, G2000 & Наукоёмкие стартапы Офисы Штаб-квартиры : Ла Корунья Испания и Пало Альто США Париж, Мюнхен, Лондон, Мадрид, Дубай Планируется открытие офиса в Москве Компания Denodo 20 лет опыта в области Виртуализации Данных Признанный лидер рынка по мнению ведущих аналитических агентств(Forrester, Gartner) Множество наград и номинаций в сфере ИТ ДАЛЬНЕЙШИЕ ШАГИ Скачать Denodo Express Тест-драйв в облаке (1ч) Пройдите тренинг Denodo О КОМПАНИИ DENODO https://www.denodo.com/en/denodo-platform/test-drives Посетите наш русскоязычный сайт СПРАВИМСЯ ВМЕСТЕ С COVID-19 Портал открытых данных по COVID-19 Компания Denodo
  • 28. Спасибо! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies. 28