Watch here: https://bit.ly/31XRObm
Передовые методы сбора и обработки информации, такие как машинное обучение, оказались чрезвычайно полезным инструментом для получения ценных знаний на основе имеющихся данных. Такие платформы, как Spark, и математические библиотеки для R, Python и Scala позволяют ученым, работающим с данными, использовать передовые технологии. Однако эти ученые тратили большую часть своего времени на поиск нужных данных и их преобразование в удобный для использования формат. Виртуализация данных предлагает новую парадигму для более эффективного и гибкого решения этих проблем.
Посетите этот вебинар и узнайте:
- Как виртуализация данных может ускорить сбор и преобразование информации, предоставляя ученым, работающим с данными, мощный инструмент, упрощающий их работу.
- Как популярные инструменты из экосистемы науки о данных: Spark, Python, Zeppelin и т.д. интегрируются с Denodo.
- Как можно эффективно использовать платформу Denodo с большими объемами данных.
GenAI y el futuro de la gestión de datos: mitos y realidades
Продвинутый анализ и машинное обучение с помощью виртуализации данных
1. Продвинутый анализ и
машинное обучение с
помощью виртуализации
данных
Алексей Сидоров
Главный Евангелист и Директор по управлению данными
Denodo
Июль 2020
3. 1. Для чего используется Машинное Обучение?
2. Проблема поиска нужных данных
3. Виртуальная Фабрика Данных
4. Жизненный Цикл Data Science
5. Машинное Обучение в режиме реального
времени с помощью Виртуализации Данных
6. Ключевые Моменты
7. Вопросы и Ответы
Программа
4. 4
Машинному Обучению нужны Данные
Необходимые данные:
• В реальном времени
• Температура
• Кровяное давление
• Пульс
• Уровень сахара
• Семейная история
• Результаты тестов
• Визиты к врачу
• Прививки
Персонализированная
Медицина
Прогнозное
Техобслуживание
Прогнозирование
поздних платежей
Предотвращение
мошенничества
Прогнозирование
оттока клиентов
Необходимые данные:
• В режиме реального времени
• Температура
• Время выполнения
• Уровень сигнала
• Ошибки
• История техобслуживания
• Поставщики запчастей
Необходимые данные:
• Демография
• История покупок
• История прошлых платежей
• Логи поддержки клиентов
• Последние события
• Данные кредитного бюро
Необходимые данные:
• История заявителя
• Местоположение
• Сумма претензий
• Время суток
• Национальная база
данных о мошенничестве
Необходимые данные:
• Демография клиентов
• История покупок
• Использование продуктов
• Время с момента
последнего контакта
• Размер компании
• Доходы
10. Архитектура Виртуальной Фабрики Данных
iPaaS
Kafka
ETL
CDC
Sqoop
Flume
RawDataZoneStagingArea
CuratedDataZoneCoreDWHmodel
Хранилище Данных
Озеро Данных
Виртуальная Фабрика Данных
Analytical Views
Data Science Views
λ Views
Real-Time Views
DWH Views
Hybrid Views
Cloud Views
УнифицированныеВиртуальныеВитриныДанных
ЦентрализованныйКонтрольДоступа
Логическое Хранилище Данных
Reporting
Analytics
Data Science
Data Market Place
Data Monetization
AI/ML
Отчётность
Аналитика
Монетизация
ИИ/МО
Магазин Данных
Приложения
Файлы
Базы Данных
Облака
Real Time Веб Логи
Соцсети Датчики
ИсточникиДанных
11. 11
Gartner, Adopt the Logical Data Warehouse Architecture to Meet Your Modern
Analytical Needs, May 2018
“При правильном дизайне Виртуализация Данных может
ускорить интеграцию данных, снизить задержку данных,
обеспечить гибкость и повторное использование, а также
уменьшить разрастание данных по рассеянным источникам
данных.
Из-за своих многочисленных преимуществ Виртуализация
Данных часто является первым шагом для организаций,
превращающих традиционное хранилище данных в
логическую архитектуру”
13. 13
Жизненный Цикл Data Science
Типовой рабочий процесс для Data Science:
• Сбор требований к бизнес-проблеме
• Определение и получение необходимых данных
• Очистка данных и преобразование в удобный формат
• Анализ данных
• Подготовка входных данных для алгоритмов
• Выполнение алгоритмов Машинного Обучения
• Визуализация результатов
14. 14
Жизненный Цикл Data Science
80% времени - Поиск и подготовка данных
10% времени - Анализ
10% времени - Визуализация данных
15. 15
На что тратится большая часть времени?
Большое количество времени и усилий уходит на задачи, не связанные с Data Science:
• Поиск нужных данных
• Получение доступа к данным
• Понимание методов и технологий доступа (NoSQL, REST API и т.д.)
• Преобразование данных в форматы, с которыми можно работать
• Объединение данных, первоначально доступных в различных источниках
• Профилирование и очистка данных для устранения неполноты и несовместимости в
данных
21. 21
Что мы будем делать …
1. Получим доступ к Данным
2. Отформатируем Данные и определим значимые факторы (например,
поездки в разные дни недели, разные месяцы года и т.д.)
3. Подготовим Данные для ввода в алгоритм ML
4. Используя Python, считаем данные за 2019 год и прогоним через наш
алгоритм ML для обучения
5. Считаем данные за 2020 год и протестируем алгоритм
6. Сохраним результаты для визуализации в платформе Denodo
24. 24
Ключевым ингредиентом для ML являются... Данные
Исходные Данные для проекта по Data Science могут поступать в различных и
форматах. Некоторые примеры:
• Файлы (CSV, логи)
• Реляционные базы данных (EDW, операционные системы)
• Системы NoSQL (пары ключевых значений, хранилища документов,
временные ряды и т.д.)
• SaaS API (Salesforce, Marketo, ServiceNow, Facebook, Twitter и т.д.)
• Озера Данных на базе Hadoop
25. 25
Ключевые Моменты
• И последнее ... Люди не любят ездить на велосипедах в холодную погоду
• Платформа Denodo делает все виды данных из различных источников
доступными для специалистов Data Science
• Виртуализация данных сокращает фазу подготовки данных в проектах
Машинного Обучения
• Нет необходимости писать скрипты подготовки данных в Python, R и т.д.
• Встроенная интеграция с аналитическими инструментами, такими как Zeppelin
или Jupyter
• Вы можете использовать платформу Denodo, чтобы поделиться результатами
своей работы с другими
27. Заказчики
Более 800 клиентов
F500, G2000 & Наукоёмкие стартапы
Офисы
Штаб-квартиры : Ла Корунья Испания и Пало
Альто США
Париж, Мюнхен, Лондон, Мадрид, Дубай
Планируется открытие офиса в Москве
Компания Denodo
20 лет опыта в области Виртуализации Данных
Признанный лидер рынка по мнению ведущих
аналитических агентств(Forrester, Gartner)
Множество наград и номинаций в сфере ИТ
ДАЛЬНЕЙШИЕ ШАГИ
Скачать Denodo
Express
Тест-драйв в
облаке (1ч)
Пройдите тренинг
Denodo
О КОМПАНИИ DENODO
https://www.denodo.com/en/denodo-platform/test-drives
Посетите наш русскоязычный сайт
СПРАВИМСЯ ВМЕСТЕ С COVID-19
Портал открытых данных по COVID-19
Компания Denodo