Моя презентация с IBM Solution Connect 2015 (Москва, 25 ноября 2015). В презентации представлен новый подход к ETL/ELT на Hadoop. Если вас интересуют больше деталей по данной технологии - мои контакты представлены на вступительном и заключительном сладах.
Informatica Data Replication and FastClone in Russian
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
1. BigIntegrate - разрушение мифов
по поводу ETL на Hadoop.
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro
2. Пару слов обо мне…
School of Business Informatics
Software engineering
IBM Certified Solution Advisor
Big Data & Analytics
3. Agenda
• Что такое Information Server?
• Что такое Hadoop?
• Что такое ETL / ELT на Hadoop?
• Что такое Information Server на Hadoop?
• Что такое BigIntegrate / BigQuality?
5. IBM Information Server
Лидирующая на рынке платформа
интеграции данных
Линейная масштабируемость при
резком увеличении объемов
данных
Операционная интеграция 24x7
Полная интеграция на уровне
метаданных и понимание
происхождения данных
Сопоставление Бизнес и IT целей
Оптимизированное подключение к
различным источникам данных
InfoSphere
Information
Server
Information
Governance
Catalog
Data
Integration
Data
Quality
6. Information Governance Catalog
Понимание и совместная работа
Понимание
• Полный каталог метаданных
• Бизнес-контекст для информационных активов
• Уверенность бизнеса в информационных активах
Управление
• Совместное управление бизнес-словарем
• Создание стюардов, распределение обязанностей
• Понимание происхождения данных
• Соединение бизнес-терминов и правил управления
с информационными активами
• Расширение источников данных и ассетов при помощи REST-
API для создания, импорта и управления расширениями
• Поддержка русского языка для контента
Улучшенные возможности расширения
XSD / XML поддержка
7. Information Server for Data Integration
Выгрузка, трансформация и доставка любых данных
Подключения
• Масштабирование трансформаций на узлах кластера hadoop
• Улучшенный File Connector
• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10
Дизайн и трансформация
• Трансформация и агрегация любого объема данных
• Сотни встроенных функций преобразования
• Использование системы управления метаданными для
повышения производительности и совместной работы
• Встроенная защита конфиденциальных данных налету при
помощи лучшего в своем классе Optim Masking
Управление и мониторинг
• Простые веб-дашборды для управление среды исполнения
8. Information Server for Data Quality
Анализ, очистка и мониторинг ваших данных
Анализ
• Обнаружение данных на основе определенных бизнес
классов данных
• Анализ структуры данных и контента
• Автоматический процесс анализа данных
Очистка
• Исследование, стандартизация, соответствие и
выживание данных внутри процесса интеграции данных
Мониторинг
• Оценка и мониторинг качества данных в любой системе
• Соотношение индикаторов качества данных и бизнес-
политик
• Подключение дата-стюардов, когда качество данных
опускается ниже определенного уровня
12. Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
13. Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
А также:
14. Модернизация хранилищ данных
Интеграция больших данных и традиционных хранилищ для
повышения эффективности
Использование
разнообразных данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и лицензирования за счет
переноса редко используемых данных в Hadoop
• Сокращение хранения за счет обработки
потоковых данных
• Повышение производительности
• Структурированные, неструктурированные,
потоковые данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным
18. BigIntegrate & BigQuality
• Масштабируемый движок по
интеграции и качеству данных теперь
полноценно работает прямо на
кластере Hadoop
• Трансформация, обогащение и очистка
данных, которые лежат в Hadoop
• Вся мощность Hadoop кластера для
решения задач интеграции без
написания строк кода
• Поддерживаемые дистрибутивы:
BigInsights 4.0+, HortonWorks 2.2+,
Cloudera 5.3+
19. Быстрая загрузка и обработка
прямо внутри Hadoop
Полное доверие
к вашим данным
Высочайший уровень
продуктивности
В 15x быстрее
чем большинство других решений
Встроенные возможности
управления, очистки, безопасности и
происхождения данных
87% экономии
при помощи более сотни функций
преобразования
21. Hadoop Platform
BigIntegrate & BigQuality
Engine
MapReduce
(batch)
Hive
(SQL) …
VS
Интеграция, качество и
инструмент управления
Только Hadoop интеграция
22. Traditional ETL
Выполнение на любой платформе
Единый дизайн заданий
within DB within Hadoop 2.0
HDFS
BigIntegration
BigQuality
YARN
Уникальный подход IBM
• Высокая производительность
благодаря исполнению
заданий Information Server
напрямую через Yarn
• Запуск спроектированного
задания на базе данных (ELT),
традиционным образом (ETL)
или же на Hadoop
23. Спасибо за внимание!
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro