BigIntegrate - разрушение мифов по поводу ETL на Hadoop

BigIntegrate - разрушение мифов
по поводу ETL на Hadoop.
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro

Пару слов обо мне…
School of Business Informatics
Software engineering
IBM Certified Solution Advisor
Big Data & Analytics

Agenda
• Что такое Information Server?
• Что такое Hadoop?
• Что такое ETL / ELT на Hadoop?
• Что такое Information Server на Hadoop?
• Что такое BigIntegrate / BigQuality?

IBM Information Server
Лидирующая на рынке платформа
интеграции данных
 Линейная масштабируемость при
резком увеличении объемов
данных
 Операционная интеграция 24x7
 Полная интеграция на уровне
метаданных и понимание
происхождения данных
 Сопоставление Бизнес и IT целей
 Оптимизированное подключение к
различным источникам данных
InfoSphere
Information
Server
Information
Governance
Catalog
Data
Integration
Data
Quality

Information Governance Catalog
Понимание и совместная работа
Понимание
• Полный каталог метаданных
• Бизнес-контекст для информационных активов
• Уверенность бизнеса в информационных активах
Управление
• Совместное управление бизнес-словарем
• Создание стюардов, распределение обязанностей
• Понимание происхождения данных
• Соединение бизнес-терминов и правил управления
с информационными активами
• Расширение источников данных и ассетов при помощи REST-
API для создания, импорта и управления расширениями
• Поддержка русского языка для контента
Улучшенные возможности расширения
XSD / XML поддержка

Information Server for Data Integration
Выгрузка, трансформация и доставка любых данных
Подключения
• Масштабирование трансформаций на узлах кластера hadoop
• Улучшенный File Connector
• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10
Дизайн и трансформация
• Трансформация и агрегация любого объема данных
• Сотни встроенных функций преобразования
• Использование системы управления метаданными для
повышения производительности и совместной работы
• Встроенная защита конфиденциальных данных налету при
помощи лучшего в своем классе Optim Masking
Управление и мониторинг
• Простые веб-дашборды для управление среды исполнения

Information Server for Data Quality
Анализ, очистка и мониторинг ваших данных
Анализ
• Обнаружение данных на основе определенных бизнес
классов данных
• Анализ структуры данных и контента
• Автоматический процесс анализа данных
Очистка
• Исследование, стандартизация, соответствие и
выживание данных внутри процесса интеграции данных
Мониторинг
• Оценка и мониторинг качества данных в любой системе
• Соотношение индикаторов качества данных и бизнес-
политик
• Подключение дата-стюардов, когда качество данных
опускается ниже определенного уровня

Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных

Распределённая файловая система

Распределённые вычисления

Распределённые вычисления
А также:

Модернизация хранилищ данных
Интеграция больших данных и традиционных хранилищ для
повышения эффективности
Использование
разнообразных данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и лицензирования за счет
переноса редко используемых данных в Hadoop
• Сокращение хранения за счет обработки
потоковых данных
• Повышение производительности
• Структурированные, неструктурированные,
потоковые данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным

Существующие ETL/ELT решения в Hadoop
• Механизмы Hadoop
– MapReduce
– Spark
• Tools
– Flume
– Sqoop
• SQL-like
– Hive
– BigSQL
– Impala
– HAWQ
– Presto
– …

BigIntegrate & BigQuality
• Масштабируемый движок по
интеграции и качеству данных теперь
полноценно работает прямо на
кластере Hadoop
• Трансформация, обогащение и очистка
данных, которые лежат в Hadoop
• Вся мощность Hadoop кластера для
решения задач интеграции без
написания строк кода
• Поддерживаемые дистрибутивы:
BigInsights 4.0+, HortonWorks 2.2+,
Cloudera 5.3+

Быстрая загрузка и обработка
прямо внутри Hadoop
Полное доверие
к вашим данным
Высочайший уровень
продуктивности
В 15x быстрее
чем большинство других решений
Встроенные возможности
управления, очистки, безопасности и
происхождения данных
87% экономии
при помощи более сотни функций
преобразования

Hadoop Platform
HDFS
BigIntegrate &
BigQuality
Engine
YARN
(Резервирование,
надежное хранение)
(Менеджер ресурсов
кластера Hadoop)
Tez (Движок
исполнения)
MapReduce
(batch)
Hive
(SQL) …
VS

Hadoop Platform
BigIntegrate & BigQuality
Engine
MapReduce
(batch)
Hive
(SQL) …
VS
Интеграция, качество и
инструмент управления
Только Hadoop интеграция

Traditional ETL
Выполнение на любой платформе
Единый дизайн заданий
within DB within Hadoop 2.0
HDFS
BigIntegration
BigQuality
YARN
Уникальный подход IBM
• Высокая производительность
благодаря исполнению
заданий Information Server
напрямую через Yarn
• Запуск спроектированного
задания на базе данных (ELT),
традиционным образом (ETL)
или же на Hadoop

Спасибо за внимание!
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro

BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (20)

Similar to BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Similar to BigIntegrate - разрушение мифов по поводу ETL на Hadoop (20)

BigIntegrate - разрушение мифов по поводу ETL на Hadoop