SlideShare a Scribd company logo
1 of 23
BigIntegrate - разрушение мифов
по поводу ETL на Hadoop.
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro
Пару слов обо мне…
School of Business Informatics
Software engineering
IBM Certified Solution Advisor
Big Data & Analytics
Agenda
• Что такое Information Server?
• Что такое Hadoop?
• Что такое ETL / ELT на Hadoop?
• Что такое Information Server на Hadoop?
• Что такое BigIntegrate / BigQuality?
IBM Information Server 11.5
IBM Information Server
Лидирующая на рынке платформа
интеграции данных
 Линейная масштабируемость при
резком увеличении объемов
данных
 Операционная интеграция 24x7
 Полная интеграция на уровне
метаданных и понимание
происхождения данных
 Сопоставление Бизнес и IT целей
 Оптимизированное подключение к
различным источникам данных
InfoSphere
Information
Server
Information
Governance
Catalog
Data
Integration
Data
Quality
Information Governance Catalog
Понимание и совместная работа
Понимание
• Полный каталог метаданных
• Бизнес-контекст для информационных активов
• Уверенность бизнеса в информационных активах
Управление
• Совместное управление бизнес-словарем
• Создание стюардов, распределение обязанностей
• Понимание происхождения данных
• Соединение бизнес-терминов и правил управления
с информационными активами
• Расширение источников данных и ассетов при помощи REST-
API для создания, импорта и управления расширениями
• Поддержка русского языка для контента
Улучшенные возможности расширения
XSD / XML поддержка
Information Server for Data Integration
Выгрузка, трансформация и доставка любых данных
Подключения
• Масштабирование трансформаций на узлах кластера hadoop
• Улучшенный File Connector
• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10
Дизайн и трансформация
• Трансформация и агрегация любого объема данных
• Сотни встроенных функций преобразования
• Использование системы управления метаданными для
повышения производительности и совместной работы
• Встроенная защита конфиденциальных данных налету при
помощи лучшего в своем классе Optim Masking
Управление и мониторинг
• Простые веб-дашборды для управление среды исполнения
Information Server for Data Quality
Анализ, очистка и мониторинг ваших данных
Анализ
• Обнаружение данных на основе определенных бизнес
классов данных
• Анализ структуры данных и контента
• Автоматический процесс анализа данных
Очистка
• Исследование, стандартизация, соответствие и
выживание данных внутри процесса интеграции данных
Мониторинг
• Оценка и мониторинг качества данных в любой системе
• Соотношение индикаторов качества данных и бизнес-
политик
• Подключение дата-стюардов, когда качество данных
опускается ниже определенного уровня
Hadoop. IBM BigInsights
Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
Hadoop изнутри
Инфраструктура для параллельной обработки больших
объемов данных
Распределённая файловая система
Распределённые вычисления
А также:
Модернизация хранилищ данных
Интеграция больших данных и традиционных хранилищ для
повышения эффективности
Использование
разнообразных данных
Расширение инфраструктуры
хранилища
• Оптимизация хранения и лицензирования за счет
переноса редко используемых данных в Hadoop
• Сокращение хранения за счет обработки
потоковых данных
• Повышение производительности
• Структурированные, неструктурированные,
потоковые данные для анализа
• Минимальные задержки по анализу
(часы, а не недели или месяцы)
• Запросы к любым данным
Существующие ETL/ELT решения в Hadoop
• Механизмы Hadoop
– MapReduce
– Spark
• Tools
– Flume
– Sqoop
• SQL-like
– Hive
– BigSQL
– Impala
– HAWQ
– Presto
– …
BigIntegrate & BigQuality
BigIntegrate & BigQuality
• Масштабируемый движок по
интеграции и качеству данных теперь
полноценно работает прямо на
кластере Hadoop
• Трансформация, обогащение и очистка
данных, которые лежат в Hadoop
• Вся мощность Hadoop кластера для
решения задач интеграции без
написания строк кода
• Поддерживаемые дистрибутивы:
BigInsights 4.0+, HortonWorks 2.2+,
Cloudera 5.3+
Быстрая загрузка и обработка
прямо внутри Hadoop
Полное доверие
к вашим данным
Высочайший уровень
продуктивности
В 15x быстрее
чем большинство других решений
Встроенные возможности
управления, очистки, безопасности и
происхождения данных
87% экономии
при помощи более сотни функций
преобразования
Hadoop Platform
HDFS
BigIntegrate &
BigQuality
Engine
YARN
(Резервирование,
надежное хранение)
(Менеджер ресурсов
кластера Hadoop)
Tez (Движок
исполнения)
MapReduce
(batch)
Hive
(SQL) …
VS
Hadoop Platform
BigIntegrate & BigQuality
Engine
MapReduce
(batch)
Hive
(SQL) …
VS
Интеграция, качество и
инструмент управления
Только Hadoop интеграция
Traditional ETL
Выполнение на любой платформе
Единый дизайн заданий
within DB within Hadoop 2.0
HDFS
BigIntegration
BigQuality
YARN
Уникальный подход IBM
• Высокая производительность
благодаря исполнению
заданий Information Server
напрямую через Yarn
• Запуск спроектированного
задания на базе данных (ELT),
традиционным образом (ETL)
или же на Hadoop
Спасибо за внимание!
Андрей Орлов, эксперт по решениям IBM Big Data
Andrey.Orlov@ru.ibm.com
Twitter: @lokaro LinkedIn: in/lokaro

More Related Content

What's hot

Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleAndrey Akulov
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияYuri Yashkin
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"Provectus
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облакахPavel Mezentsev
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaVolha Banadyseva
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015rusbase
 
Потенциал облачных сред для развития бизнеса
Потенциал облачных сред для развития бизнесаПотенциал облачных сред для развития бизнеса
Потенциал облачных сред для развития бизнесаPavel Gelvan
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
Подход Oracle к управлению метаданными для аналитических систем
Подход Oracle к управлению метаданными для аналитических системПодход Oracle к управлению метаданными для аналитических систем
Подход Oracle к управлению метаданными для аналитических системAndrey Akulov
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхDenodo
 
SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?Andrey Korshikov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 

What's hot (19)

2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. Vertica
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015
 
Потенциал облачных сред для развития бизнеса
Потенциал облачных сред для развития бизнесаПотенциал облачных сред для развития бизнеса
Потенциал облачных сред для развития бизнеса
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Подход Oracle к управлению метаданными для аналитических систем
Подход Oracle к управлению метаданными для аналитических системПодход Oracle к управлению метаданными для аналитических систем
Подход Oracle к управлению метаданными для аналитических систем
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
Электронный архив
Электронный архивЭлектронный архив
Электронный архив
 
Operational Reporting
Operational ReportingOperational Reporting
Operational Reporting
 
SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 

Viewers also liked

ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)
ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)
ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)ZFConf Conference
 
презентация по очередям
презентация по очередямпрезентация по очередям
презентация по очередямCyrill Abramov
 
Hadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogHadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogAndrew Panfilov
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Очереди Сообщений в Распределённых Системах
Очереди Сообщений в Распределённых СистемахОчереди Сообщений в Распределённых Системах
Очереди Сообщений в Распределённых СистемахMaksim Melnikau
 
Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsAndrei Nikolaenko
 
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Andrei Nikolaenko
 
Big Data Developers Moscow Meetup 1 - sql on hadoop
Big Data Developers Moscow Meetup 1  - sql on hadoopBig Data Developers Moscow Meetup 1  - sql on hadoop
Big Data Developers Moscow Meetup 1 - sql on hadoopbddmoscow
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)bddmoscow
 
IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)Andrei Nikolaenko
 
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Andrei Nikolaenko
 
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC Geoffrey Fox
 
51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data Stack51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data StackGeoffrey Fox
 
PostgreSQL Moscow Meetup - September 2014 - Ilya Kosmodemyansky
PostgreSQL Moscow Meetup - September 2014 - Ilya KosmodemyanskyPostgreSQL Moscow Meetup - September 2014 - Ilya Kosmodemyansky
PostgreSQL Moscow Meetup - September 2014 - Ilya KosmodemyanskyNikolay Samokhvalov
 
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)bddmoscow
 
NoSQL databases and managing big data
NoSQL databases and managing big dataNoSQL databases and managing big data
NoSQL databases and managing big dataSteven Francia
 
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...Geoffrey Fox
 
Cloud Computing and your Data Warehouse
Cloud Computing and your Data WarehouseCloud Computing and your Data Warehouse
Cloud Computing and your Data Warehousedrluckyspin
 
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...Ontico
 
NoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsNoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsAndrei Nikolaenko
 

Viewers also liked (20)

ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)
ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)
ZFConf 2010: Using Message Queues in Day-to-Day Projects (Zend_Queue)
 
презентация по очередям
презентация по очередямпрезентация по очередям
презентация по очередям
 
Hadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> CascalogHadoop -> Cascading -> Cascalog
Hadoop -> Cascading -> Cascalog
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
Очереди Сообщений в Распределённых Системах
Очереди Сообщений в Распределённых СистемахОчереди Сообщений в Распределённых Системах
Очереди Сообщений в Распределённых Системах
 
Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development Environments
 
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)Introductory Keynote at Hadoop Workshop by Ospcon (2014)
Introductory Keynote at Hadoop Workshop by Ospcon (2014)
 
Big Data Developers Moscow Meetup 1 - sql on hadoop
Big Data Developers Moscow Meetup 1  - sql on hadoopBig Data Developers Moscow Meetup 1  - sql on hadoop
Big Data Developers Moscow Meetup 1 - sql on hadoop
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)
 
IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)
 
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
 
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC
HPC-ABDS: The Case for an Integrating Apache Big Data Stack with HPC
 
51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data Stack51 Use Cases and implications for HPC & Apache Big Data Stack
51 Use Cases and implications for HPC & Apache Big Data Stack
 
PostgreSQL Moscow Meetup - September 2014 - Ilya Kosmodemyansky
PostgreSQL Moscow Meetup - September 2014 - Ilya KosmodemyanskyPostgreSQL Moscow Meetup - September 2014 - Ilya Kosmodemyansky
PostgreSQL Moscow Meetup - September 2014 - Ilya Kosmodemyansky
 
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)
Online learning - Apache Spark alternatives: Vowpal Wabbit. (18.06.2015)
 
NoSQL databases and managing big data
NoSQL databases and managing big dataNoSQL databases and managing big data
NoSQL databases and managing big data
 
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...
Multi-faceted Classification of Big Data Use Cases and Proposed Architecture ...
 
Cloud Computing and your Data Warehouse
Cloud Computing and your Data WarehouseCloud Computing and your Data Warehouse
Cloud Computing and your Data Warehouse
 
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...
Использование асинхронной очереди сообщений в высоконагруженном проекте / Анд...
 
NoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsNoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospects
 

Similar to BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Подходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхПодходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхСбертех | SberTech
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТYuri Yashkin
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
IBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageIBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageSergey Kostenko
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхDenodo
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_seeElena Ometova
 
Simposium bi 2012 1109
Simposium bi 2012 1109Simposium bi 2012 1109
Simposium bi 2012 1109Denis Pavlov
 
Аналитика в управлении персоналом SAP BI
Аналитика в управлении персоналом SAP BIАналитика в управлении персоналом SAP BI
Аналитика в управлении персоналом SAP BImolga-ru
 
Informatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in RussianInformatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in RussianIlya Gershanov
 

Similar to BigIntegrate - разрушение мифов по поводу ETL на Hadoop (20)

Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Подходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организацияхПодходы к построению хранилищ данных в крупных организациях
Подходы к построению хранилищ данных в крупных организациях
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
IBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy StorageIBM Technology Day 2013 Sy Storage
IBM Technology Day 2013 Sy Storage
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Построение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
Data Integration Software
Data Integration Software Data Integration Software
Data Integration Software
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_see
 
Simposium bi 2012 1109
Simposium bi 2012 1109Simposium bi 2012 1109
Simposium bi 2012 1109
 
Аналитика в управлении персоналом SAP BI
Аналитика в управлении персоналом SAP BIАналитика в управлении персоналом SAP BI
Аналитика в управлении персоналом SAP BI
 
Informatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in RussianInformatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in Russian
 

BigIntegrate - разрушение мифов по поводу ETL на Hadoop

  • 1. BigIntegrate - разрушение мифов по поводу ETL на Hadoop. Андрей Орлов, эксперт по решениям IBM Big Data Andrey.Orlov@ru.ibm.com Twitter: @lokaro LinkedIn: in/lokaro
  • 2. Пару слов обо мне… School of Business Informatics Software engineering IBM Certified Solution Advisor Big Data & Analytics
  • 3. Agenda • Что такое Information Server? • Что такое Hadoop? • Что такое ETL / ELT на Hadoop? • Что такое Information Server на Hadoop? • Что такое BigIntegrate / BigQuality?
  • 5. IBM Information Server Лидирующая на рынке платформа интеграции данных  Линейная масштабируемость при резком увеличении объемов данных  Операционная интеграция 24x7  Полная интеграция на уровне метаданных и понимание происхождения данных  Сопоставление Бизнес и IT целей  Оптимизированное подключение к различным источникам данных InfoSphere Information Server Information Governance Catalog Data Integration Data Quality
  • 6. Information Governance Catalog Понимание и совместная работа Понимание • Полный каталог метаданных • Бизнес-контекст для информационных активов • Уверенность бизнеса в информационных активах Управление • Совместное управление бизнес-словарем • Создание стюардов, распределение обязанностей • Понимание происхождения данных • Соединение бизнес-терминов и правил управления с информационными активами • Расширение источников данных и ассетов при помощи REST- API для создания, импорта и управления расширениями • Поддержка русского языка для контента Улучшенные возможности расширения XSD / XML поддержка
  • 7. Information Server for Data Integration Выгрузка, трансформация и доставка любых данных Подключения • Масштабирование трансформаций на узлах кластера hadoop • Улучшенный File Connector • SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10 Дизайн и трансформация • Трансформация и агрегация любого объема данных • Сотни встроенных функций преобразования • Использование системы управления метаданными для повышения производительности и совместной работы • Встроенная защита конфиденциальных данных налету при помощи лучшего в своем классе Optim Masking Управление и мониторинг • Простые веб-дашборды для управление среды исполнения
  • 8. Information Server for Data Quality Анализ, очистка и мониторинг ваших данных Анализ • Обнаружение данных на основе определенных бизнес классов данных • Анализ структуры данных и контента • Автоматический процесс анализа данных Очистка • Исследование, стандартизация, соответствие и выживание данных внутри процесса интеграции данных Мониторинг • Оценка и мониторинг качества данных в любой системе • Соотношение индикаторов качества данных и бизнес- политик • Подключение дата-стюардов, когда качество данных опускается ниже определенного уровня
  • 10. Hadoop изнутри Инфраструктура для параллельной обработки больших объемов данных
  • 11. Hadoop изнутри Инфраструктура для параллельной обработки больших объемов данных Распределённая файловая система
  • 12. Hadoop изнутри Инфраструктура для параллельной обработки больших объемов данных Распределённая файловая система Распределённые вычисления
  • 13. Hadoop изнутри Инфраструктура для параллельной обработки больших объемов данных Распределённая файловая система Распределённые вычисления А также:
  • 14. Модернизация хранилищ данных Интеграция больших данных и традиционных хранилищ для повышения эффективности Использование разнообразных данных Расширение инфраструктуры хранилища • Оптимизация хранения и лицензирования за счет переноса редко используемых данных в Hadoop • Сокращение хранения за счет обработки потоковых данных • Повышение производительности • Структурированные, неструктурированные, потоковые данные для анализа • Минимальные задержки по анализу (часы, а не недели или месяцы) • Запросы к любым данным
  • 15. Существующие ETL/ELT решения в Hadoop • Механизмы Hadoop – MapReduce – Spark • Tools – Flume – Sqoop • SQL-like – Hive – BigSQL – Impala – HAWQ – Presto – …
  • 17.
  • 18. BigIntegrate & BigQuality • Масштабируемый движок по интеграции и качеству данных теперь полноценно работает прямо на кластере Hadoop • Трансформация, обогащение и очистка данных, которые лежат в Hadoop • Вся мощность Hadoop кластера для решения задач интеграции без написания строк кода • Поддерживаемые дистрибутивы: BigInsights 4.0+, HortonWorks 2.2+, Cloudera 5.3+
  • 19. Быстрая загрузка и обработка прямо внутри Hadoop Полное доверие к вашим данным Высочайший уровень продуктивности В 15x быстрее чем большинство других решений Встроенные возможности управления, очистки, безопасности и происхождения данных 87% экономии при помощи более сотни функций преобразования
  • 20. Hadoop Platform HDFS BigIntegrate & BigQuality Engine YARN (Резервирование, надежное хранение) (Менеджер ресурсов кластера Hadoop) Tez (Движок исполнения) MapReduce (batch) Hive (SQL) … VS
  • 21. Hadoop Platform BigIntegrate & BigQuality Engine MapReduce (batch) Hive (SQL) … VS Интеграция, качество и инструмент управления Только Hadoop интеграция
  • 22. Traditional ETL Выполнение на любой платформе Единый дизайн заданий within DB within Hadoop 2.0 HDFS BigIntegration BigQuality YARN Уникальный подход IBM • Высокая производительность благодаря исполнению заданий Information Server напрямую через Yarn • Запуск спроектированного задания на базе данных (ELT), традиционным образом (ETL) или же на Hadoop
  • 23. Спасибо за внимание! Андрей Орлов, эксперт по решениям IBM Big Data Andrey.Orlov@ru.ibm.com Twitter: @lokaro LinkedIn: in/lokaro