SlideShare a Scribd company logo
1 of 23
Download to read offline
ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА
PENTAHO DATA INTEGRATOR.
ОПЫТ КРОК
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
СОДЕРЖАНИЕ
• Роль ETL-инструмента в аналитической
системе
• О Pentaho и Pentaho BI Suite
• О Pentaho Data Integrator
• Пример работы PDI
• Опыт использования PDI в проектах КРОК
и особенности ETL-масштабирования
АНАЛИТИЧЕСКАЯ СИСТЕМА
Витрины
ETL
Хранилище данных
Отчетность
Источники
данных
ERP,
CRM,..
Источники
данных
ERP,
CRM,..
ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ
ГОТОВЫЙ ETL?
О PENTAHO CORPORATION
• Основана в 2004 году
• Первый производитель Open Source BI
• В управляющую команду входят менеджеры
из Hyperion, IBM Cognos, Business Objects,
Oracle, IBM, SAS
• Полноценная система BI, включающая
отчетность, OLAP-анализ, ETL и data mining
ЗАКАЗЧИКИ PENTAHO
БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ
ТРАФИКОМ
• Он-лайн интеграция
данных 570 сенсоров
• Самая большая
таблица фактов –
более миллиарда
записей,
добавляется
100 млн. ежемесячно
АРХИТЕКТУРА PENTAHO BI
• Модульная
архитектура
• SOA
• 100% Java EE
• Тонкие web-клиенты,
Ajax
• Места разработки на
Eclipse
PENTAHO DATA INTEGRATOR
Проект начат в 2001 году под названием Kettle
(Kettle Extraction Transportation Transformation
Loading Enviroment)
ОСОБЕННОСТИ PDI
• Ориентация на метаданные
– Что сделать, а не как сделать
– Единый репозиторий метаданных
• Подключение к множеству источников
• Возможность добавлять собственные
расширения и компоненты
• Масштабируемость, использование
кластеров
• Удобный графический интерфейс
• Отладка трансформаций
ИЗВЛЕЧЕНИЕ ДАННЫХ.
EXTRACT
• Свыше 25 типов БД
• Текстовые файлы
• XML
• XLS
• dbf, Xbase
• Access
• LDAP
• Системные данные
ТРАНСФОРМАЦИЯ ДАННЫХ.
TRANSFORM
• Lookup (поиск соответствия)
– В таблицах БД
– Файлах
– Памяти сервера
• Вычисления агрегатов
• Сложные трансформации
– Регулярные выражения
– JavaScript
• Фильтрация
• Сортировка
ЗАГРУЗКА ДАННЫХ. LOAD
• Загрузка данных в БД (специальные
компоненты для массовой загрузки, Upsert)
• Обновление ХД (компоненты для SCD2,
генерации суррогатных ключей)
• Партиционирование
• Параллельное чтение/загрузка
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
• Активное сообщество:
– Более 10 тысяч скачиваний PDI в месяц
– Более 50,000 тем в форумах за 3 года
• Общедоступная система учета ошибок — Jira
• Более 30 внешних разработчиков
ДЕМОНСТРАЦИЯ PDI.
ЗАГРУЗКА ДАННЫХ
О КЛИЕНТАХ В ХД
МАСШТАБИРОВАНИЕ ETL.
КОНВЕЙЕР
• Последовательная обработка наборов записей в потоке
• Каждый шаг выполняется отдельным процессом, можно
увеличивать количество процессов на шаг
• Ограниченные возможности
масштабирования («вытягивания») работы
МАСШТАБИРОВАНИЕ ETL.
ПАРТИЦИОНИРОВАНИЕ
• Партиционирование данных для
независимой обработки на нескольких
узлах кластера
• Линейное масштабирование
по количеству узлов
• Зависимость от метода
партиционирования
• Сложнее проектирование
МАСШТАБИРОВАНИЕ ETL
• Сочетание конвейера и партиционирования
• Выбор метода масштабирования для каждой работы
• Поиск оптимальной производительности
МАСШТАБИРУЕМОСТЬ PDI
• Простое подключение рабочих узлов в кластер
• Партиционирование данных
• Визуальный интерфейс настройки
многопроцессорного выполнения. Каждая из задач
выполняется на 4-х узлах
ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК
• Государственная организация
– Выгрузка данных из ХД в кубы Essbase
– Использование сложных преобразований данных, регулярных
выражений
– Многопоточная загрузка
– Скорость более 20 тысяч строк/с
• Johnson&Johnson
– Интеграция данных из файлов Excel
• Пилотные проекты
– Генерация данных для нагрузочных тестирований
– Импорт файлов
– Сложные преобразования файлов без использования СУБД
ЛИЦЕНЗИРОВАНИЕ PDI
• Community Edition – полноценный, вполне
рабочий инструмент. Поддержка с
нерегламентированным временем отклика, но та же
система заявок Jira
• Enterprise Edition – от 10к$ годовая
поддержка (4 процессора), время реакции <4 часов.
Чуть больше шагов.
ИТОГО
• PDI – эффективный ETL-инструмент, использование
которого может помочь Вам строить аналитические
системы и хранилища данных без дополнительных
начальных затрат на лицензии
• КРОК поможет оптимально применить PDI:
• Обучение
• Консалтинг
• Методология ETL
СПАСИБО ЗА ВНИМАНИЕ!
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
Т.: (495)974-22-74 доб. 6396
Ф: (495) 974 2277
email: yk@croc.ru

More Related Content

Viewers also liked

ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.chester_ds
 
Интеграция данных компании
Интеграция данных компанииИнтеграция данных компании
Интеграция данных компанииDatamodel
 
Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012RossBettinger
 
Великие географические открытия
Великие географические открытияВеликие географические открытия
Великие географические открытияKatty Zimina
 
Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решенияхItransition Group Ltd.
 
Очистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и RОчистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и ROlga Maksimenkova
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDMOleksii Tsipiniuk
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introductionmattcasters
 
Инвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездахИнвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездахMoscow IT Department
 

Viewers also liked (14)

ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.
 
Интеграция данных компании
Интеграция данных компанииИнтеграция данных компании
Интеграция данных компании
 
BI Pentaho for Retail
BI Pentaho for RetailBI Pentaho for Retail
BI Pentaho for Retail
 
Talend - about company and solutions
Talend - about company and solutionsTalend - about company and solutions
Talend - about company and solutions
 
Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012
 
Великие географические открытия
Великие географические открытияВеликие географические открытия
Великие географические открытия
 
Talend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deploymentTalend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deployment
 
Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решениях
 
Очистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и RОчистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и R
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
 
Kettle – Etl Tool
Kettle – Etl ToolKettle – Etl Tool
Kettle – Etl Tool
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introduction
 
Инвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездахИнвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездах
 

Similar to Особенности ETL — инструмента pentaho data integrator. Опыт КРОК

Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIОникс Софт
 
Основы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiОсновы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiSoftengi
 
Использование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграцииИспользование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграцииКРОК
 
IBM ECM & Discovery Strategy
IBM ECM & Discovery StrategyIBM ECM & Discovery Strategy
IBM ECM & Discovery StrategyIBM IBM
 
Платформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGateПлатформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGateTibbo
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleAndrey Akulov
 
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Ontico
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
владивосток форум производительность_ha
владивосток форум производительность_haвладивосток форум производительность_ha
владивосток форум производительность_haElena Ometova
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиAndrey Akulov
 
2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, ParallelsNikolay Samokhvalov
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
Tools to ensure quality of information system
Tools to ensure quality of information system Tools to ensure quality of information system
Tools to ensure quality of information system soft-point
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 

Similar to Особенности ETL — инструмента pentaho data integrator. Опыт КРОК (20)

Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
 
Основы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiОсновы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в Softengi
 
Использование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграцииИспользование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграции
 
IBM ECM & Discovery Strategy
IBM ECM & Discovery StrategyIBM ECM & Discovery Strategy
IBM ECM & Discovery Strategy
 
Платформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGateПлатформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGate
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 
R-Style Part
R-Style PartR-Style Part
R-Style Part
 
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
владивосток форум производительность_ha
владивосток форум производительность_haвладивосток форум производительность_ha
владивосток форум производительность_ha
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
 
2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
supercluster
superclustersupercluster
supercluster
 
Tools to ensure quality of information system
Tools to ensure quality of information system Tools to ensure quality of information system
Tools to ensure quality of information system
 
JD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS serverJD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS server
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Synergy
SynergySynergy
Synergy
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 

More from КРОК

Каталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОККаталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОККРОК
 
Корпоративное онлайн-обучение
Корпоративное онлайн-обучениеКорпоративное онлайн-обучение
Корпоративное онлайн-обучениеКРОК
 
Решение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостьюРешение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостьюКРОК
 
Заоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департаментаЗаоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департаментаКРОК
 
Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!КРОК
 
3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персонала3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персоналаКРОК
 
Что такое SDS?
Что такое SDS?Что такое SDS?
Что такое SDS?КРОК
 
Деловой подход к хранению данных
Деловой подход к хранению данныхДеловой подход к хранению данных
Деловой подход к хранению данныхКРОК
 
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных СистемЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных СистемКРОК
 
ВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центраВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центраКРОК
 
Tele2. Модернизация контактного центра
Tele2. Модернизация контактного центраTele2. Модернизация контактного центра
Tele2. Модернизация контактного центраКРОК
 
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центрКРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центрКРОК
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций MindКРОК
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessКРОК
 
Новые возможности при создании систем вкс
Новые возможности при создании систем вксНовые возможности при создании систем вкс
Новые возможности при создании систем вксКРОК
 
Cisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференцийCisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференцийКРОК
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoКРОК
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoКРОК
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessКРОК
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций MindКРОК
 

More from КРОК (20)

Каталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОККаталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОК
 
Корпоративное онлайн-обучение
Корпоративное онлайн-обучениеКорпоративное онлайн-обучение
Корпоративное онлайн-обучение
 
Решение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостьюРешение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостью
 
Заоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департаментаЗаоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департамента
 
Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!
 
3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персонала3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персонала
 
Что такое SDS?
Что такое SDS?Что такое SDS?
Что такое SDS?
 
Деловой подход к хранению данных
Деловой подход к хранению данныхДеловой подход к хранению данных
Деловой подход к хранению данных
 
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных СистемЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
 
ВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центраВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центра
 
Tele2. Модернизация контактного центра
Tele2. Модернизация контактного центраTele2. Модернизация контактного центра
Tele2. Модернизация контактного центра
 
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центрКРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций Mind
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for business
 
Новые возможности при создании систем вкс
Новые возможности при создании систем вксНовые возможности при создании систем вкс
Новые возможности при создании систем вкс
 
Cisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференцийCisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференций
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс Vinteo
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс Vinteo
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for business
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций Mind
 

Особенности ETL — инструмента pentaho data integrator. Опыт КРОК

  • 1. ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА PENTAHO DATA INTEGRATOR. ОПЫТ КРОК Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК
  • 2. СОДЕРЖАНИЕ • Роль ETL-инструмента в аналитической системе • О Pentaho и Pentaho BI Suite • О Pentaho Data Integrator • Пример работы PDI • Опыт использования PDI в проектах КРОК и особенности ETL-масштабирования
  • 4. ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ ГОТОВЫЙ ETL?
  • 5. О PENTAHO CORPORATION • Основана в 2004 году • Первый производитель Open Source BI • В управляющую команду входят менеджеры из Hyperion, IBM Cognos, Business Objects, Oracle, IBM, SAS • Полноценная система BI, включающая отчетность, OLAP-анализ, ETL и data mining
  • 7. БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ ТРАФИКОМ • Он-лайн интеграция данных 570 сенсоров • Самая большая таблица фактов – более миллиарда записей, добавляется 100 млн. ежемесячно
  • 8. АРХИТЕКТУРА PENTAHO BI • Модульная архитектура • SOA • 100% Java EE • Тонкие web-клиенты, Ajax • Места разработки на Eclipse
  • 9. PENTAHO DATA INTEGRATOR Проект начат в 2001 году под названием Kettle (Kettle Extraction Transportation Transformation Loading Enviroment)
  • 10. ОСОБЕННОСТИ PDI • Ориентация на метаданные – Что сделать, а не как сделать – Единый репозиторий метаданных • Подключение к множеству источников • Возможность добавлять собственные расширения и компоненты • Масштабируемость, использование кластеров • Удобный графический интерфейс • Отладка трансформаций
  • 11. ИЗВЛЕЧЕНИЕ ДАННЫХ. EXTRACT • Свыше 25 типов БД • Текстовые файлы • XML • XLS • dbf, Xbase • Access • LDAP • Системные данные
  • 12. ТРАНСФОРМАЦИЯ ДАННЫХ. TRANSFORM • Lookup (поиск соответствия) – В таблицах БД – Файлах – Памяти сервера • Вычисления агрегатов • Сложные трансформации – Регулярные выражения – JavaScript • Фильтрация • Сортировка
  • 13. ЗАГРУЗКА ДАННЫХ. LOAD • Загрузка данных в БД (специальные компоненты для массовой загрузки, Upsert) • Обновление ХД (компоненты для SCD2, генерации суррогатных ключей) • Партиционирование • Параллельное чтение/загрузка
  • 14. ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ • Активное сообщество: – Более 10 тысяч скачиваний PDI в месяц – Более 50,000 тем в форумах за 3 года • Общедоступная система учета ошибок — Jira • Более 30 внешних разработчиков
  • 16. МАСШТАБИРОВАНИЕ ETL. КОНВЕЙЕР • Последовательная обработка наборов записей в потоке • Каждый шаг выполняется отдельным процессом, можно увеличивать количество процессов на шаг • Ограниченные возможности масштабирования («вытягивания») работы
  • 17. МАСШТАБИРОВАНИЕ ETL. ПАРТИЦИОНИРОВАНИЕ • Партиционирование данных для независимой обработки на нескольких узлах кластера • Линейное масштабирование по количеству узлов • Зависимость от метода партиционирования • Сложнее проектирование
  • 18. МАСШТАБИРОВАНИЕ ETL • Сочетание конвейера и партиционирования • Выбор метода масштабирования для каждой работы • Поиск оптимальной производительности
  • 19. МАСШТАБИРУЕМОСТЬ PDI • Простое подключение рабочих узлов в кластер • Партиционирование данных • Визуальный интерфейс настройки многопроцессорного выполнения. Каждая из задач выполняется на 4-х узлах
  • 20. ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК • Государственная организация – Выгрузка данных из ХД в кубы Essbase – Использование сложных преобразований данных, регулярных выражений – Многопоточная загрузка – Скорость более 20 тысяч строк/с • Johnson&Johnson – Интеграция данных из файлов Excel • Пилотные проекты – Генерация данных для нагрузочных тестирований – Импорт файлов – Сложные преобразования файлов без использования СУБД
  • 21. ЛИЦЕНЗИРОВАНИЕ PDI • Community Edition – полноценный, вполне рабочий инструмент. Поддержка с нерегламентированным временем отклика, но та же система заявок Jira • Enterprise Edition – от 10к$ годовая поддержка (4 процессора), время реакции <4 часов. Чуть больше шагов.
  • 22. ИТОГО • PDI – эффективный ETL-инструмент, использование которого может помочь Вам строить аналитические системы и хранилища данных без дополнительных начальных затрат на лицензии • КРОК поможет оптимально применить PDI: • Обучение • Консалтинг • Методология ETL
  • 23. СПАСИБО ЗА ВНИМАНИЕ! Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК Т.: (495)974-22-74 доб. 6396 Ф: (495) 974 2277 email: yk@croc.ru