SlideShare a Scribd company logo
1 of 58
Talend Data Quality Платформа управления клиентскими данными
Содержание О компаниях Talend и Itransition Области применения платформы решений Talend Варианты использования платформы Talend Data Quality
О компании Itransition 10 лет на рынке ИТ В штате компании более 600 специалистов №1 по темпам роста в 2009 гг. в России Престижные премии в  сфере бизнеса и ИТ Сервисный партнер SAP Сертифицированный партнер Microsoft Партнер Rackspace, Broad Vision, NorthGate Arinso, Talend
О компании 5 лет на мировом рынке ИТ Показатели востребованости продуктов: 10 миллионов загрузок за все время существования 450 000 пользователей 1 500 заказчиков 100 новых заказчиков в месяц 1 загрузка Talend Open Studio в минуту
Области применения решений Talend MDM Качество  данных Управление  справочными данными Профилированиеи очисткаданных Интеграция данных Функциональная интеграция Аналитика (ETL) Оперативный обмен данными между информационными системами. Извлечение, преобразование и загрузка  данных  для  систем, обеспечивающих принятие решений
Talend Data Quality Варианты использования: Управление справочной информацией Операционное использование Аналитическое использование
Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
Решаемые задачи ,[object Object]
Организация доступа к модели данных пользователям
Создание  механизмов интеграции данных
Создание  механизмов контроля качества данных,[object Object]
Создание моделей данных Инструмент: Talend MDM Studio Возможности: Проектирование модели данных Управление представлением данных Формирование правил контроля качества хранимых данных Организация доступа к данным
Модель данных Физическая область  хранения метаданных и данных Библиотека типов ФИЗИЧЕСКИЙ АДРЕС ЮРИДИЧЕСКИЙ АДРЕС АДРЕС ДОСТАВКИ Контейнер данных INSURANCE Модель данных                  INSURANCE Правила проверки данных Типы данных Безопасность АДРЕС ИНДЕНТИФИКАЦИОН- НЫЙ ДОКУМЕНТ ТЕЛЕФОННЫЙ НОМЕР ПАСПОРТ ПРАВА МОБИЛЬНЫЙ ТЕЛЕФОН РАБОЧИЙ ТЕЛЕФОН ФАКС Модель  данных Логическая структура описывающая  модель основных данных
Управление сущностями Повторное использование (Типизация) СУЩНОСТЬ АТРИБУТ АННОТАЦИЯ АННОТАЦИЯ КЛИЕНТ НОМЕР ПАСПОРТА Простые типы Типизация Сложные типы Возможности Управление отображением Управление доступ Связывание сущностей Проверка вводимых данных
Аннотации, управление отображением Управление сообщениями об ошибках Обязательное поле Управление форматом изображения 9 Января 1977 г. 1977 – 01 – 09 Дата рождения* Место рождения: Управление описанием поля Управление названием поля Пол:          Муж.           Жен. Дата рождения клиента физического лица Дата рождения
Аннотации, управление отображением Управление сообщениями об ошибках Mandatory field Управление форматом изображения 9 Jan 1977 г. 1977 – 01 – 09 Birthday* Место рождения: Управление описанием поля Управление названием поля Пол:          Муж.           Жен. Client birthday Birthday
Аннотации, связывание сущностей Телефон Клиент ЗНАЧЕНИЯ АТРИБУТЫ ЗНАЧЕНИЯ АТРИБУТЫ 10 ИДЕНТИФИКАТОР 7 ТЕЛЕФОННЫЙ КОД СТРАНЫ ТЕЛЕФОННЫЙ НОМЕР 10 495 ТЕЛЕФОНННЫЙ КОД ГОРОДА + 758-13-12 ТЕЛЕФОННЫЙ НОМЕР МОБИЛЬНЫЙ ТИП ТЕЛЕФОННОГО НОМЕРА Отображаемое значение 7 – 495 – 758 – 13 – 12
Аннотации, управление доступом ОБЛАСТЬ ВИДИМОСТИ КАНАЛ ПРОДАЖ ДОГОВОР КЛИЕНТ Тип Менеджер Номер Дата Продукт Сумма Имя Отчество Фамилия Пол Дата рождения Паспорт Телефон Адрес ОБЛАСТЬ ИЗМЕНЕНИЯ
Проверка соответствия требованиям форматасерии паспорта Аннотации, контроль ввода Клиент … Проверка соответствия требованиям форматаномера паспорта 112342 Паспорт серия: 123456 Паспорт номер: Проверка наличиязаполненных данных Москва, ул. Ленина, 12 Адрес: me@me.com E-mail: Проверка правильности заполнения E-mail …
Управление ролями РОЛЬ 1 Сущности Атрибуты Клиенты Представления Ограниченный набор клиентов ПОЛЬЗОВАТЕЛЬ Действия РОЛЬ 2 РОЛЬ …
Базовые роли Разработка механизмов интеграций данных Разработка механизмов контроля качества данных АДМИНИСТРАТОР Разработка модели данных ЛИЦЕНЗИРУЕМАЯ  ДЕЯТЕЛЬНОСТЬ Работа с основными данными используя API ВНЕШНИЕ СИСТЕМЫ ПОЛЬЗОВАТЕЛЬ Работа с данными через портал ПОЛЬЗОВАТЕЛЬ ПОРТАЛА Просмотр данных через портал
Демонстрация Возможности Talend MDM Studio по работе с моделями данных: Сущности Атрибуты Аннотации Роли
Организация доступа к данными Инструмент: Talend Web UI (портал) Возможности: Создание, редактирование, удаление клиентских данных Работа с иерархиями записейо клиентах Управление пользователями
Представления Атрибуты, входящие в результаты поиска Телефон Сегмент Контактное лицо Ф.И.О. Ограничение набора доступных записей Сидоров С.С. ОСАГО +7 916 4008031 Иванов И.И. Смирнов И.И. ОСАГО Петров П.П. +7 916 8004031 Петров П.П. +7 916 3104080 КАСКО Сидоров И.И. Иванов И.И. Смирнов С.С. ДМС +7 916 8104031 Атрибуты, входящие в условия поиска
Иерархии, группировки Физические лица Ф.И.О. Сегмент ОСАГО ДМС КАСКО Иванов Иван Иванович Петров Петр Петрович Смирнов Иван Иванович Иванов ИванИванович ОСАГО Сидоров Сергей Сергеевич Петров Петр Петрович ДМС Смирнов Иван Иванович КАСКО Сидоров Сергей Сергеевич ОСАГО
Иерархии, взаимосвязи Физические лица Иванов И.И. Ф.И.О. Контактное лицо Сидоров С.С. Иванов И.И. Сидоров С.С. Иванов И.И. Петров П.П. Смирнов И.И. Петров П.П. Смирнов И.И. Смирнов И.И. Петров П.П. Сидоров И.И. Петров П.П. Сидоров С.С. Иванов И.И. Смирнов С.С. Иванов И.И. Сидоров С.С.
Управление пользователями Администраторы ПОЛЬЗОВАТЕЛЬ Идентификатор Имя Фамилия E-mail Статус Внешние системы ИЛИ Пользователи портала Дополнительно настраиваемые роли
Демонстрация Демонстрация Talend MDM Studio: Работа с представлениями Демонстрация портала по работе с клиентскими данными Web UI: Просмотр данных Иерархии Пользователи
Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
Создание механизмов интеграции данных Инструмент: Talend MDM Studio Возможности: Разработка механизмов выборки данных из операционных систем Разработка механизмов трансформации данных Разработка механизмов загрузки данных в MDM-CDI хранилище
Механизмы интеграции и контроля качества Работа Talend Работа Компонент Компонент Joblet Компонент Выход Вход Вход
Компоненты Компоненты ,[object Object]
60% разработаны сообществом пользователей Talend
Доступны в бесплатной версии
Проверены и поддерживаются Talend,[object Object]
Выборка данных из источников Информационная  система Триггеры Захват изменений ТАБЛИЦА ИЗМЕНЕНИЙ Транспортная модель Клиенты Изменение 1 CDC Изменение 2 … CDI … Издатель и подписчик Отправка Изменений (Push) Чтение изменений (Push) Изменение 11 … Подписчик Издатель Change Data Capturing (CDC)
Преобразование моделей Модель хранения в информационной системе Компонент t Map Транспортная модель ФИО Петров Петр Петрович ПОЛ ИМЯ Петр ДАТА РОЖДЕНИЯ Разделение поля ОТЧЕСТВО Мужской Петрович Петров ФАМИЛИЯ 01.01.1980 Преобразование формата ПОЛ М 01.01.1980 ДАТА РОЖДЕНИЯ Фильтрация данных Дата рождения после 1970г. ФИО Отклоненные данные (Дата рождения до 1970 г.) ДАТА РОЖДЕНИЯ ПОЛ
Преобразование моделей Компонент t Map Транспортная модель Модель хранения в CDI-хранилище ИМЯ КОД Имени Петр 1 4 6 ФАМИЛИЯ КОД  Фамилии Петров ОТЧЕСТВО КОД Отчества Петрович Справочники CDI ИМЯ 1 Петр КОД ИМЯ ПЕРЕСЕЧЕНИЕ ДАННЫХ Записи не обнаруженные в справочниках ОТЧЕСТВО 4 Петрович КОД ОТЧЕСТВО ФАМИЛИЯ 6 Петров КОД ФАМИЛИЯ
Работа с данными в MDM Запись данных в MDM Чтение данных из MDM Удаление данных из MDM Поиск данныхв MDM Получение измененных данных в MDM Портал  (Talend Web UI) КОННЕКТОРЫ СЕРВИСНЫЙ УРОВЕНЬ ХРАНИЛИЩЕ Всего 8 компонентов
“Родословная” данных CDI Хранилище ИМЯ  ОТЧЕСТВО ФАМИЛИЯ ИДЕНТИФИКАТОР 10 Иванов Иванович Иван Перекодировочная таблица Информационная система 1 Идентификатор CDI 10 ФИО ИДЕНТИФИКАТОР Идентификатор UCI 100 100 Иванов Иван Иванович 200 Идентификатор UC2 Информационная система 2 ИМЯ  ОТЧЕСТВО ФАМИЛИЯ ИДЕНТИФИКАТОР 200 Иванов Иванович Иван
Принцип организации обмена данными Модель хранения данных в операционных системах Модель хранения в CDI-хранилище Транспортная модель Справочник имен Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Имя Фамилия Отчество Дата рождения Пол Адрес Паспорт Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес Справочник отчеств Справочник фамилий Справочник адресов ФИО Дата рождения Адрес Паспорт
Демонстрация Демонстрация интеграционных работ: Выборка изменений (СDС) Преобразование данных в транспортный формат Работа с CDI-хранилищем
Принцип организации обмена данными Модель хранения данных в операционных системах Модель хранения в CDI-хранилище Транспортная модель Справочник имен Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Имя Фамилия Отчество Дата рождения Пол Адрес Паспорт Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес Справочник отчеств Справочник фамилий Справочник адресов ФИО Дата рождения Адрес Паспорт
Выборка данных из MDM Измененные данные в транспортном формате Модель данных Talend Web UI Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес MDM-ID DB-ID ХРАНИЛИЩЕ Изменение данных СЕРВИСНЫЙ УРОВЕНЬ МЕНЕДЖЕР СОБЫТИЙ Процесс   Шаг 1   Шаг 2   Шаг 3 Интеграция Контроль качества Оповещение Workflow Триггер 1 Триггер 2 Триггер 3 Триггер 4 Триггер 5 Работа Talend Триггеры
Демонстрация Демонстрация активной модели данных Активная модель данных (триггеры в MDM) Варианты использования триггеров.
Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
Контроль качества данных Модель храненияв CDI-хранилище Справочник имен Транспортная модель Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Справочники Справочник отчеств Проверка полноты и корректности данных Проверка наличия дубликатов Если необходимо подключить Data Stewards 1 2 3 Имя Отчество Фамилия Дата рождения Пол Паспорт Справочник фамилий Справочник адресов
Проверка корректности данных Нормативно-справочная информация Модель хранения в CDI Компонент tRecordMatcher Транспортная модель Компонент tRecordMatcher Код Имени Код Отчества Код Фамилии Код Адреса Имя Отчество Фамилия Адрес Адреса Код Адрес Имена Код Имя Отчества Код Отчество Фамилии Код Фамилия Масква = Москва
Алгоритм поиска дубликатов КомпонентtRecordМatcher Транспортная модель CDI  хранилище Идентифицирующие атрибуты Метод сравнения Весовой коэффициент Дистанция = = = = 1 10 10 Код имени Точно 10 1 12 12 Код отчества Точно 10 0,89 Петров Питров Фамилия Ливенштейн 15 1 1234 56789 10 1234 56789 10 Паспорт Ливенштейн 20 N ∑ (Дистанция х Весовой коэффициент ) Результат сравнения 10*1+10*1+0,89*15+20*1 1 РЕЗУЛЬТАТ 0,97 0,97 = = 1 10+10+15+20 Весовой коэффициент ∑ 1 Нижний порог 0,75 < Новый Дубликат > Верхний порог 0,95 Дубликат
Процесс надзора за данными ОБНАРУЖЕНИЕ НЕКАЧЕСТВЕННЫХ ДАННЫХ СОЗДАНИЕ ЗАДАЧИ В DSC НАЗНАЧЕНИЕ ЗАДАЧИ В DSC НА ИСПОЛНИТЕЛЯ ВЫПОЛНЕНИЕ ЗАДАЧИ Консоль надзора за данными (DSC) Data Steward Работа Talend Работа Talend ОТПРАВКА ДАННЫХ В СИСТЕМУ ПОЛУЧАТЕЛЬ
Консоль надзора за данными Новая Приоритет Статус Решения Заблокированная (Star) ЗАДАЧА Дубликат Исполнитель Категория  (Tags) Полнота etc Действия выполненные над задачами: ,[object Object]
  Разделение,[object Object]
Демонстрация Демонстрация работ выполняющих проверку качества данных Демонстрация консоли надзора за данными (DSC)
Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
Демонстрация Демонстрация сквозного примера: Создание данных в операционных системах. Проверка качества данных Добавление или редактирование данных в CDI-хранилище Использование консоли надзора за данными Сообщение операционным системам глобального идентификатора
Операционное использование  Системы работы с основными данными Работа Talend Информационная система Проверка качества данных Отправка клиентских данных Выполнение процесса надзора за данными Веб-портал (Talend Web UI) Сервисы работы с клиентскими данными Загрузка данных в хранилище Получение клиентских данных Потребитель/Поставщик Консоль надзора за данными (DSC) Чтение данных из хранилища
Организация сервисного слоя Репозитарий работ SOA Manager Веб-Сервис 1 Веб-Сервис 2 Веб-Сервис 3 TalendAdministrator Talend MDM Studio Разработчик Администратор
Требования к оборудованию RAM: > 4 GB HDD: 100 GB RAM: 4 GB HDD: 10 GB TIS Studio TALEND MDM STUDIO RAM: 2 GB HDD: 100 GB RAM: 4 GB HDD: 100 GB Сервер работ RAM: >4 GB HDD: 100 GB Talend  Administration Center (TAC) Talend MDM Server RAM: 2 GB HDD: 100 GB RAM: 4 GB HDD: 200 GB RAM: 2 GB HDD: 100 GB Сервер работ Метаданные (TAC) Activity Monitoring Console (журнал выполнения работ) База клиентских данных Метаданные проектов (SVN)

More Related Content

Similar to Talend Data Quality - Customer Data Management platform

Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решенияхItransition Group Ltd.
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услугCisco Russia
 
Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Виктория Литовка
 
Itransition talend data quality - катализатор адаптации crm
Itransition   talend data quality - катализатор адаптации crmItransition   talend data quality - катализатор адаптации crm
Itransition talend data quality - катализатор адаптации crmItransition Group Ltd.
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхDenodo
 
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...Andrew Sovtsov
 
IBA RUS: ECM и СЭД - практика применения.
IBA RUS: ECM и СЭД -  практика применения.IBA RUS: ECM и СЭД -  практика применения.
IBA RUS: ECM и СЭД - практика применения.Expolink
 
Продукты и решения Informatica
Продукты и решения  InformaticaПродукты и решения  Informatica
Продукты и решения InformaticaNatasha Zaverukha
 
IoT: будущее технологии и существующие решения
IoT: будущее технологии и существующие решенияIoT: будущее технологии и существующие решения
IoT: будущее технологии и существующие решенияLadies Code
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsCleverDATA
 
управление мастер данными
управление мастер даннымиуправление мастер данными
управление мастер даннымиYury Kochubeev
 

Similar to Talend Data Quality - Customer Data Management platform (20)

Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решениях
 
Data Integration Software
Data Integration Software Data Integration Software
Data Integration Software
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3Инфостарт. Новые возможности 1С 8.3
Инфостарт. Новые возможности 1С 8.3
 
Itransition talend data quality - катализатор адаптации crm
Itransition   talend data quality - катализатор адаптации crmItransition   talend data quality - катализатор адаптации crm
Itransition talend data quality - катализатор адаптации crm
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
NAUDOC 365
NAUDOC 365NAUDOC 365
NAUDOC 365
 
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...
Бизнес-контекст, совместная работа и согласованность для интеллектуального уп...
 
IBA RUS: ECM и СЭД - практика применения.
IBA RUS: ECM и СЭД -  практика применения.IBA RUS: ECM и СЭД -  практика применения.
IBA RUS: ECM и СЭД - практика применения.
 
Sales man new_v71
Sales man new_v71Sales man new_v71
Sales man new_v71
 
Продукты и решения Informatica
Продукты и решения  InformaticaПродукты и решения  Informatica
Продукты и решения Informatica
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Oracle CRM On Demand
Oracle CRM On DemandOracle CRM On Demand
Oracle CRM On Demand
 
Oracle On Demand General
Oracle On Demand GeneralOracle On Demand General
Oracle On Demand General
 
IoT: будущее технологии и существующие решения
IoT: будущее технологии и существующие решенияIoT: будущее технологии и существующие решения
IoT: будущее технологии и существующие решения
 
Clever data 1dmp_oracle_fors
Clever data 1dmp_oracle_forsClever data 1dmp_oracle_fors
Clever data 1dmp_oracle_fors
 
управление мастер данными
управление мастер даннымиуправление мастер данными
управление мастер данными
 

More from Максим Остархов

More from Максим Остархов (7)

Itransition - engineering document management
Itransition - engineering document managementItransition - engineering document management
Itransition - engineering document management
 
SharePoint Collaboration Suite - Collaboration Platform
SharePoint Collaboration Suite - Collaboration PlatformSharePoint Collaboration Suite - Collaboration Platform
SharePoint Collaboration Suite - Collaboration Platform
 
How to find and merge duplicates? (approaches)
How to find and merge duplicates?  (approaches)How to find and merge duplicates?  (approaches)
How to find and merge duplicates? (approaches)
 
Customer data management - great tool for increasing sales
Customer data management - great tool for increasing salesCustomer data management - great tool for increasing sales
Customer data management - great tool for increasing sales
 
Talend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deploymentTalend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deployment
 
Customer Data Management - Marketing best practices
Customer Data Management - Marketing best practicesCustomer Data Management - Marketing best practices
Customer Data Management - Marketing best practices
 
Talend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deploymentTalend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deployment
 

Talend Data Quality - Customer Data Management platform

  • 1. Talend Data Quality Платформа управления клиентскими данными
  • 2. Содержание О компаниях Talend и Itransition Области применения платформы решений Talend Варианты использования платформы Talend Data Quality
  • 3. О компании Itransition 10 лет на рынке ИТ В штате компании более 600 специалистов №1 по темпам роста в 2009 гг. в России Престижные премии в сфере бизнеса и ИТ Сервисный партнер SAP Сертифицированный партнер Microsoft Партнер Rackspace, Broad Vision, NorthGate Arinso, Talend
  • 4. О компании 5 лет на мировом рынке ИТ Показатели востребованости продуктов: 10 миллионов загрузок за все время существования 450 000 пользователей 1 500 заказчиков 100 новых заказчиков в месяц 1 загрузка Talend Open Studio в минуту
  • 5. Области применения решений Talend MDM Качество данных Управление справочными данными Профилированиеи очисткаданных Интеграция данных Функциональная интеграция Аналитика (ETL) Оперативный обмен данными между информационными системами. Извлечение, преобразование и загрузка данных для систем, обеспечивающих принятие решений
  • 6. Talend Data Quality Варианты использования: Управление справочной информацией Операционное использование Аналитическое использование
  • 7. Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
  • 8.
  • 9. Организация доступа к модели данных пользователям
  • 10. Создание механизмов интеграции данных
  • 11.
  • 12. Создание моделей данных Инструмент: Talend MDM Studio Возможности: Проектирование модели данных Управление представлением данных Формирование правил контроля качества хранимых данных Организация доступа к данным
  • 13. Модель данных Физическая область хранения метаданных и данных Библиотека типов ФИЗИЧЕСКИЙ АДРЕС ЮРИДИЧЕСКИЙ АДРЕС АДРЕС ДОСТАВКИ Контейнер данных INSURANCE Модель данных INSURANCE Правила проверки данных Типы данных Безопасность АДРЕС ИНДЕНТИФИКАЦИОН- НЫЙ ДОКУМЕНТ ТЕЛЕФОННЫЙ НОМЕР ПАСПОРТ ПРАВА МОБИЛЬНЫЙ ТЕЛЕФОН РАБОЧИЙ ТЕЛЕФОН ФАКС Модель данных Логическая структура описывающая модель основных данных
  • 14. Управление сущностями Повторное использование (Типизация) СУЩНОСТЬ АТРИБУТ АННОТАЦИЯ АННОТАЦИЯ КЛИЕНТ НОМЕР ПАСПОРТА Простые типы Типизация Сложные типы Возможности Управление отображением Управление доступ Связывание сущностей Проверка вводимых данных
  • 15. Аннотации, управление отображением Управление сообщениями об ошибках Обязательное поле Управление форматом изображения 9 Января 1977 г. 1977 – 01 – 09 Дата рождения* Место рождения: Управление описанием поля Управление названием поля Пол: Муж. Жен. Дата рождения клиента физического лица Дата рождения
  • 16. Аннотации, управление отображением Управление сообщениями об ошибках Mandatory field Управление форматом изображения 9 Jan 1977 г. 1977 – 01 – 09 Birthday* Место рождения: Управление описанием поля Управление названием поля Пол: Муж. Жен. Client birthday Birthday
  • 17. Аннотации, связывание сущностей Телефон Клиент ЗНАЧЕНИЯ АТРИБУТЫ ЗНАЧЕНИЯ АТРИБУТЫ 10 ИДЕНТИФИКАТОР 7 ТЕЛЕФОННЫЙ КОД СТРАНЫ ТЕЛЕФОННЫЙ НОМЕР 10 495 ТЕЛЕФОНННЫЙ КОД ГОРОДА + 758-13-12 ТЕЛЕФОННЫЙ НОМЕР МОБИЛЬНЫЙ ТИП ТЕЛЕФОННОГО НОМЕРА Отображаемое значение 7 – 495 – 758 – 13 – 12
  • 18. Аннотации, управление доступом ОБЛАСТЬ ВИДИМОСТИ КАНАЛ ПРОДАЖ ДОГОВОР КЛИЕНТ Тип Менеджер Номер Дата Продукт Сумма Имя Отчество Фамилия Пол Дата рождения Паспорт Телефон Адрес ОБЛАСТЬ ИЗМЕНЕНИЯ
  • 19. Проверка соответствия требованиям форматасерии паспорта Аннотации, контроль ввода Клиент … Проверка соответствия требованиям форматаномера паспорта 112342 Паспорт серия: 123456 Паспорт номер: Проверка наличиязаполненных данных Москва, ул. Ленина, 12 Адрес: me@me.com E-mail: Проверка правильности заполнения E-mail …
  • 20. Управление ролями РОЛЬ 1 Сущности Атрибуты Клиенты Представления Ограниченный набор клиентов ПОЛЬЗОВАТЕЛЬ Действия РОЛЬ 2 РОЛЬ …
  • 21. Базовые роли Разработка механизмов интеграций данных Разработка механизмов контроля качества данных АДМИНИСТРАТОР Разработка модели данных ЛИЦЕНЗИРУЕМАЯ ДЕЯТЕЛЬНОСТЬ Работа с основными данными используя API ВНЕШНИЕ СИСТЕМЫ ПОЛЬЗОВАТЕЛЬ Работа с данными через портал ПОЛЬЗОВАТЕЛЬ ПОРТАЛА Просмотр данных через портал
  • 22. Демонстрация Возможности Talend MDM Studio по работе с моделями данных: Сущности Атрибуты Аннотации Роли
  • 23. Организация доступа к данными Инструмент: Talend Web UI (портал) Возможности: Создание, редактирование, удаление клиентских данных Работа с иерархиями записейо клиентах Управление пользователями
  • 24. Представления Атрибуты, входящие в результаты поиска Телефон Сегмент Контактное лицо Ф.И.О. Ограничение набора доступных записей Сидоров С.С. ОСАГО +7 916 4008031 Иванов И.И. Смирнов И.И. ОСАГО Петров П.П. +7 916 8004031 Петров П.П. +7 916 3104080 КАСКО Сидоров И.И. Иванов И.И. Смирнов С.С. ДМС +7 916 8104031 Атрибуты, входящие в условия поиска
  • 25. Иерархии, группировки Физические лица Ф.И.О. Сегмент ОСАГО ДМС КАСКО Иванов Иван Иванович Петров Петр Петрович Смирнов Иван Иванович Иванов ИванИванович ОСАГО Сидоров Сергей Сергеевич Петров Петр Петрович ДМС Смирнов Иван Иванович КАСКО Сидоров Сергей Сергеевич ОСАГО
  • 26. Иерархии, взаимосвязи Физические лица Иванов И.И. Ф.И.О. Контактное лицо Сидоров С.С. Иванов И.И. Сидоров С.С. Иванов И.И. Петров П.П. Смирнов И.И. Петров П.П. Смирнов И.И. Смирнов И.И. Петров П.П. Сидоров И.И. Петров П.П. Сидоров С.С. Иванов И.И. Смирнов С.С. Иванов И.И. Сидоров С.С.
  • 27. Управление пользователями Администраторы ПОЛЬЗОВАТЕЛЬ Идентификатор Имя Фамилия E-mail Статус Внешние системы ИЛИ Пользователи портала Дополнительно настраиваемые роли
  • 28. Демонстрация Демонстрация Talend MDM Studio: Работа с представлениями Демонстрация портала по работе с клиентскими данными Web UI: Просмотр данных Иерархии Пользователи
  • 29. Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
  • 30. Создание механизмов интеграции данных Инструмент: Talend MDM Studio Возможности: Разработка механизмов выборки данных из операционных систем Разработка механизмов трансформации данных Разработка механизмов загрузки данных в MDM-CDI хранилище
  • 31. Механизмы интеграции и контроля качества Работа Talend Работа Компонент Компонент Joblet Компонент Выход Вход Вход
  • 32.
  • 33. 60% разработаны сообществом пользователей Talend
  • 35.
  • 36. Выборка данных из источников Информационная система Триггеры Захват изменений ТАБЛИЦА ИЗМЕНЕНИЙ Транспортная модель Клиенты Изменение 1 CDC Изменение 2 … CDI … Издатель и подписчик Отправка Изменений (Push) Чтение изменений (Push) Изменение 11 … Подписчик Издатель Change Data Capturing (CDC)
  • 37. Преобразование моделей Модель хранения в информационной системе Компонент t Map Транспортная модель ФИО Петров Петр Петрович ПОЛ ИМЯ Петр ДАТА РОЖДЕНИЯ Разделение поля ОТЧЕСТВО Мужской Петрович Петров ФАМИЛИЯ 01.01.1980 Преобразование формата ПОЛ М 01.01.1980 ДАТА РОЖДЕНИЯ Фильтрация данных Дата рождения после 1970г. ФИО Отклоненные данные (Дата рождения до 1970 г.) ДАТА РОЖДЕНИЯ ПОЛ
  • 38. Преобразование моделей Компонент t Map Транспортная модель Модель хранения в CDI-хранилище ИМЯ КОД Имени Петр 1 4 6 ФАМИЛИЯ КОД Фамилии Петров ОТЧЕСТВО КОД Отчества Петрович Справочники CDI ИМЯ 1 Петр КОД ИМЯ ПЕРЕСЕЧЕНИЕ ДАННЫХ Записи не обнаруженные в справочниках ОТЧЕСТВО 4 Петрович КОД ОТЧЕСТВО ФАМИЛИЯ 6 Петров КОД ФАМИЛИЯ
  • 39. Работа с данными в MDM Запись данных в MDM Чтение данных из MDM Удаление данных из MDM Поиск данныхв MDM Получение измененных данных в MDM Портал (Talend Web UI) КОННЕКТОРЫ СЕРВИСНЫЙ УРОВЕНЬ ХРАНИЛИЩЕ Всего 8 компонентов
  • 40. “Родословная” данных CDI Хранилище ИМЯ ОТЧЕСТВО ФАМИЛИЯ ИДЕНТИФИКАТОР 10 Иванов Иванович Иван Перекодировочная таблица Информационная система 1 Идентификатор CDI 10 ФИО ИДЕНТИФИКАТОР Идентификатор UCI 100 100 Иванов Иван Иванович 200 Идентификатор UC2 Информационная система 2 ИМЯ ОТЧЕСТВО ФАМИЛИЯ ИДЕНТИФИКАТОР 200 Иванов Иванович Иван
  • 41. Принцип организации обмена данными Модель хранения данных в операционных системах Модель хранения в CDI-хранилище Транспортная модель Справочник имен Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Имя Фамилия Отчество Дата рождения Пол Адрес Паспорт Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес Справочник отчеств Справочник фамилий Справочник адресов ФИО Дата рождения Адрес Паспорт
  • 42. Демонстрация Демонстрация интеграционных работ: Выборка изменений (СDС) Преобразование данных в транспортный формат Работа с CDI-хранилищем
  • 43. Принцип организации обмена данными Модель хранения данных в операционных системах Модель хранения в CDI-хранилище Транспортная модель Справочник имен Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Имя Фамилия Отчество Дата рождения Пол Адрес Паспорт Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес Справочник отчеств Справочник фамилий Справочник адресов ФИО Дата рождения Адрес Паспорт
  • 44. Выборка данных из MDM Измененные данные в транспортном формате Модель данных Talend Web UI Имя Отчество Фамилия Дата рождения Пол Паспорт Адрес MDM-ID DB-ID ХРАНИЛИЩЕ Изменение данных СЕРВИСНЫЙ УРОВЕНЬ МЕНЕДЖЕР СОБЫТИЙ Процесс Шаг 1 Шаг 2 Шаг 3 Интеграция Контроль качества Оповещение Workflow Триггер 1 Триггер 2 Триггер 3 Триггер 4 Триггер 5 Работа Talend Триггеры
  • 45. Демонстрация Демонстрация активной модели данных Активная модель данных (триггеры в MDM) Варианты использования триггеров.
  • 46. Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
  • 47. Контроль качества данных Модель храненияв CDI-хранилище Справочник имен Транспортная модель Код Имени Код Отчества Код Фамилии Дата рождения Серия Паспорта Номер Паспорта Код Адреса Справочники Справочник отчеств Проверка полноты и корректности данных Проверка наличия дубликатов Если необходимо подключить Data Stewards 1 2 3 Имя Отчество Фамилия Дата рождения Пол Паспорт Справочник фамилий Справочник адресов
  • 48. Проверка корректности данных Нормативно-справочная информация Модель хранения в CDI Компонент tRecordMatcher Транспортная модель Компонент tRecordMatcher Код Имени Код Отчества Код Фамилии Код Адреса Имя Отчество Фамилия Адрес Адреса Код Адрес Имена Код Имя Отчества Код Отчество Фамилии Код Фамилия Масква = Москва
  • 49. Алгоритм поиска дубликатов КомпонентtRecordМatcher Транспортная модель CDI хранилище Идентифицирующие атрибуты Метод сравнения Весовой коэффициент Дистанция = = = = 1 10 10 Код имени Точно 10 1 12 12 Код отчества Точно 10 0,89 Петров Питров Фамилия Ливенштейн 15 1 1234 56789 10 1234 56789 10 Паспорт Ливенштейн 20 N ∑ (Дистанция х Весовой коэффициент ) Результат сравнения 10*1+10*1+0,89*15+20*1 1 РЕЗУЛЬТАТ 0,97 0,97 = = 1 10+10+15+20 Весовой коэффициент ∑ 1 Нижний порог 0,75 < Новый Дубликат > Верхний порог 0,95 Дубликат
  • 50. Процесс надзора за данными ОБНАРУЖЕНИЕ НЕКАЧЕСТВЕННЫХ ДАННЫХ СОЗДАНИЕ ЗАДАЧИ В DSC НАЗНАЧЕНИЕ ЗАДАЧИ В DSC НА ИСПОЛНИТЕЛЯ ВЫПОЛНЕНИЕ ЗАДАЧИ Консоль надзора за данными (DSC) Data Steward Работа Talend Работа Talend ОТПРАВКА ДАННЫХ В СИСТЕМУ ПОЛУЧАТЕЛЬ
  • 51.
  • 52.
  • 53. Демонстрация Демонстрация работ выполняющих проверку качества данных Демонстрация консоли надзора за данными (DSC)
  • 54. Управление справочнойинформацией Информационная система № 1 Информационная система № 2 ВЫБОРКА ОБНОВЛЕНИЙ ВЫБОРКА ОБНОВЛЕНИЙ КОНСОЛИДАЦИЯ ДАННЫЕ ДАННЫЕ ПОИСК ДУБЛИКАТОВ ПОЛЬЗОВАТЕЛЬ СЛИЯНИЕ ЗАГРУЗКА ОБНОВЛЕНИЙ ЗАГРУЗКА ОБНОВЛЕНИЙ ОБНОВЛЕНИЕ CDI MDM-CDI ХРАНИЛИЩЕ ВЫБОРКА ОБНОВЛЕНИЙ
  • 55. Демонстрация Демонстрация сквозного примера: Создание данных в операционных системах. Проверка качества данных Добавление или редактирование данных в CDI-хранилище Использование консоли надзора за данными Сообщение операционным системам глобального идентификатора
  • 56. Операционное использование Системы работы с основными данными Работа Talend Информационная система Проверка качества данных Отправка клиентских данных Выполнение процесса надзора за данными Веб-портал (Talend Web UI) Сервисы работы с клиентскими данными Загрузка данных в хранилище Получение клиентских данных Потребитель/Поставщик Консоль надзора за данными (DSC) Чтение данных из хранилища
  • 57. Организация сервисного слоя Репозитарий работ SOA Manager Веб-Сервис 1 Веб-Сервис 2 Веб-Сервис 3 TalendAdministrator Talend MDM Studio Разработчик Администратор
  • 58. Требования к оборудованию RAM: > 4 GB HDD: 100 GB RAM: 4 GB HDD: 10 GB TIS Studio TALEND MDM STUDIO RAM: 2 GB HDD: 100 GB RAM: 4 GB HDD: 100 GB Сервер работ RAM: >4 GB HDD: 100 GB Talend Administration Center (TAC) Talend MDM Server RAM: 2 GB HDD: 100 GB RAM: 4 GB HDD: 200 GB RAM: 2 GB HDD: 100 GB Сервер работ Метаданные (TAC) Activity Monitoring Console (журнал выполнения работ) База клиентских данных Метаданные проектов (SVN)
  • 59. Варианты поддержки решения Gold Support Silver Support Platinum Support Доступ к сертифицированной версии Автоматическое обновление Доступ к системе отслеживания ошибок Поддержка на форуме Гарантированное время ответа Гарантированное время диагностики Неограниченное количество обращений по проблемам Web поддержка Email поддержка Поддержка по телефону 24-часовая поддержка
  • 60. Заказчики Talend Финансы и страхование Услуги Производство и торговля Государственный сектор и образование
  • 61. За кадром! Разработка и управление процессами изменения клиентских данных (workflow) Версионость клиентских данных Синхронизация данных между несколькими хранилищами клиентских данных Профилирование данных Профилирование исполнения работ
  • 62. Спасибо за внимание! Максим ОСТАРХОВ Директор по развитию бизнеса в СНГ Тел.: +7 495 641 0206Моб.: + 7 915 400 8031E-mail: m.ostarhov@itransition.com Web: www.itransition.com