My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
2. План доклада
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
3. Safe Harbor
The information being provided today is for informational purposes only. The
development, release and timing of any Informatica product or functionality
described today remain at the sole discretion of Informatica and should not be
relied upon in making a purchasing decision. Statements made today are
based on currently available information, which is subject to change. Such
statements should not be relied upon as a representation, warranty
or commitment to deliver specific products or functionality in the future.
4. Большие Данные (Big Data)
4
Data Velocity
(Скорость)
Data Volume
(Объём)
Data Variety
(Разнообразие)
GB TB
В настоящее время обозначает
класс задач обработки данных,
которые не могут быть эффективно
решены с помощью традиционных
инструментов и подходов.
2008 г. - Редактор журнала Nature
Клиффорд Линч (Clifford Lynch)
впервые употребляет термин Big
Data.
(*) https://en.wikipedia.org/wiki/Big_data
2001 г. – Сотрудник Gartner Даг Лени
(Doug Laney) вводит понятие (3xV) в
оборот.
MB PB
5. Транзакционные БД и
приложения
Приложения в Облаке
Большие
Транзакционные
Данные
OLAP и ПАК для ХД
Большие
Данные
Взаимодействия
Соц. сети, Web Logs
Устройства,
сенсоры
Документы и эл. письма
Volume
Variety
Velocity
Инфраструктура Больших Данных
Но как правило (~80%) – это Hadoop и NoSQL
Hadoop
Хранение и обработка
больших объёмов
данных
и частично- и
неструктурированных
данных
NoSQL
Быстро-меняющиеся
модели данных
Простота управления
Гибкая разработка
Высоконагруженные и
распределенные
приложения
Кластерные
платформы
Обработка Больших Данных
Стоимость масштабирования
Стоимость лицензий и
внедрения
5
7. «Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ожидания
…
Время
2012
~5-10 лет
2013
Степень зрелости решений
Большие Данные
(*) Hype Cycle for Emerging Technologies, Gartner 2011-14
Многочисленные поставщики
инструментов и решений,
консолидация поставщиков
Первые успехи в
корпоративном секторе (и
первые неудачи)
Есть понимание, какие
задачи, какими технологиями
решать
Продукты и сервисы 2го
поколения
7
2014
«Котловина
разочарований»
2011
Возможности
<5% потенциальных
пользователей
?
?
2015?
8. № Задача 2013 % 2014 % 2015
1 Предсказание поведения клиента 45% 44% 46%
2 Поиск корреляций в разнородных данных
(интернет, гео-, транзакции и т.д.)
52% 43% 48%
3 Предсказание продаж продуктов или услуг 34% 36% 40%
4 Предотвращение мошенничества и
управление финансовыми рисками
28% 27% 32%
5 Анализ интернет-активности (clickstream) 11% 26% 24%
6 Выявление рисков ИТ безопасности 23% 25% 29%
7 Анализ активности в социальных сетях
для потребительского сегмента
18% 24% 29%
8 Анализ сенсорных данных, web-логов… 22% 23% 28%
9 На данный момент не рассматривается 15% 14% 12%
Решаемые задачи
Большие Данные: Выравнивание ожиданий
(*) По данным Analytics, BI, and Information Management Survey by Information Week 2014-15
1
1
9
2
15
2
6
1
1
8
2
5
4
5
2
4
5
5
2
9. Опасения и Риски
Большие Данные: Выравнивание ожиданий
• Экспертов не хватает, они дороги 50%
• Инструменты:
• Нужных просто нет 19% (-1%)
• Те, что есть, - не совместимы 19%
• Сложны в освоении 19% (+1%)
Ресурсы
• Не очевидна экономическая
эффективность бизнес инициатив Больших
Данных 36% (+1%)Экономика$?
• Качество данных 25% (-1%)Качество
данных
(*)По данным 2015 Analytics, BI, and Information Management Survey by Information Week
• Доступность данных 14% (-3% **)Данные
недоступны
(**) По сравнению с данными за 2014 г.
9
11. «Типовые» Проекты Больших Данных
Для эффективной поддержки бизнес-инициатив
ИТ-инициативы
Как организовать инфраструктуру
Больших Данных?
Оптимизация
инфраструктуры
(производительность,
стоимость владения,
масштабируемость)
Оптимизация
Корпоративного
Хранилища
Данных
Единое
пространство для
управления
данными
Озеро Данных
(Managed Data Lake)
11
Бизнес-инициативы
Управление
информацией о
клиенте: очистка,
согласование,
дедупликация
Клиентский MDM
для
Больших Данных
Обработка
событий в
реальном
времени, IoT,
загрузка КХД и
витрин
Потоковая аналитика
Больших Данных
12. • Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
13. Оптимизация Корпоративного Хранилища
Данных
Корпоративное Хранилище Данных
Корпоративные
Приложения
Операционные
Хранилища
Данных (ODS)
Транзакци-
онные
системы
Business Intelligence
Hadoop
Load
… Job 2Job 1
LoadExtract Transform
Job y
Job x
…
Запросы
13
Идентификация ненужных
или редко-используемых
данных и архивирование
в Hadoop со сжатием ILM
10-20% ожидаемое сокращение
общей стоимости владения по
итогам 1-го этапа внедрения
Снижение риска приостановки
ключевых бизнес-инициатив из-
за недостатка ресурсов КХД
Vibe Data
Stream
Big Data
Edition
Power-
Exchange
Единый семантический
уровень
Data
Services
14. Первоначальная загрузка данных в Hadoop/MPP
Оптимизация КХД
14
Исходная
система
Целевые
системы
Графическая консоль
Прямая загрузка (вариант 1)
Генерация схемы
данных
Или промежуточные файлы (вариант 2)
https://community.informatica.com/solutions/informatica_fast_clone_trial
РСУБД
ПАК
Hadoop
Графический интерфейс
Гетерогенные среды
Автоматический параллелизм
Fast-
Clone
15. Почему с Informatica
Оптимизация КХД
15
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY;
Hive-QL
Лёгкий старт – специфических знаний
(например Hadoop) не требуется,
библиотеки готовых трансформаций для
интеграции, качества данных, сотни
готовых коннекторов к источникам и
приёмникам данных
Скорость и масштабируемость –
логика выполняется в кластере
Простота сопровождения – визуальная
разработка, самодокументируемость,
управление релизами, метаданными
Защита инвестиций – на случай
изменения технологий в результате
эволюции Hadoop
MapReduce
UDF
Vibe – виртуальная машина данных. Её код
развёрнут прямо на узлах кластера Hadoop
15
16. Типовые архитектуры и технологические партнёрства
Оптимизация КХД – с чего начать
• Интегрированное решение Capgemini, Informatica, Cloudera,
Appfluent
+ + +
• Решение Informatica и MapR
+
• Типовая архитектура от Informatica и HortonWorks
+
http://www.cloudera.com/content/cloudera/en/solutions/partner/Informatica.html
http://hortonworks.com/partner/informatica/
https://www.mapr.com/resources/informatica-and-mapr-data-warehouse-optimization
• Типовая архитектура
Informatica и Cloudera
+
• Собрать своё решение
…
16
17. • Рационализация технологического
ландшафта в части стоимости
владения, сложности интеграции и
простоты переиспользования
• Производительная, гибкая и
надёжная технологическая
платформа для финансовых
консультантов и клиентов
• Единая версия правды, высокое
качество, надёжность, доступность
и отслеживаемость данных
• Нехватка специалистов Hadoop
• Кластер Hadoop простаивал, т.к.
было только 2 разработчика,
которые умели на нём работать,
что приводило к задержкам с
разработкой
• Необходимость интеграции
Hadoop со сложным Логическим
Хранилищем Данных,
построенным на различных СУБД
• Эффективная команда
специалистов
• Кластер Hadoop загружен на 100%
• Лёгкая интеграция с остальными
частями Логического Хранилища
Данных (Teradata и т.д.)
• Доступность согласованной
информации на всех платформах
История Успеха
Оптимизация Хранилища Данных
• 1.8 млрд. долларов клиентских
активов в управлении
• 126 млрд. долларов депозитов
17,000 финансовых
консультантов в штате
• 6.6M клиентских счетов
Задача Проблема Решение
17
19. Производительность труда разработчиков Informatica до
5 раз выше.
Банк смог использовать имеющиеся в наличии команды
разработчиков Informatica PowerCenter.
4 недели
4 дня
Скорость работы
оказалась выше в 2 раза
Vs.
Разработчики
Hadoop
«вручную»
Разработчики Informatica
Производительность труда разработчиков
Оптимизация КХД Morgan Stanley
19
20. • Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
21. Конвейер поставки данных для анализа при планировании
и реализации бизнес-инициатив
Озеро данных
Бизнес-
ценность
Большие
Данные
Бизнес-цели
Иссле-
дование
данных
Операцион
ализация
Формули-
рование
гипотез
Проверка
гипотез
Приорите-
зация
Исследователи
ДанныхАналитики Разработчики
Бизнес-
пользователи
Захват и
хранение
Исследование,
управление
Распределение
управление ЖЦ
Цепочка поставок Больших Данных
Очистка и
обогащение
Системы управления данными и аналитики
Данные в исходном формате
Доступ для любых инструментов
исследования данных
21
22. Болото, Водохранилище, Лагуна, Песочница (?!)
Озеро данных
• Данные «как есть» в исходном формате
• Инструментарий быстрой загрузки,
• Интеграция, к-во данных в режиме самообслуживания
• Автоматическое определение доменов данных
• Документирование, профилирование
Эксперименты:
• Трансформация, комбинация данных
• Исследование данных
Управление данными (Data Governance)
• Использование в режиме самообслуживания
(публикация и подписка)
• Форматирование и трансформация данных
• Контроль доступа, маскирование
Болото
Пруд
Лагуна
22
23. 23
Типовая Архитектура Informatica
Озеро Данных
Мобильные
приложения
9. Управление
данными (DG),
загрузку
метаданных СУБД,
BI, DI
3. Потоковая
загрузка
8. Исследование,
гармонизация и
проверка данных
4. Маскирование
конфиденциальных
данных
2. Репликация
Аналитика,
отчётность,
визуализация
11. Подписка на
наборы данных
Data
Integration
Hub
1. Пакетная
загрузка или
архивирование
Витрины
5. Обогащение
данных (НСИ,
MDM)
MDM
КХД
6. Поиск,
интеграция, очистка
и подготовка данных
7. Выгрузка в
КХД
Сенсоры,
Облачные среды
Документы и
эл.почта
Реляционные БД,
Мэйнфреймы
Социальные сети,
веб-журналы
10. Аналитика реального
времени, корреляция,
определение тенденций и т.д.
24. Аутсорсинг => Среды разработки и тестирования
Informatica Test Data Management
Атрибут Значение
Name Эдгар Кодд
SSN 556-12-5697
Account Number 1565-859-2565
Phone number 818-223-5755
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Атрибут Значение
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Не маскированные данные
Маскированные данные
Распрацоўшчык
Field Description
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Маскированные данные
Developer
Безопасные среды с
маскированными данными
Возможно только с
подмножеством данных
промышленной системы
http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/
24
25. Не пропустите!
Только сегодня в 16:15!
Доклад Сергея Сотниченко
«Tinkoff Data Lake:
В секции №1 «Большие Данные на службе бизнеса»
25
История успеха в России
Tinkoff Data Lake
мы знаем про
вас всё!»
26. Задача Проблема Решение
• Оборот >$5.5B
• 29 транзакций в секунду
• 200+ стран , 120+ валют
• 242M C2C, 459M B2B транзакций
• Технологическая платформа для
решения по кросс-канальной
оптимизации для ритейла, веб- и
мобильного бизнеса
• Управление клиентским опытом
• Снижение стоимости транзакции
• Противодействие мошенничеству
и отмыванию денег
• Аналитическая платформа для
исследования данных (машинное
обучение и т.д.)
• Обработка 29 транзакций в секунду
генерирует огромный объём
структурированных и
неструктурированных данных,
которые должны быть
интегрированы из различных
источников (унаследованные
системы, мобильные и онлайн
данные)
• Решение должно быть
рентабельным, масштабируемым по
скорости доступа, ёмкости и
вычислительной мощности
• Построена платформа обработки
данных на основе Hadoop
(Cloudera) и Informatica Big Data
Edition
• Решение по кросс-канальной
оптимизации внедрено в
промышленную эксплуатацию в
полном объёме, в соответствии с
требованиями заказчика
Озеро Данных
26
28. 28
Managed Data Lake Portal – Ранний анонс
Data Lake
Портал
самообслуживания
MDL Portal
BI, Визуализация,
Аналитика, Статистика
raw («болото») sandbox («пруд») refined («лагуна»)
RFID, Медицинские
мониторы, Облака
HL7, HIPAA, EDI
X12
OLTP, ERP, EMR,
Мэйнфрейм
Социальные сети,
веб-журналы
«Озеро данных»…
• Управление поставкой и использованием данных
• Трансформация «сырых данных» в достоверную и
надёжная информацию.
Захват,
сохранение
Очистка и
обогащение
Исследование,
организация
Предоставление,
управление
29. • Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
30. Name DOB Address City State Zip
W. S. Harrison II PhD 1/33/1967 Medical Center,117/2A #17497 Jackson E. Hartford NY 16987
William Stuart Harison 1/3/1967 117- 2a Jacksen Rd. Easthartford CT 06987
William Stewart Harison 9/9/99 117 Jackson Road. Suite 2A Hartford East CT 06987
Doctor Bill Harisen jr 1/13/1967 117 Jacson Room 2a HartfordCT 6984
Harrisen William Doctor 2a Jackson Rd #174978 Hartford CT 06987-4573
Неверная
дата
«Грязный» адрес
Нет такого города!
Неверный
индекс
• Клиентский МДМ: поиск и соотнесение клиентов, пациентов,
граждан и т.д.
• Распознавание дублирующих записей
• Создание реестра идентификаторов и ссылок на данные в
системах-источниках
• Identity Resolution: поиск в репозитории
идентификационных данных сущности, возможных
совпадений, дублирующих записей, связей или аномалий
• Для разных стран и языков, с использование методов
нечёткой логики
IIR
Informatica МДМ-реестр, Identity Resolution
30
Самый главный вопрос:
«Один человек или разные
люди?»
31. Big Data Relationship Management
31
Когда производительности традиционного не хватает!
• Поддержка разнообразных типов данных,
включая внешние источники
• Быстрое добавление данных новых типов
• Мэтчинг и связывание записей в Hadoop
(поддерживаются дистрибутивы Cloudera и
Hortonworks )
• Мультикритериальный мэтчинг
• Поиск в реальном времени
• Хранение в Persisted in HBase
• Мэтчинг Informatica SSA-Name3
• Автоматическое формирование витрины в Hive
• REST-API, CLI, RCP интерфейсы
32. ИСТОЧНИКИ
ХРАНЕНЕНИЕ
ДАННЫХ
ОБРАБОТКА
ДОСТАВКА
ИНФОРМАЦИ
Реляционные СУБД,
Мейнфреймы
Документы, email
Социальные медиа,
Веб-журналы
Сенсоры, облачные
среды
ИСТОЧНИКИ СТРУКТУРИРОВАННЫХ
ДАННЫХ
НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ
ЗАХВАТХРАНЕНИЕОБРАБОТКААНАЛИТИКА
BI, Отчёты,
Приложения
Витрины
данных
REST-
сервис
МЭТЧИНГДЕДУПЛИКАЦИЯ ПОИСК
МОДЕЛЬ ДАННЫХ
PK
TABLE
INDEX
TABLE
GROUP
TABLE
УПРАВЛЕНИЕ
СВЯЗЯМИ
Первоначаль-
ная загрузка
Инкременталь-
ная загрузка
Enablers
Data Mining
Обработка
в реальном времени
Подготовка
данных
Визуализация и
аналитика
Архитектура MDM BDRM
33. • Формирование «золотой
записи» для контактов /клиентов и
домовладений для нужд
оптимизации маркетинговых
компаний, аналитики
планирования
• Консолидация базы контактов из
внутренних источников и внешних
поставщиков
• Доступность актуальных данных в
системах оптимизации
маркетинговых кампаний
• Реализация задачи в имевшемся
технологическом ландшафте
занимала месяцы, что было
неприемлемо для заказчика
• Единая платформа, единая система
идентификаторов для данных из
ранее разрозненных источников
• Быстрая загрузка, очистка и
стандартизация из новых
источников
• Быстрая загрузка больших объёмов
данных
• Производительная среда для
аналитиков Больших Данных
История Успеха
MDM для Больших Данных
•Страхование, пенсионные и
инвестиционные фонды
•Общий объём действующих
договоров страхования –
1,085 миллиарда долларов
Задача Проблема Решение
33
Transamerica Corporation
34. 34
Результаты первого этапа внедрения
MDM для Больших Данных Transamerica
Данные от поставщиков
Индивидуальные
предложения
750 миллионов записей, кластер Hadoop 6 узлов
Клиенты:
• Мэтчинг 17 часов 25 мин., загрузка в Hbase 18 часов 15 мин.
Домохозяйства:
• Мэтчинг 30 часов 33 мин., загрузка в Hbase 20 часов 3 мин.
«Решение задачи с помощью традиционного подхода и на базе нашего КХД
потребовало бы 12-18 месяцев, фактически первая фаза была закончена за 60
дней», John LoGiudice, вице-президент по маркетингу Трансамерика
Потенциальные
клиенты
36. • Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
37. Потоковая Аналитика
37
Захват и передача
данных в реальном
времени
Обработка сложных
событий
Informatica RulePoint
Informatica Vibe Data StreamVDS
Преобразование
форматов
Informatica B2B Data Transformation
38. Informatica Vibe Data Stream
ШинаVibeDataStream
Публикация/Подписка
Высокопроизводительная
инфраструктура
Гарантированная доставка
Публикация в Ultra Messaging
без брокера / промежуточного
сохранения.
Cloudera,
Pivotal,
Hortonworks,
MapR
Приёмники
Web-серверы,
Operations
Мониторинг,
rsyslog, SLF4J,...
Носимые устр-ва,
умные счётчики,
дискретные
данные.
Источники
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
Управление и
Мониторинг
Интернет Вещей,
Датчики
VDS
Узел
Аналитика
Реального
Времени и
Обработка
Сложных
Событий
NoSQL Базы
Данных: HBASE,
Cassandara,
Riak, MongoDB
38
39. Informatica Vibe Data Stream
• Высокая производительность, работа в реальном времени
• Высокопроизводительное решение с гарантированной доставкой
• В разы (>10X) быстрее аналогичных решений (Kafka)
• Высокая доступность и отказоустойчивость
• Автоматизированное восстановление агентов и UM компонентов
• Простая конфигурация, развёртывание, администрирование и
мониторинг
• Единый интерфейс для настройки, развёртывания и мониторинга
• Автоматически генерируется конфигурация UM, агентов на источнике и приёмнике
• Экосистема источников и приёмников
• Поддержка источников, приёмников
• Поддержка продуктов Informatica PowerCenter и Complex Event Processing
• SDK для разработки агентов
• Эффективность – нет необходимости сохранять копии данных
• Нет необходимости сохранять данные на источнике, брокере или приёмнике
• Нет необходимости в распределенной файловой системе для отказоустойчивости
Content Shared Strictly Under NDA 39
40. Informatica B2B Data Transformation
WebSphere MQ
JMS
MSMQ
SAP NetWeaver XI
JD Edwards
Lotus Notes
Oracle E-Business
PeopleSoft
Oracle
DB2 UDB
DB2/400
SQL Server
Sybase
ADABAS
Datacom
DB2
IDMS
IMS
Word, Excel
PDF
StarOffice
WordPerfect
Email (POP, IMPA)
HTTP
Informix
Teradata
Netezza
ODBC
JDBC
VSAM
C-ISAM
Binary Flat Files
Tape Formats…
Web Services
TIBCO
webMethods
SAP NetWeaver
SAP NetWeaver BI
SAS
Siebel
Сообщения и
веб-сервисы
Реляционные
БД и плоские
файлы
Мейнфреймы и
ЭВМ среднего
класса
Неструктуриров
анные данные
Flat files
ASCII reports
HTML
RPG
ANSI
LDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
SWIFT
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP
Hewitt
SAP By Design
Oracle OnDemand
«Коробочные»
приложения
Индустриальные
стандарты
Стандарты на
основе XML
SaaS/BPO
Социальные сети
Facebook
Twitter
LinkedIn
Kapow
Datasift
Pivotal
Vertica
Netezza
Teradata
Aster
Массово-
параллельные
ПАК
40
41. 41
Обработка сложных событий в примерах
Informatica RulePoint
Превышен предельный
объём передаваемых
данных (5КБ/15сек.)
Кросс-доменное решение для
потоковой аналитики
Поддержка операторов потоковой
аналитики
Обращение к сайту из списка запрещенных
42. • Построение системы потоковой
аналитики реального времени для
решения задач управления качеством
оказываемых услуг и ограничения
доступа
• Имеющиеся прототипы на
открытых технологиях не
обеспечивали требования по
• Простоте настройки
• Масштабируемости
• Доступности
• Восстановлению после
сбоев
• Высокодоступное, масштабируемое
решение для захвата данных,
потоковой аналитики и
долговременного хранения данных в
Hadoop
• Возможность просто подключать
новые источники и приёмники
данных
История Успеха
Потоковая Аналитика
• Один из крупнейших
телекоммуникационных операторов
(GSM, 3G, проводной)
• 150 миллионов пользователей
• Другие услуги: Производство
смартфонов, предоставление ЦОД, ИТ-
аутсорсинг и т.д.
Задача Проблема Решение
42
43. Аналитические расчёты (пакет.)
Потоковая обработка
(реальное время)
Интеграция данных +
обмен данными B2B
Ultra Messaging
Агент
Vibe
DataStream
PowerExchange
Очередь
Machine
Generated
Data
Обработка
сложных событий
DWH / DM
Озеро
данных
Агент
Vibe
DataStream
Time Sliced Data
Event Feeds
Informatica
PowerCenter
BigData Edition
Network
Mobile Switching
Centre - MSC / MSS
Gateway PGW,
eNodeB
OLT / ONT / ACS
DPI / Probes
L4-L7 Optimizer
Customer Premises
Set Top Box
OSS
SQM
SEM
ACS
HP TeMIP
Ericsson
IPAM
Target Systems
Campaign Management
NPM
Billing
NRTRDE
Charging GW
Redbrick / REVASS
Customer Loyalty
ICA / CB
…
…
…
…
…
…
…
…
…
Архитектура заказчика
Аналитики реального времени
UM
BDE
Rule-
Point
44. 44
Продукт
В расчёте на узел Суммарно
Событий/сек. МБ/сек. Событий/сек. МБ/сек.
Vibe Data
Stream 32,291.67 9.69 516,666.67 155.00
Flume 4,305.59 1.29 68,889.51 20.67
Per-Node
Aggregate
Flume
Vibe Data Stream
Т.е. быстрее в ~7.5 раз
Результаты пилота. Сравнение Vibe Data Stream и Flume
Потоковая Аналитика
45. • Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
46. $0
$200,000,000
$400,000,000
$600,000,000
$800,000,000
$1,000,000,000
$1,200,000,000• Год основания: 1993
• Оборот за 2013 г. : 1,05 миллиардов
долларов США
• Средний рост прибыли в год
(CAGR): 17%
• Сотрудники: 3,080+
• Партнёры: 450+
• Крупнейшие SI, ISV, OEM,
консалтинговые компании, лидеры
рынка (SaaS, социальные сети)
• Клиенты: Over 5,000
• Клиенты в 82 странах
• Прямое присутствие в 28 странах
• 1е место в рейтинге Customer Loyalty
Rankings (7 лет подряд)
#1 независимый поставщик решений для управления данными
О Компании Informatica
46
47. Informatica – безоговорочный лидер среди поставщиков решений
Обеспечения Качества и Интеграции Данных по мнению ведущих
аналитических агентств (Gartner, Forrester) на протяжении 10 лет.
О Компании Informatica.
47
49. Управление Мастер-ДаннымиВиртуализация Данных
Потоковая Аналитика Больших Данных
Корпоративный ETL Интеграция в Облачных Средах
Управление Информацией о Продуктах Управление данными (DG)
О Компании Informatica
Отзывы аналитиков
49
50. • Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры
исследования и разработки по направлениям «Управление Мастер-Данными» и
«Репликация Данных» и в Санкт-Петербурге и Казани
• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные
компании и Розничные сети используют продукты Informatica для целей
отчетности, аналитики, маркетинга, привлечения и удержания клиентов
Компания Informatica В России и СНГ
50