SlideShare a Scribd company logo
1 of 52
Типовые ИТ-архитектуры
Больших Данных
Илья Гершанов
igershanov@informatica.com
План доклада
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Safe Harbor
The information being provided today is for informational purposes only. The
development, release and timing of any Informatica product or functionality
described today remain at the sole discretion of Informatica and should not be
relied upon in making a purchasing decision. Statements made today are
based on currently available information, which is subject to change. Such
statements should not be relied upon as a representation, warranty
or commitment to deliver specific products or functionality in the future.
Большие Данные (Big Data)
4
Data Velocity
(Скорость)
Data Volume
(Объём)
Data Variety
(Разнообразие)
GB TB
В настоящее время обозначает
класс задач обработки данных,
которые не могут быть эффективно
решены с помощью традиционных
инструментов и подходов.
2008 г. - Редактор журнала Nature
Клиффорд Линч (Clifford Lynch)
впервые употребляет термин Big
Data.
(*) https://en.wikipedia.org/wiki/Big_data
2001 г. – Сотрудник Gartner Даг Лени
(Doug Laney) вводит понятие (3xV) в
оборот.
MB PB
Транзакционные БД и
приложения
Приложения в Облаке
Большие
Транзакционные
Данные
OLAP и ПАК для ХД
Большие
Данные
Взаимодействия
Соц. сети, Web Logs
Устройства,
сенсоры
Документы и эл. письма
Volume
Variety
Velocity
Инфраструктура Больших Данных
Но как правило (~80%) – это Hadoop и NoSQL
Hadoop
 Хранение и обработка
больших объёмов
данных
 и частично- и
неструктурированных
данных
NoSQL
 Быстро-меняющиеся
модели данных
 Простота управления
 Гибкая разработка
 Высоконагруженные и
распределенные
приложения
Кластерные
платформы
Обработка Больших Данных
 Стоимость масштабирования
 Стоимость лицензий и
внедрения
5
Больших Данные – Ландшафт
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ожидания
…
Время
2012
~5-10 лет
2013
Степень зрелости решений
Большие Данные
(*) Hype Cycle for Emerging Technologies, Gartner 2011-14
 Многочисленные поставщики
инструментов и решений,
консолидация поставщиков
 Первые успехи в
корпоративном секторе (и
первые неудачи)
 Есть понимание, какие
задачи, какими технологиями
решать
 Продукты и сервисы 2го
поколения
7
2014
«Котловина
разочарований»
2011
Возможности
 <5% потенциальных
пользователей
?
?
2015?
№ Задача 2013 % 2014 % 2015
1 Предсказание поведения клиента 45% 44% 46%
2 Поиск корреляций в разнородных данных
(интернет, гео-, транзакции и т.д.)
52% 43% 48%
3 Предсказание продаж продуктов или услуг 34% 36% 40%
4 Предотвращение мошенничества и
управление финансовыми рисками
28% 27% 32%
5 Анализ интернет-активности (clickstream) 11% 26% 24%
6 Выявление рисков ИТ безопасности 23% 25% 29%
7 Анализ активности в социальных сетях
для потребительского сегмента
18% 24% 29%
8 Анализ сенсорных данных, web-логов… 22% 23% 28%
9 На данный момент не рассматривается 15% 14% 12%
Решаемые задачи
Большие Данные: Выравнивание ожиданий
(*) По данным Analytics, BI, and Information Management Survey by Information Week 2014-15
1
1
9
2
15
2
6
1
1
8
2
5
4
5
2
4
5
5
2
Опасения и Риски
Большие Данные: Выравнивание ожиданий
• Экспертов не хватает, они дороги 50%
• Инструменты:
• Нужных просто нет 19% (-1%)
• Те, что есть, - не совместимы 19%
• Сложны в освоении 19% (+1%)
Ресурсы
• Не очевидна экономическая
эффективность бизнес инициатив Больших
Данных 36% (+1%)Экономика$?
• Качество данных 25% (-1%)Качество
данных
(*)По данным 2015 Analytics, BI, and Information Management Survey by Information Week
• Доступность данных 14% (-3% **)Данные
недоступны
(**) По сравнению с данными за 2014 г.
9
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ожидания
…
Время
2012
~5-10 лет
2013
Мини-опрос
Большие Данные – начало «подъёма»
10
2014
«Котловина
разочарований»
2011
Возможности
Пожалуйста, поднимите
руки, если ожидаете в:
?
«Типовые» Проекты Больших Данных
Для эффективной поддержки бизнес-инициатив
ИТ-инициативы
Как организовать инфраструктуру
Больших Данных?
Оптимизация
инфраструктуры
(производительность,
стоимость владения,
масштабируемость)
Оптимизация
Корпоративного
Хранилища
Данных
Единое
пространство для
управления
данными
Озеро Данных
(Managed Data Lake)
11
Бизнес-инициативы
Управление
информацией о
клиенте: очистка,
согласование,
дедупликация
Клиентский MDM
для
Больших Данных
Обработка
событий в
реальном
времени, IoT,
загрузка КХД и
витрин
Потоковая аналитика
Больших Данных
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Оптимизация Корпоративного Хранилища
Данных
Корпоративное Хранилище Данных
Корпоративные
Приложения
Операционные
Хранилища
Данных (ODS)
Транзакци-
онные
системы
Business Intelligence
Hadoop
Load
… Job 2Job 1
LoadExtract Transform
Job y
Job x
…
Запросы
13
Идентификация ненужных
или редко-используемых
данных и архивирование
в Hadoop со сжатием ILM
 10-20% ожидаемое сокращение
общей стоимости владения по
итогам 1-го этапа внедрения
 Снижение риска приостановки
ключевых бизнес-инициатив из-
за недостатка ресурсов КХД
Vibe Data
Stream
Big Data
Edition
Power-
Exchange
Единый семантический
уровень
Data
Services
Первоначальная загрузка данных в Hadoop/MPP
Оптимизация КХД
14
Исходная
система
Целевые
системы
Графическая консоль
Прямая загрузка (вариант 1)
Генерация схемы
данных
Или промежуточные файлы (вариант 2)
https://community.informatica.com/solutions/informatica_fast_clone_trial
РСУБД
ПАК
Hadoop
 Графический интерфейс
 Гетерогенные среды
 Автоматический параллелизм
Fast-
Clone
Почему с Informatica
Оптимизация КХД
15
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY;
Hive-QL
 Лёгкий старт – специфических знаний
(например Hadoop) не требуется,
библиотеки готовых трансформаций для
интеграции, качества данных, сотни
готовых коннекторов к источникам и
приёмникам данных
 Скорость и масштабируемость –
логика выполняется в кластере
 Простота сопровождения – визуальная
разработка, самодокументируемость,
управление релизами, метаданными
 Защита инвестиций – на случай
изменения технологий в результате
эволюции Hadoop
MapReduce
UDF
Vibe – виртуальная машина данных. Её код
развёрнут прямо на узлах кластера Hadoop
15
Типовые архитектуры и технологические партнёрства
Оптимизация КХД – с чего начать
• Интегрированное решение Capgemini, Informatica, Cloudera,
Appfluent
+ + +
• Решение Informatica и MapR
+
• Типовая архитектура от Informatica и HortonWorks
+
http://www.cloudera.com/content/cloudera/en/solutions/partner/Informatica.html
http://hortonworks.com/partner/informatica/
https://www.mapr.com/resources/informatica-and-mapr-data-warehouse-optimization
• Типовая архитектура
Informatica и Cloudera
+
• Собрать своё решение
…
16
• Рационализация технологического
ландшафта в части стоимости
владения, сложности интеграции и
простоты переиспользования
• Производительная, гибкая и
надёжная технологическая
платформа для финансовых
консультантов и клиентов
• Единая версия правды, высокое
качество, надёжность, доступность
и отслеживаемость данных
• Нехватка специалистов Hadoop
• Кластер Hadoop простаивал, т.к.
было только 2 разработчика,
которые умели на нём работать,
что приводило к задержкам с
разработкой
• Необходимость интеграции
Hadoop со сложным Логическим
Хранилищем Данных,
построенным на различных СУБД
• Эффективная команда
специалистов
• Кластер Hadoop загружен на 100%
• Лёгкая интеграция с остальными
частями Логического Хранилища
Данных (Teradata и т.д.)
• Доступность согласованной
информации на всех платформах
История Успеха
Оптимизация Хранилища Данных
• 1.8 млрд. долларов клиентских
активов в управлении
• 126 млрд. долларов депозитов
17,000 финансовых
консультантов в штате
• 6.6M клиентских счетов
Задача Проблема Решение
17
18
Техническая Архитектура
Оптимизация КХД Morgan Stanley
 Производительность труда разработчиков Informatica до
5 раз выше.
 Банк смог использовать имеющиеся в наличии команды
разработчиков Informatica PowerCenter.
4 недели
4 дня
Скорость работы
оказалась выше в 2 раза
Vs.
Разработчики
Hadoop
«вручную»
Разработчики Informatica
Производительность труда разработчиков
Оптимизация КХД Morgan Stanley
19
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Конвейер поставки данных для анализа при планировании
и реализации бизнес-инициатив
Озеро данных
Бизнес-
ценность
Большие
Данные
Бизнес-цели
Иссле-
дование
данных
Операцион
ализация
Формули-
рование
гипотез
Проверка
гипотез
Приорите-
зация
Исследователи
ДанныхАналитики Разработчики
Бизнес-
пользователи
Захват и
хранение
Исследование,
управление
Распределение
управление ЖЦ
Цепочка поставок Больших Данных
Очистка и
обогащение
Системы управления данными и аналитики
 Данные в исходном формате
 Доступ для любых инструментов
исследования данных
21
Болото, Водохранилище, Лагуна, Песочница (?!)
Озеро данных
• Данные «как есть» в исходном формате
• Инструментарий быстрой загрузки,
• Интеграция, к-во данных в режиме самообслуживания
• Автоматическое определение доменов данных
• Документирование, профилирование
Эксперименты:
• Трансформация, комбинация данных
• Исследование данных
Управление данными (Data Governance)
• Использование в режиме самообслуживания
(публикация и подписка)
• Форматирование и трансформация данных
• Контроль доступа, маскирование
Болото
Пруд
Лагуна
22
23
Типовая Архитектура Informatica
Озеро Данных
Мобильные
приложения
9. Управление
данными (DG),
загрузку
метаданных СУБД,
BI, DI
3. Потоковая
загрузка
8. Исследование,
гармонизация и
проверка данных
4. Маскирование
конфиденциальных
данных
2. Репликация
Аналитика,
отчётность,
визуализация
11. Подписка на
наборы данных
Data
Integration
Hub
1. Пакетная
загрузка или
архивирование
Витрины
5. Обогащение
данных (НСИ,
MDM)
MDM
КХД
6. Поиск,
интеграция, очистка
и подготовка данных
7. Выгрузка в
КХД
Сенсоры,
Облачные среды
Документы и
эл.почта
Реляционные БД,
Мэйнфреймы
Социальные сети,
веб-журналы
10. Аналитика реального
времени, корреляция,
определение тенденций и т.д.
Аутсорсинг => Среды разработки и тестирования
Informatica Test Data Management
Атрибут Значение
Name Эдгар Кодд
SSN 556-12-5697
Account Number 1565-859-2565
Phone number 818-223-5755
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Атрибут Значение
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Не маскированные данные
Маскированные данные
Распрацоўшчык
Field Description
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Маскированные данные
Developer
 Безопасные среды с
маскированными данными
 Возможно только с
подмножеством данных
промышленной системы
http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/
24
Не пропустите!
Только сегодня в 16:15!
Доклад Сергея Сотниченко
«Tinkoff Data Lake:
В секции №1 «Большие Данные на службе бизнеса»
25
История успеха в России
Tinkoff Data Lake
мы знаем про
вас всё!»
Задача Проблема Решение
• Оборот >$5.5B
• 29 транзакций в секунду
• 200+ стран , 120+ валют
• 242M C2C, 459M B2B транзакций
• Технологическая платформа для
решения по кросс-канальной
оптимизации для ритейла, веб- и
мобильного бизнеса
• Управление клиентским опытом
• Снижение стоимости транзакции
• Противодействие мошенничеству
и отмыванию денег
• Аналитическая платформа для
исследования данных (машинное
обучение и т.д.)
• Обработка 29 транзакций в секунду
генерирует огромный объём
структурированных и
неструктурированных данных,
которые должны быть
интегрированы из различных
источников (унаследованные
системы, мобильные и онлайн
данные)
• Решение должно быть
рентабельным, масштабируемым по
скорости доступа, ёмкости и
вычислительной мощности
• Построена платформа обработки
данных на основе Hadoop
(Cloudera) и Informatica Big Data
Edition
• Решение по кросс-канальной
оптимизации внедрено в
промышленную эксплуатацию в
полном объёме, в соответствии с
требованиями заказчика
Озеро Данных
26
27
Техническая Архитектура
Озеро данных Western Union
28
Managed Data Lake Portal – Ранний анонс
Data Lake
Портал
самообслуживания
MDL Portal
BI, Визуализация,
Аналитика, Статистика
raw («болото») sandbox («пруд») refined («лагуна»)
RFID, Медицинские
мониторы, Облака
HL7, HIPAA, EDI
X12
OLTP, ERP, EMR,
Мэйнфрейм
Социальные сети,
веб-журналы
«Озеро данных»…
• Управление поставкой и использованием данных
• Трансформация «сырых данных» в достоверную и
надёжная информацию.
Захват,
сохранение
Очистка и
обогащение
Исследование,
организация
Предоставление,
управление
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Name DOB Address City State Zip
W. S. Harrison II PhD 1/33/1967 Medical Center,117/2A #17497 Jackson E. Hartford NY 16987
William Stuart Harison 1/3/1967 117- 2a Jacksen Rd. Easthartford CT 06987
William Stewart Harison 9/9/99 117 Jackson Road. Suite 2A Hartford East CT 06987
Doctor Bill Harisen jr 1/13/1967 117 Jacson Room 2a HartfordCT 6984
Harrisen William Doctor 2a Jackson Rd #174978 Hartford CT 06987-4573
Неверная
дата
«Грязный» адрес
Нет такого города!
Неверный
индекс
• Клиентский МДМ: поиск и соотнесение клиентов, пациентов,
граждан и т.д.
• Распознавание дублирующих записей
• Создание реестра идентификаторов и ссылок на данные в
системах-источниках
• Identity Resolution: поиск в репозитории
идентификационных данных сущности, возможных
совпадений, дублирующих записей, связей или аномалий
• Для разных стран и языков, с использование методов
нечёткой логики
IIR
Informatica МДМ-реестр, Identity Resolution
30
Самый главный вопрос:
«Один человек или разные
люди?»
Big Data Relationship Management
31
Когда производительности традиционного не хватает!
• Поддержка разнообразных типов данных,
включая внешние источники
• Быстрое добавление данных новых типов
• Мэтчинг и связывание записей в Hadoop
(поддерживаются дистрибутивы Cloudera и
Hortonworks )
• Мультикритериальный мэтчинг
• Поиск в реальном времени
• Хранение в Persisted in HBase
• Мэтчинг Informatica SSA-Name3
• Автоматическое формирование витрины в Hive
• REST-API, CLI, RCP интерфейсы
ИСТОЧНИКИ
ХРАНЕНЕНИЕ
ДАННЫХ
ОБРАБОТКА
ДОСТАВКА
ИНФОРМАЦИ
Реляционные СУБД,
Мейнфреймы
Документы, email
Социальные медиа,
Веб-журналы
Сенсоры, облачные
среды
ИСТОЧНИКИ СТРУКТУРИРОВАННЫХ
ДАННЫХ
НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ
ЗАХВАТХРАНЕНИЕОБРАБОТКААНАЛИТИКА
BI, Отчёты,
Приложения
Витрины
данных
REST-
сервис
МЭТЧИНГДЕДУПЛИКАЦИЯ ПОИСК
МОДЕЛЬ ДАННЫХ
PK
TABLE
INDEX
TABLE
GROUP
TABLE
УПРАВЛЕНИЕ
СВЯЗЯМИ
Первоначаль-
ная загрузка
Инкременталь-
ная загрузка
Enablers
Data Mining
Обработка
в реальном времени
Подготовка
данных
Визуализация и
аналитика
Архитектура MDM BDRM
• Формирование «золотой
записи» для контактов /клиентов и
домовладений для нужд
оптимизации маркетинговых
компаний, аналитики
планирования
• Консолидация базы контактов из
внутренних источников и внешних
поставщиков
• Доступность актуальных данных в
системах оптимизации
маркетинговых кампаний
• Реализация задачи в имевшемся
технологическом ландшафте
занимала месяцы, что было
неприемлемо для заказчика
• Единая платформа, единая система
идентификаторов для данных из
ранее разрозненных источников
• Быстрая загрузка, очистка и
стандартизация из новых
источников
• Быстрая загрузка больших объёмов
данных
• Производительная среда для
аналитиков Больших Данных
История Успеха
MDM для Больших Данных
•Страхование, пенсионные и
инвестиционные фонды
•Общий объём действующих
договоров страхования –
1,085 миллиарда долларов
Задача Проблема Решение
33
Transamerica Corporation
34
Результаты первого этапа внедрения
MDM для Больших Данных Transamerica
Данные от поставщиков
Индивидуальные
предложения
750 миллионов записей, кластер Hadoop 6 узлов
Клиенты:
• Мэтчинг 17 часов 25 мин., загрузка в Hbase 18 часов 15 мин.
Домохозяйства:
• Мэтчинг 30 часов 33 мин., загрузка в Hbase 20 часов 3 мин.
«Решение задачи с помощью традиционного подхода и на базе нашего КХД
потребовало бы 12-18 месяцев, фактически первая фаза была закончена за 60
дней», John LoGiudice, вице-президент по маркетингу Трансамерика
Потенциальные
клиенты
Клиентские данные
CRM
Контакты
Обогащение
Данные от
партнёров
История
Требований
Веб-журналы
PowerCenterBigDataEdition
HDFS
DataQualityBigDataEdition
IdentityResolution
HBase
Hive
Map
Reduce
Cleansed
Files
Individual Household
Визуализация/отчёты
ПредиктивнаяАналитика
Datameer
Извлечение-преобразование-загрузка
Data Quality –Cleaning, Identity Resolution
MDM для Больших Данных Transamerica
Техническая Архитектура
Informatica Big Data
Relationship Manager
IIR
BDRM
35
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
Потоковая Аналитика
37
Захват и передача
данных в реальном
времени
Обработка сложных
событий
Informatica RulePoint
Informatica Vibe Data StreamVDS
Преобразование
форматов
Informatica B2B Data Transformation
Informatica Vibe Data Stream
ШинаVibeDataStream
Публикация/Подписка
Высокопроизводительная
инфраструктура
Гарантированная доставка
Публикация в Ultra Messaging
без брокера / промежуточного
сохранения.
Cloudera,
Pivotal,
Hortonworks,
MapR
Приёмники
Web-серверы,
Operations
Мониторинг,
rsyslog, SLF4J,...
Носимые устр-ва,
умные счётчики,
дискретные
данные.
Источники
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
VDS
Узел
Управление и
Мониторинг
Интернет Вещей,
Датчики
VDS
Узел
Аналитика
Реального
Времени и
Обработка
Сложных
Событий
NoSQL Базы
Данных: HBASE,
Cassandara,
Riak, MongoDB
38
Informatica Vibe Data Stream
• Высокая производительность, работа в реальном времени
• Высокопроизводительное решение с гарантированной доставкой
• В разы (>10X) быстрее аналогичных решений (Kafka)
• Высокая доступность и отказоустойчивость
• Автоматизированное восстановление агентов и UM компонентов
• Простая конфигурация, развёртывание, администрирование и
мониторинг
• Единый интерфейс для настройки, развёртывания и мониторинга
• Автоматически генерируется конфигурация UM, агентов на источнике и приёмнике
• Экосистема источников и приёмников
• Поддержка источников, приёмников
• Поддержка продуктов Informatica PowerCenter и Complex Event Processing
• SDK для разработки агентов
• Эффективность – нет необходимости сохранять копии данных
• Нет необходимости сохранять данные на источнике, брокере или приёмнике
• Нет необходимости в распределенной файловой системе для отказоустойчивости
Content Shared Strictly Under NDA 39
Informatica B2B Data Transformation
WebSphere MQ
JMS
MSMQ
SAP NetWeaver XI
JD Edwards
Lotus Notes
Oracle E-Business
PeopleSoft
Oracle
DB2 UDB
DB2/400
SQL Server
Sybase
ADABAS
Datacom
DB2
IDMS
IMS
Word, Excel
PDF
StarOffice
WordPerfect
Email (POP, IMPA)
HTTP
Informix
Teradata
Netezza
ODBC
JDBC
VSAM
C-ISAM
Binary Flat Files
Tape Formats…
Web Services
TIBCO
webMethods
SAP NetWeaver
SAP NetWeaver BI
SAS
Siebel
Сообщения и
веб-сервисы
Реляционные
БД и плоские
файлы
Мейнфреймы и
ЭВМ среднего
класса
Неструктуриров
анные данные
Flat files
ASCII reports
HTML
RPG
ANSI
LDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
SWIFT
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP
Hewitt
SAP By Design
Oracle OnDemand
«Коробочные»
приложения
Индустриальные
стандарты
Стандарты на
основе XML
SaaS/BPO
Социальные сети
Facebook
Twitter
LinkedIn
Kapow
Datasift
Pivotal
Vertica
Netezza
Teradata
Aster
Массово-
параллельные
ПАК
40
41
Обработка сложных событий в примерах
Informatica RulePoint
Превышен предельный
объём передаваемых
данных (5КБ/15сек.)
 Кросс-доменное решение для
потоковой аналитики
 Поддержка операторов потоковой
аналитики
Обращение к сайту из списка запрещенных
• Построение системы потоковой
аналитики реального времени для
решения задач управления качеством
оказываемых услуг и ограничения
доступа
• Имеющиеся прототипы на
открытых технологиях не
обеспечивали требования по
• Простоте настройки
• Масштабируемости
• Доступности
• Восстановлению после
сбоев
• Высокодоступное, масштабируемое
решение для захвата данных,
потоковой аналитики и
долговременного хранения данных в
Hadoop
• Возможность просто подключать
новые источники и приёмники
данных
История Успеха
Потоковая Аналитика
• Один из крупнейших
телекоммуникационных операторов
(GSM, 3G, проводной)
• 150 миллионов пользователей
• Другие услуги: Производство
смартфонов, предоставление ЦОД, ИТ-
аутсорсинг и т.д.
Задача Проблема Решение
42
Аналитические расчёты (пакет.)
Потоковая обработка
(реальное время)
Интеграция данных +
обмен данными B2B
Ultra Messaging
Агент
Vibe
DataStream
PowerExchange
Очередь
Machine
Generated
Data
Обработка
сложных событий
DWH / DM
Озеро
данных
Агент
Vibe
DataStream
Time Sliced Data
Event Feeds
Informatica
PowerCenter
BigData Edition
Network
Mobile Switching
Centre - MSC / MSS
Gateway PGW,
eNodeB
OLT / ONT / ACS
DPI / Probes
L4-L7 Optimizer
Customer Premises
Set Top Box
OSS
SQM
SEM
ACS
HP TeMIP
Ericsson
IPAM
Target Systems
Campaign Management
NPM
Billing
NRTRDE
Charging GW
Redbrick / REVASS
Customer Loyalty
ICA / CB
…
…
…
…
…
…
…
…
…
Архитектура заказчика
Аналитики реального времени
UM
BDE
Rule-
Point
44
Продукт
В расчёте на узел Суммарно
Событий/сек. МБ/сек. Событий/сек. МБ/сек.
Vibe Data
Stream 32,291.67 9.69 516,666.67 155.00
Flume 4,305.59 1.29 68,889.51 20.67
Per-Node
Aggregate
Flume
Vibe Data Stream
Т.е. быстрее в ~7.5 раз
Результаты пилота. Сравнение Vibe Data Stream и Flume
Потоковая Аналитика
• Большие данные
• Оптимизация Корпоративного Хранилища Данных
• Озеро Данных (Managed Data Lake)
• Клиентский MDM для Больших Данных
• Потоковая аналитика Больших Данных
• О компании Informatica
$0
$200,000,000
$400,000,000
$600,000,000
$800,000,000
$1,000,000,000
$1,200,000,000• Год основания: 1993
• Оборот за 2013 г. : 1,05 миллиардов
долларов США
• Средний рост прибыли в год
(CAGR): 17%
• Сотрудники: 3,080+
• Партнёры: 450+
• Крупнейшие SI, ISV, OEM,
консалтинговые компании, лидеры
рынка (SaaS, социальные сети)
• Клиенты: Over 5,000
• Клиенты в 82 странах
• Прямое присутствие в 28 странах
• 1е место в рейтинге Customer Loyalty
Rankings (7 лет подряд)
#1 независимый поставщик решений для управления данными
О Компании Informatica
46
Informatica – безоговорочный лидер среди поставщиков решений
Обеспечения Качества и Интеграции Данных по мнению ведущих
аналитических агентств (Gartner, Forrester) на протяжении 10 лет.
О Компании Informatica.
47
Архивирование Данных
Качество ДанныхИнтеграция Данных Интеграция в Облачных Средах
Управление Мастер-ДаннымиМаскирование Данных
О Компании Informatica
Отзывы аналитиков
48
Управление Мастер-ДаннымиВиртуализация Данных
Потоковая Аналитика Больших Данных
Корпоративный ETL Интеграция в Облачных Средах
Управление Информацией о Продуктах Управление данными (DG)
О Компании Informatica
Отзывы аналитиков
49
• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры
исследования и разработки по направлениям «Управление Мастер-Данными» и
«Репликация Данных» и в Санкт-Петербурге и Казани
• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные
компании и Розничные сети используют продукты Informatica для целей
отчетности, аналитики, маркетинга, привлечения и удержания клиентов
Компания Informatica В России и СНГ
50
51
ПРОБНЫЕ ВЕРСИИ
ГОТОВЫЕ РЕШЕНИЯ
Пробная версия Informatica Big Data Edition
marketplace.informatica.com/bigdata
ТРЕНИНГИ И
ВЕБИНАРЫ
OSPconf. Big Data Forum 2015

More Related Content

What's hot

Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
Denodo
 
2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес
antishmanti
 

What's hot (20)

Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
 
Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетинге
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
Big data must ife
Big data must ifeBig data must ife
Big data must ife
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russia
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
Тренды сегодня: Big Data
Тренды сегодня: Big DataТренды сегодня: Big Data
Тренды сегодня: Big Data
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Big data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризисаBig data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризиса
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
Байдалина472(2)
Байдалина472(2)Байдалина472(2)
Байдалина472(2)
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience Technologies
 
2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес
 
Д.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за даннымиД.Афанасьев_ CleverDATA_Охота за данными
Д.Афанасьев_ CleverDATA_Охота за данными
 

Viewers also liked

Решение Informatica для миграции данных
Решение Informatica для миграции данных Решение Informatica для миграции данных
Решение Informatica для миграции данных
Oleksii Tsipiniuk
 
Общая презентация informatica
Общая презентация informatica Общая презентация informatica
Общая презентация informatica
Oleksii Tsipiniuk
 
Продукты и решения Informatica
Продукты и решения  InformaticaПродукты и решения  Informatica
Продукты и решения Informatica
Natasha Zaverukha
 
Общая презентация по Informatica
Общая презентация по Informatica Общая презентация по Informatica
Общая презентация по Informatica
Oleksii Tsipiniuk
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
Oleksii Tsipiniuk
 
Андрей Себрант - Что такое Big data и почему это страшно интересно
Андрей Себрант - Что такое Big data и почему это страшно интересноАндрей Себрант - Что такое Big data и почему это страшно интересно
Андрей Себрант - Что такое Big data и почему это страшно интересно
Yandex
 

Viewers also liked (20)

Решение Informatica для миграции данных
Решение Informatica для миграции данных Решение Informatica для миграции данных
Решение Informatica для миграции данных
 
Informatica datawarehouse
Informatica datawarehouseInformatica datawarehouse
Informatica datawarehouse
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Smart money
Smart moneySmart money
Smart money
 
Лекция 4. MapReduce в Hadoop (введение)
Лекция 4. MapReduce в Hadoop (введение)Лекция 4. MapReduce в Hadoop (введение)
Лекция 4. MapReduce в Hadoop (введение)
 
Лекция 5. MapReduce в Hadoop (алгоритмы)
Лекция 5. MapReduce в Hadoop (алгоритмы)Лекция 5. MapReduce в Hadoop (алгоритмы)
Лекция 5. MapReduce в Hadoop (алгоритмы)
 
Шерінгова економіка і приклади в Україні
Шерінгова економіка і приклади в УкраїніШерінгова економіка і приклади в Україні
Шерінгова економіка і приклади в Україні
 
Общая презентация informatica
Общая презентация informatica Общая презентация informatica
Общая презентация informatica
 
Продукты и решения Informatica
Продукты и решения  InformaticaПродукты и решения  Informatica
Продукты и решения Informatica
 
Общая презентация по Informatica
Общая презентация по Informatica Общая презентация по Informatica
Общая презентация по Informatica
 
Лекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceЛекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduce
 
Лекция 3. Распределённая файловая система HDFS
Лекция 3. Распределённая файловая система HDFSЛекция 3. Распределённая файловая система HDFS
Лекция 3. Распределённая файловая система HDFS
 
Лекция 6. MapReduce в Hadoop (графы)
Лекция 6. MapReduce в Hadoop (графы)Лекция 6. MapReduce в Hadoop (графы)
Лекция 6. MapReduce в Hadoop (графы)
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
 
Big Data Day LA 2016/ NoSQL track - Privacy vs. Security in a Big Data World,...
Big Data Day LA 2016/ NoSQL track - Privacy vs. Security in a Big Data World,...Big Data Day LA 2016/ NoSQL track - Privacy vs. Security in a Big Data World,...
Big Data Day LA 2016/ NoSQL track - Privacy vs. Security in a Big Data World,...
 
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
 
Андрей Себрант - Что такое Big data и почему это страшно интересно
Андрей Себрант - Что такое Big data и почему это страшно интересноАндрей Себрант - Что такое Big data и почему это страшно интересно
Андрей Себрант - Что такое Big data и почему это страшно интересно
 
Лекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelЛекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель Pregel
 
Informatica Cloud Overview
Informatica Cloud OverviewInformatica Cloud Overview
Informatica Cloud Overview
 

Similar to OSPconf. Big Data Forum 2015

Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
Natasha Zaverukha
 
Май-Tech. Облачные технологии
Май-Tech. Облачные технологииМай-Tech. Облачные технологии
Май-Tech. Облачные технологии
May-Tech
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплева
galkina
 

Similar to OSPconf. Big Data Forum 2015 (20)

OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Анализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft biАнализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft bi
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
 
5 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_20155 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_2015
 
Май-Tech. Облачные технологии
Май-Tech. Облачные технологииМай-Tech. Облачные технологии
Май-Tech. Облачные технологии
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Конкурс презентаций - Коноплева
Конкурс презентаций -  КоноплеваКонкурс презентаций -  Коноплева
Конкурс презентаций - Коноплева
 
Bios power bi о нас (RU)
Bios power bi о нас (RU)Bios power bi о нас (RU)
Bios power bi о нас (RU)
 

OSPconf. Big Data Forum 2015

  • 2. План доклада • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 3. Safe Harbor The information being provided today is for informational purposes only. The development, release and timing of any Informatica product or functionality described today remain at the sole discretion of Informatica and should not be relied upon in making a purchasing decision. Statements made today are based on currently available information, which is subject to change. Such statements should not be relied upon as a representation, warranty or commitment to deliver specific products or functionality in the future.
  • 4. Большие Данные (Big Data) 4 Data Velocity (Скорость) Data Volume (Объём) Data Variety (Разнообразие) GB TB В настоящее время обозначает класс задач обработки данных, которые не могут быть эффективно решены с помощью традиционных инструментов и подходов. 2008 г. - Редактор журнала Nature Клиффорд Линч (Clifford Lynch) впервые употребляет термин Big Data. (*) https://en.wikipedia.org/wiki/Big_data 2001 г. – Сотрудник Gartner Даг Лени (Doug Laney) вводит понятие (3xV) в оборот. MB PB
  • 5. Транзакционные БД и приложения Приложения в Облаке Большие Транзакционные Данные OLAP и ПАК для ХД Большие Данные Взаимодействия Соц. сети, Web Logs Устройства, сенсоры Документы и эл. письма Volume Variety Velocity Инфраструктура Больших Данных Но как правило (~80%) – это Hadoop и NoSQL Hadoop  Хранение и обработка больших объёмов данных  и частично- и неструктурированных данных NoSQL  Быстро-меняющиеся модели данных  Простота управления  Гибкая разработка  Высоконагруженные и распределенные приложения Кластерные платформы Обработка Больших Данных  Стоимость масштабирования  Стоимость лицензий и внедрения 5
  • 7. «Пик Завышенных Ожиданий» «Плато продуктивности» Ожидания … Время 2012 ~5-10 лет 2013 Степень зрелости решений Большие Данные (*) Hype Cycle for Emerging Technologies, Gartner 2011-14  Многочисленные поставщики инструментов и решений, консолидация поставщиков  Первые успехи в корпоративном секторе (и первые неудачи)  Есть понимание, какие задачи, какими технологиями решать  Продукты и сервисы 2го поколения 7 2014 «Котловина разочарований» 2011 Возможности  <5% потенциальных пользователей ? ? 2015?
  • 8. № Задача 2013 % 2014 % 2015 1 Предсказание поведения клиента 45% 44% 46% 2 Поиск корреляций в разнородных данных (интернет, гео-, транзакции и т.д.) 52% 43% 48% 3 Предсказание продаж продуктов или услуг 34% 36% 40% 4 Предотвращение мошенничества и управление финансовыми рисками 28% 27% 32% 5 Анализ интернет-активности (clickstream) 11% 26% 24% 6 Выявление рисков ИТ безопасности 23% 25% 29% 7 Анализ активности в социальных сетях для потребительского сегмента 18% 24% 29% 8 Анализ сенсорных данных, web-логов… 22% 23% 28% 9 На данный момент не рассматривается 15% 14% 12% Решаемые задачи Большие Данные: Выравнивание ожиданий (*) По данным Analytics, BI, and Information Management Survey by Information Week 2014-15 1 1 9 2 15 2 6 1 1 8 2 5 4 5 2 4 5 5 2
  • 9. Опасения и Риски Большие Данные: Выравнивание ожиданий • Экспертов не хватает, они дороги 50% • Инструменты: • Нужных просто нет 19% (-1%) • Те, что есть, - не совместимы 19% • Сложны в освоении 19% (+1%) Ресурсы • Не очевидна экономическая эффективность бизнес инициатив Больших Данных 36% (+1%)Экономика$? • Качество данных 25% (-1%)Качество данных (*)По данным 2015 Analytics, BI, and Information Management Survey by Information Week • Доступность данных 14% (-3% **)Данные недоступны (**) По сравнению с данными за 2014 г. 9
  • 10. «Пик Завышенных Ожиданий» «Плато продуктивности» Ожидания … Время 2012 ~5-10 лет 2013 Мини-опрос Большие Данные – начало «подъёма» 10 2014 «Котловина разочарований» 2011 Возможности Пожалуйста, поднимите руки, если ожидаете в: ?
  • 11. «Типовые» Проекты Больших Данных Для эффективной поддержки бизнес-инициатив ИТ-инициативы Как организовать инфраструктуру Больших Данных? Оптимизация инфраструктуры (производительность, стоимость владения, масштабируемость) Оптимизация Корпоративного Хранилища Данных Единое пространство для управления данными Озеро Данных (Managed Data Lake) 11 Бизнес-инициативы Управление информацией о клиенте: очистка, согласование, дедупликация Клиентский MDM для Больших Данных Обработка событий в реальном времени, IoT, загрузка КХД и витрин Потоковая аналитика Больших Данных
  • 12. • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 13. Оптимизация Корпоративного Хранилища Данных Корпоративное Хранилище Данных Корпоративные Приложения Операционные Хранилища Данных (ODS) Транзакци- онные системы Business Intelligence Hadoop Load … Job 2Job 1 LoadExtract Transform Job y Job x … Запросы 13 Идентификация ненужных или редко-используемых данных и архивирование в Hadoop со сжатием ILM  10-20% ожидаемое сокращение общей стоимости владения по итогам 1-го этапа внедрения  Снижение риска приостановки ключевых бизнес-инициатив из- за недостатка ресурсов КХД Vibe Data Stream Big Data Edition Power- Exchange Единый семантический уровень Data Services
  • 14. Первоначальная загрузка данных в Hadoop/MPP Оптимизация КХД 14 Исходная система Целевые системы Графическая консоль Прямая загрузка (вариант 1) Генерация схемы данных Или промежуточные файлы (вариант 2) https://community.informatica.com/solutions/informatica_fast_clone_trial РСУБД ПАК Hadoop  Графический интерфейс  Гетерогенные среды  Автоматический параллелизм Fast- Clone
  • 15. Почему с Informatica Оптимизация КХД 15 SELECT T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY, customer.C_NAME, customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY FROM ( SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx FROM lineitem GROUP BY L_ORDERKEY ) T1 JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY) JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY) JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY) WHERE nation.N_NAME = 'UNITED STATES' ) T2 INSERT OVERWRITE TABLE TARGET1 SELECT * INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(ORDERKEY2) GROUP BY CUSTKEY; Hive-QL  Лёгкий старт – специфических знаний (например Hadoop) не требуется, библиотеки готовых трансформаций для интеграции, качества данных, сотни готовых коннекторов к источникам и приёмникам данных  Скорость и масштабируемость – логика выполняется в кластере  Простота сопровождения – визуальная разработка, самодокументируемость, управление релизами, метаданными  Защита инвестиций – на случай изменения технологий в результате эволюции Hadoop MapReduce UDF Vibe – виртуальная машина данных. Её код развёрнут прямо на узлах кластера Hadoop 15
  • 16. Типовые архитектуры и технологические партнёрства Оптимизация КХД – с чего начать • Интегрированное решение Capgemini, Informatica, Cloudera, Appfluent + + + • Решение Informatica и MapR + • Типовая архитектура от Informatica и HortonWorks + http://www.cloudera.com/content/cloudera/en/solutions/partner/Informatica.html http://hortonworks.com/partner/informatica/ https://www.mapr.com/resources/informatica-and-mapr-data-warehouse-optimization • Типовая архитектура Informatica и Cloudera + • Собрать своё решение … 16
  • 17. • Рационализация технологического ландшафта в части стоимости владения, сложности интеграции и простоты переиспользования • Производительная, гибкая и надёжная технологическая платформа для финансовых консультантов и клиентов • Единая версия правды, высокое качество, надёжность, доступность и отслеживаемость данных • Нехватка специалистов Hadoop • Кластер Hadoop простаивал, т.к. было только 2 разработчика, которые умели на нём работать, что приводило к задержкам с разработкой • Необходимость интеграции Hadoop со сложным Логическим Хранилищем Данных, построенным на различных СУБД • Эффективная команда специалистов • Кластер Hadoop загружен на 100% • Лёгкая интеграция с остальными частями Логического Хранилища Данных (Teradata и т.д.) • Доступность согласованной информации на всех платформах История Успеха Оптимизация Хранилища Данных • 1.8 млрд. долларов клиентских активов в управлении • 126 млрд. долларов депозитов 17,000 финансовых консультантов в штате • 6.6M клиентских счетов Задача Проблема Решение 17
  • 19.  Производительность труда разработчиков Informatica до 5 раз выше.  Банк смог использовать имеющиеся в наличии команды разработчиков Informatica PowerCenter. 4 недели 4 дня Скорость работы оказалась выше в 2 раза Vs. Разработчики Hadoop «вручную» Разработчики Informatica Производительность труда разработчиков Оптимизация КХД Morgan Stanley 19
  • 20. • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 21. Конвейер поставки данных для анализа при планировании и реализации бизнес-инициатив Озеро данных Бизнес- ценность Большие Данные Бизнес-цели Иссле- дование данных Операцион ализация Формули- рование гипотез Проверка гипотез Приорите- зация Исследователи ДанныхАналитики Разработчики Бизнес- пользователи Захват и хранение Исследование, управление Распределение управление ЖЦ Цепочка поставок Больших Данных Очистка и обогащение Системы управления данными и аналитики  Данные в исходном формате  Доступ для любых инструментов исследования данных 21
  • 22. Болото, Водохранилище, Лагуна, Песочница (?!) Озеро данных • Данные «как есть» в исходном формате • Инструментарий быстрой загрузки, • Интеграция, к-во данных в режиме самообслуживания • Автоматическое определение доменов данных • Документирование, профилирование Эксперименты: • Трансформация, комбинация данных • Исследование данных Управление данными (Data Governance) • Использование в режиме самообслуживания (публикация и подписка) • Форматирование и трансформация данных • Контроль доступа, маскирование Болото Пруд Лагуна 22
  • 23. 23 Типовая Архитектура Informatica Озеро Данных Мобильные приложения 9. Управление данными (DG), загрузку метаданных СУБД, BI, DI 3. Потоковая загрузка 8. Исследование, гармонизация и проверка данных 4. Маскирование конфиденциальных данных 2. Репликация Аналитика, отчётность, визуализация 11. Подписка на наборы данных Data Integration Hub 1. Пакетная загрузка или архивирование Витрины 5. Обогащение данных (НСИ, MDM) MDM КХД 6. Поиск, интеграция, очистка и подготовка данных 7. Выгрузка в КХД Сенсоры, Облачные среды Документы и эл.почта Реляционные БД, Мэйнфреймы Социальные сети, веб-журналы 10. Аналитика реального времени, корреляция, определение тенденций и т.д.
  • 24. Аутсорсинг => Среды разработки и тестирования Informatica Test Data Management Атрибут Значение Name Эдгар Кодд SSN 556-12-5697 Account Number 1565-859-2565 Phone number 818-223-5755 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Атрибут Значение Name Алёша Попович SSN 556-36-9999 Account Number 1565-333-3332 Phone number 818-555-5555 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Не маскированные данные Маскированные данные Распрацоўшчык Field Description Name Алёша Попович SSN 556-36-9999 Account Number 1565-333-3332 Phone number 818-555-5555 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Маскированные данные Developer  Безопасные среды с маскированными данными  Возможно только с подмножеством данных промышленной системы http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/ 24
  • 25. Не пропустите! Только сегодня в 16:15! Доклад Сергея Сотниченко «Tinkoff Data Lake: В секции №1 «Большие Данные на службе бизнеса» 25 История успеха в России Tinkoff Data Lake мы знаем про вас всё!»
  • 26. Задача Проблема Решение • Оборот >$5.5B • 29 транзакций в секунду • 200+ стран , 120+ валют • 242M C2C, 459M B2B транзакций • Технологическая платформа для решения по кросс-канальной оптимизации для ритейла, веб- и мобильного бизнеса • Управление клиентским опытом • Снижение стоимости транзакции • Противодействие мошенничеству и отмыванию денег • Аналитическая платформа для исследования данных (машинное обучение и т.д.) • Обработка 29 транзакций в секунду генерирует огромный объём структурированных и неструктурированных данных, которые должны быть интегрированы из различных источников (унаследованные системы, мобильные и онлайн данные) • Решение должно быть рентабельным, масштабируемым по скорости доступа, ёмкости и вычислительной мощности • Построена платформа обработки данных на основе Hadoop (Cloudera) и Informatica Big Data Edition • Решение по кросс-канальной оптимизации внедрено в промышленную эксплуатацию в полном объёме, в соответствии с требованиями заказчика Озеро Данных 26
  • 28. 28 Managed Data Lake Portal – Ранний анонс Data Lake Портал самообслуживания MDL Portal BI, Визуализация, Аналитика, Статистика raw («болото») sandbox («пруд») refined («лагуна») RFID, Медицинские мониторы, Облака HL7, HIPAA, EDI X12 OLTP, ERP, EMR, Мэйнфрейм Социальные сети, веб-журналы «Озеро данных»… • Управление поставкой и использованием данных • Трансформация «сырых данных» в достоверную и надёжная информацию. Захват, сохранение Очистка и обогащение Исследование, организация Предоставление, управление
  • 29. • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 30. Name DOB Address City State Zip W. S. Harrison II PhD 1/33/1967 Medical Center,117/2A #17497 Jackson E. Hartford NY 16987 William Stuart Harison 1/3/1967 117- 2a Jacksen Rd. Easthartford CT 06987 William Stewart Harison 9/9/99 117 Jackson Road. Suite 2A Hartford East CT 06987 Doctor Bill Harisen jr 1/13/1967 117 Jacson Room 2a HartfordCT 6984 Harrisen William Doctor 2a Jackson Rd #174978 Hartford CT 06987-4573 Неверная дата «Грязный» адрес Нет такого города! Неверный индекс • Клиентский МДМ: поиск и соотнесение клиентов, пациентов, граждан и т.д. • Распознавание дублирующих записей • Создание реестра идентификаторов и ссылок на данные в системах-источниках • Identity Resolution: поиск в репозитории идентификационных данных сущности, возможных совпадений, дублирующих записей, связей или аномалий • Для разных стран и языков, с использование методов нечёткой логики IIR Informatica МДМ-реестр, Identity Resolution 30 Самый главный вопрос: «Один человек или разные люди?»
  • 31. Big Data Relationship Management 31 Когда производительности традиционного не хватает! • Поддержка разнообразных типов данных, включая внешние источники • Быстрое добавление данных новых типов • Мэтчинг и связывание записей в Hadoop (поддерживаются дистрибутивы Cloudera и Hortonworks ) • Мультикритериальный мэтчинг • Поиск в реальном времени • Хранение в Persisted in HBase • Мэтчинг Informatica SSA-Name3 • Автоматическое формирование витрины в Hive • REST-API, CLI, RCP интерфейсы
  • 32. ИСТОЧНИКИ ХРАНЕНЕНИЕ ДАННЫХ ОБРАБОТКА ДОСТАВКА ИНФОРМАЦИ Реляционные СУБД, Мейнфреймы Документы, email Социальные медиа, Веб-журналы Сенсоры, облачные среды ИСТОЧНИКИ СТРУКТУРИРОВАННЫХ ДАННЫХ НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ ЗАХВАТХРАНЕНИЕОБРАБОТКААНАЛИТИКА BI, Отчёты, Приложения Витрины данных REST- сервис МЭТЧИНГДЕДУПЛИКАЦИЯ ПОИСК МОДЕЛЬ ДАННЫХ PK TABLE INDEX TABLE GROUP TABLE УПРАВЛЕНИЕ СВЯЗЯМИ Первоначаль- ная загрузка Инкременталь- ная загрузка Enablers Data Mining Обработка в реальном времени Подготовка данных Визуализация и аналитика Архитектура MDM BDRM
  • 33. • Формирование «золотой записи» для контактов /клиентов и домовладений для нужд оптимизации маркетинговых компаний, аналитики планирования • Консолидация базы контактов из внутренних источников и внешних поставщиков • Доступность актуальных данных в системах оптимизации маркетинговых кампаний • Реализация задачи в имевшемся технологическом ландшафте занимала месяцы, что было неприемлемо для заказчика • Единая платформа, единая система идентификаторов для данных из ранее разрозненных источников • Быстрая загрузка, очистка и стандартизация из новых источников • Быстрая загрузка больших объёмов данных • Производительная среда для аналитиков Больших Данных История Успеха MDM для Больших Данных •Страхование, пенсионные и инвестиционные фонды •Общий объём действующих договоров страхования – 1,085 миллиарда долларов Задача Проблема Решение 33 Transamerica Corporation
  • 34. 34 Результаты первого этапа внедрения MDM для Больших Данных Transamerica Данные от поставщиков Индивидуальные предложения 750 миллионов записей, кластер Hadoop 6 узлов Клиенты: • Мэтчинг 17 часов 25 мин., загрузка в Hbase 18 часов 15 мин. Домохозяйства: • Мэтчинг 30 часов 33 мин., загрузка в Hbase 20 часов 3 мин. «Решение задачи с помощью традиционного подхода и на базе нашего КХД потребовало бы 12-18 месяцев, фактически первая фаза была закончена за 60 дней», John LoGiudice, вице-президент по маркетингу Трансамерика Потенциальные клиенты
  • 35. Клиентские данные CRM Контакты Обогащение Данные от партнёров История Требований Веб-журналы PowerCenterBigDataEdition HDFS DataQualityBigDataEdition IdentityResolution HBase Hive Map Reduce Cleansed Files Individual Household Визуализация/отчёты ПредиктивнаяАналитика Datameer Извлечение-преобразование-загрузка Data Quality –Cleaning, Identity Resolution MDM для Больших Данных Transamerica Техническая Архитектура Informatica Big Data Relationship Manager IIR BDRM 35
  • 36. • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 37. Потоковая Аналитика 37 Захват и передача данных в реальном времени Обработка сложных событий Informatica RulePoint Informatica Vibe Data StreamVDS Преобразование форматов Informatica B2B Data Transformation
  • 38. Informatica Vibe Data Stream ШинаVibeDataStream Публикация/Подписка Высокопроизводительная инфраструктура Гарантированная доставка Публикация в Ultra Messaging без брокера / промежуточного сохранения. Cloudera, Pivotal, Hortonworks, MapR Приёмники Web-серверы, Operations Мониторинг, rsyslog, SLF4J,... Носимые устр-ва, умные счётчики, дискретные данные. Источники VDS Узел VDS Узел VDS Узел VDS Узел VDS Узел Управление и Мониторинг Интернет Вещей, Датчики VDS Узел Аналитика Реального Времени и Обработка Сложных Событий NoSQL Базы Данных: HBASE, Cassandara, Riak, MongoDB 38
  • 39. Informatica Vibe Data Stream • Высокая производительность, работа в реальном времени • Высокопроизводительное решение с гарантированной доставкой • В разы (>10X) быстрее аналогичных решений (Kafka) • Высокая доступность и отказоустойчивость • Автоматизированное восстановление агентов и UM компонентов • Простая конфигурация, развёртывание, администрирование и мониторинг • Единый интерфейс для настройки, развёртывания и мониторинга • Автоматически генерируется конфигурация UM, агентов на источнике и приёмнике • Экосистема источников и приёмников • Поддержка источников, приёмников • Поддержка продуктов Informatica PowerCenter и Complex Event Processing • SDK для разработки агентов • Эффективность – нет необходимости сохранять копии данных • Нет необходимости сохранять данные на источнике, брокере или приёмнике • Нет необходимости в распределенной файловой системе для отказоустойчивости Content Shared Strictly Under NDA 39
  • 40. Informatica B2B Data Transformation WebSphere MQ JMS MSMQ SAP NetWeaver XI JD Edwards Lotus Notes Oracle E-Business PeopleSoft Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP Informix Teradata Netezza ODBC JDBC VSAM C-ISAM Binary Flat Files Tape Formats… Web Services TIBCO webMethods SAP NetWeaver SAP NetWeaver BI SAS Siebel Сообщения и веб-сервисы Реляционные БД и плоские файлы Мейнфреймы и ЭВМ среднего класса Неструктуриров анные данные Flat files ASCII reports HTML RPG ANSI LDAP EDI–X12 EDI-Fact RosettaNet HL7 HIPAA ebXML HL7 v3.0 ACORD (AL3, XML) XML LegalXML IFX cXML AST FIX SWIFT Cargo IMP MVR Salesforce CRM Force.com RightNow NetSuite ADP Hewitt SAP By Design Oracle OnDemand «Коробочные» приложения Индустриальные стандарты Стандарты на основе XML SaaS/BPO Социальные сети Facebook Twitter LinkedIn Kapow Datasift Pivotal Vertica Netezza Teradata Aster Массово- параллельные ПАК 40
  • 41. 41 Обработка сложных событий в примерах Informatica RulePoint Превышен предельный объём передаваемых данных (5КБ/15сек.)  Кросс-доменное решение для потоковой аналитики  Поддержка операторов потоковой аналитики Обращение к сайту из списка запрещенных
  • 42. • Построение системы потоковой аналитики реального времени для решения задач управления качеством оказываемых услуг и ограничения доступа • Имеющиеся прототипы на открытых технологиях не обеспечивали требования по • Простоте настройки • Масштабируемости • Доступности • Восстановлению после сбоев • Высокодоступное, масштабируемое решение для захвата данных, потоковой аналитики и долговременного хранения данных в Hadoop • Возможность просто подключать новые источники и приёмники данных История Успеха Потоковая Аналитика • Один из крупнейших телекоммуникационных операторов (GSM, 3G, проводной) • 150 миллионов пользователей • Другие услуги: Производство смартфонов, предоставление ЦОД, ИТ- аутсорсинг и т.д. Задача Проблема Решение 42
  • 43. Аналитические расчёты (пакет.) Потоковая обработка (реальное время) Интеграция данных + обмен данными B2B Ultra Messaging Агент Vibe DataStream PowerExchange Очередь Machine Generated Data Обработка сложных событий DWH / DM Озеро данных Агент Vibe DataStream Time Sliced Data Event Feeds Informatica PowerCenter BigData Edition Network Mobile Switching Centre - MSC / MSS Gateway PGW, eNodeB OLT / ONT / ACS DPI / Probes L4-L7 Optimizer Customer Premises Set Top Box OSS SQM SEM ACS HP TeMIP Ericsson IPAM Target Systems Campaign Management NPM Billing NRTRDE Charging GW Redbrick / REVASS Customer Loyalty ICA / CB … … … … … … … … … Архитектура заказчика Аналитики реального времени UM BDE Rule- Point
  • 44. 44 Продукт В расчёте на узел Суммарно Событий/сек. МБ/сек. Событий/сек. МБ/сек. Vibe Data Stream 32,291.67 9.69 516,666.67 155.00 Flume 4,305.59 1.29 68,889.51 20.67 Per-Node Aggregate Flume Vibe Data Stream Т.е. быстрее в ~7.5 раз Результаты пилота. Сравнение Vibe Data Stream и Flume Потоковая Аналитика
  • 45. • Большие данные • Оптимизация Корпоративного Хранилища Данных • Озеро Данных (Managed Data Lake) • Клиентский MDM для Больших Данных • Потоковая аналитика Больших Данных • О компании Informatica
  • 46. $0 $200,000,000 $400,000,000 $600,000,000 $800,000,000 $1,000,000,000 $1,200,000,000• Год основания: 1993 • Оборот за 2013 г. : 1,05 миллиардов долларов США • Средний рост прибыли в год (CAGR): 17% • Сотрудники: 3,080+ • Партнёры: 450+ • Крупнейшие SI, ISV, OEM, консалтинговые компании, лидеры рынка (SaaS, социальные сети) • Клиенты: Over 5,000 • Клиенты в 82 странах • Прямое присутствие в 28 странах • 1е место в рейтинге Customer Loyalty Rankings (7 лет подряд) #1 независимый поставщик решений для управления данными О Компании Informatica 46
  • 47. Informatica – безоговорочный лидер среди поставщиков решений Обеспечения Качества и Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 10 лет. О Компании Informatica. 47
  • 48. Архивирование Данных Качество ДанныхИнтеграция Данных Интеграция в Облачных Средах Управление Мастер-ДаннымиМаскирование Данных О Компании Informatica Отзывы аналитиков 48
  • 49. Управление Мастер-ДаннымиВиртуализация Данных Потоковая Аналитика Больших Данных Корпоративный ETL Интеграция в Облачных Средах Управление Информацией о Продуктах Управление данными (DG) О Компании Informatica Отзывы аналитиков 49
  • 50. • Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры исследования и разработки по направлениям «Управление Мастер-Данными» и «Репликация Данных» и в Санкт-Петербурге и Казани • Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов Компания Informatica В России и СНГ 50
  • 51. 51 ПРОБНЫЕ ВЕРСИИ ГОТОВЫЕ РЕШЕНИЯ Пробная версия Informatica Big Data Edition marketplace.informatica.com/bigdata ТРЕНИНГИ И ВЕБИНАРЫ