SlideShare a Scribd company logo
Факторы успеха проектов
Больших Данных
Илья Гершанов
igershanov@informatica.com
Большие Данные (Big Data)
2
Data Velocity
(Скорость)
Data Volume
(Объём)
Data Variety
(Разнообразие)
GB TB
В настоящее время обозначает
класс задач обработки данных,
которые не могут быть эффективно
решены с помощью традиционных
инструментов и подходов.
2008 г. - Редактор журнала Nature
Клиффорд Линч (Clifford Lynch)
впервые употребляет термин Big
Data.
(*) https://en.wikipedia.org/wiki/Big_data
2001 г. – Сотрудник Gartner Даг Лени
(Doug Laney) вводит понятие (3xV) в
оборот.
MB PB
№ Задача 2013 2014 За год%
1 Предсказание поведения клиента 45% 44%
2 Поиск корреляций в разнородных данных
(интернет, гео-, транзакции и т.д.)
52% 43%
3 Предсказание продаж продуктов или услуг 34% 36%
4 Предотвращение мошенничества и управление
финансовыми рисками
28% 27%
5 Анализ интернет-активности (clickstream) 11% 26%
6 Выявление рисков ИТ безопасности 23% 25%
7 Анализ активности в социальных сетях для
потребительского сегмента
18% 24%
8 Анализ сенсорных данных, web-логов, и т.д. 22% 23%
9 На данный момент не рассматривается 15% 14%
Зачем это нужно
Большие Данные и Бизнес
(*) По данным 2014 Analytics, BI, and Information Management Survey by Information Week
1
1
9
2
15
2
6
1
1
3
Большие
Данные
«Пик Завышенных
Ожиданий»
«Плато
продуктивности»
Ожидания
…
Время
~5-10 лет
2012
2013
Степень зрелости решений
Большие Данные и Бизнес
(*) Gartner's 2013 Hype Cycle for Emerging Technologies…
 Многочисленные поставщики
инструментов и решений
 Первые успешные внедрения
в корпоративном секторе
 Консолидация поставщиков
 Негативные публикации в
прессе
 2й-3й раунд венчурных
проектов
 <5% потенциальных
пользователей
 Продукты и сервисы 2го
поколения
4
Транзакционные БД и
приложения
Приложения в Облаке
Большие
Транзакционные
Данные
OLAP и ПАК для ХД
Большие
Данные
Взаимодействия
Соц. сети, Web Logs
Устройства,
сенсоры
Документы и эл. письма
Volume
Variety
Velocity
Большие Данные (Big Data)
Hadoop и NoSQL
Hadoop
 Хранение и обработка
больших объёмов
данных
 и частично- и
неструктурированных
данных
NoSQL
 Быстро-меняющиеся
модели данных
 Простота управления
 Гибкая разработка
 Высоконагруженные и
распределенные
приложения
Кластерные
платформы
Обработка Больших Данных
 Стоимость масштабирования
 Стоимость лицензий и
внедрения
5
Опасения и Риски
Большие Данные и Бизнес
• Экспертов не хватает, они дороги 47% (+9%)
• Инструменты:
• Нужных просто нет 20% (+2%)
• Те, что есть, - не совместимы 19%
• Сложны в освоении 18% (+1%)
Ресурсы
• Не очевидна экономическая
эффективность бизнес инициатив Больших
Данных 35% (+4%)Экономика$?
• Качество данных 27% (+6%)Качество
данных
(*)По данным 2014 Analytics, BI, and Information Management Survey by Information Week
• Доступность данных 17% (+4% **)Данные
недоступны
(**) По сравнению с данными за 2013 г.
6
Данные
недоступны
Собственно
Работа с
Большими
Данными
Загрузка Данных,
Интеграция,
Качество Данных
70-80% трудозатрат в проектах
Больших Данных –
Интеграция Данных и обеспечение
Качества Данных
8
• Ускорение разработки
продуктов и услуг
• Высвобождение
ресурсов
• Задачи подготовки
данных -
доступным
разработчикам
PowerCenter
Перенос фокуса с «ручной» интеграции на продуктивную работу
Трудоёмкость проектов Больших Данных
Время и ресурсы на
аналитику и другие
продуктивные задачи
Время и ресурсы на подготовку данных (миграция, парсинг,
профилирование, очистка, трансформация, привязка)
Кодирование
С исполь-
зованием
инструментария
Informatica
или экономия!
(*) Comparative costs and uses for data integration platforms by Bloor Research. Март 2014
9
Загрузка в систему Больших Данных «как есть»
Простой пример
10
Исходная
система
Целевые
системы
Графическая консоль
Прямая загрузка (вариант 1)
Генерация схемы
данных
Или промежуточные файлы (вариант 2)
Репликация изменений
 Графический интерфейс
 Гетерогенные среды
 Автоматический параллелизм
http://www.informatica.com/us/products/data-replication
РСУБД
ПАК
Hadoop
Очереди
На основе журналов
Пакетная
Без необходимости программирования
WebSphere MQ
JMS
MSMQ
SAP NetWeaver XI
JD Edwards
Lotus Notes
Oracle E-Business
PeopleSoft
Oracle
DB2 UDB
DB2/400
SQL Server
Sybase
ADABAS
Datacom
DB2
IDMS
IMS
Word, Excel
PDF
StarOffice
WordPerfect
Email (POP, IMPA)
HTTP
Informix
Teradata
Netezza
ODBC
JDBC
VSAM
C-ISAM
Binary Flat Files
Tape Formats…
Web Services
TIBCO
webMethods
SAP NetWeaver
SAP NetWeaver BI
SAS
Siebel
Messaging,
and Web Services
Relational and
Flat Files
Mainframe
and Midrange
Unstructured
Data and Files Flat files
ASCII reports
HTML
RPG
ANSI
LDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP
Hewitt
SAP By Design
Oracle OnDemand
Packaged
Applications
Industry
Standards
XML Standards
SaaS/BPO
Social Media
Facebook
Twitter
LinkedInEMC/Greenplum
Vertica
AsterData
MPP Appliances
Разнообразие форматов и типов источников
11
http://www.informatica.com/us/products/data-integration/powerexchange/
• «Не пытайтесь строить
законченную систему
Больших Данных …
технологии развиваются
слишком быстро в
настоящее время…»
Нужно ли ставить всё на Большие Данные?
12(*) Ральф Кимбалл Ralph Kimball Newly Emerging Best Practices for Big Data
В обозримом будущем
системы Больших Данных
будут сосуществовать с
традиционными в
корпоративном ИТ
ландшафте.
• «В ближайшем будущем
поддерживайте баланс
технологий, включая
Hadoop, традиционные
кластерные вычисления,
СУБД…»
Разгрузка Корпоративного Хранилища Данных
Большой пример
Корпоративное Хранилище Данных
Корпоративные
Приложения
Операционные Хранилища
Данных (ODS)
Транзакци
онные
системы
Business Intelligence
Hadoop
Load
… Job 2Job 1
LoadExtract Transform
Job y
Job x
…
Запросы
 Визуальная разработка
 Знание Hadoop не требуется
 Трансформации данных
выполняются в Hadoop (или
ПАК) без лишнего
копирования данных
13
LoadExtract Transform Запросы
Качество
данных
= Качество бизнес-процессов и решений
Качество Данных
Согласо-
ванность
Полнота
Досто-
верность
Точность
Актуаль-
ность
15
Как процесс уровня предприятия
Качество Данных
Анализ
1. Профилирование данных 2. Определение
целевых показателей
качества данных
3. Проектирование и
разработка правил
качества данных
5. Мониторинг
фактических
показателей качества
данных относительно
целевых
Улучшение
4. Внедрение правил в
платформе интеграции
данных
16
Data Steward
Разработчик Владелец
данных
Аналитик
Визуализация
Анализ эмоциональной
окраски высказываний
Data Mining,
Предиктивная
аналитика
Корпоративное
Хранилище
Данных
Платформа Informatica
Обработка, расчёт
показателей качества,
анализ всех данных
Результаты
ИнтеграцияБольшихДанных
Бизнес-
пользователь
Качество данных & управление
Соц.сети, Web-логи
Устройства и сенсоры
Документы и
эл.почта
Приложения,
мейнфреймы
платежи, сделки
Клиент
Сущ-ти
Справочные данные
и т.д.
Инстр-ты
Data Steward
К-во данных,
Управление
правилами
Разработчик
Выверка и
исправление
Владелец данных
Мониторинг и
управление
Профилирование
Аналитик
17
Удобные интерфейсы для ИТ и Бизнес-пользователей
Экономика$?
Как оценить бизнес-инициативы Больших Данных?
Экономическая эффективность
19
 Международный опыт клиентов Informatica
 Партнёры Informatica в России и СНГ
• Знают ваш бизнес
• И технологии
Экспертов не хватает,
они дороги (47%)
Нет необходимых
инструментов (20%)
Инструменты не
совместимы (19%)
Инструменты сложны
в освоении (18%)
Ресурсы
Какие люди нужны?
Big Data
21
(*) Дрю Конвей http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
$
И незаменимые специалисты
Большие данные
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY;
Hive-QL
1.Интеграция данных – работа технолога,
не кодировщика.
2.Поток работ транслируется в
специфические команды среды, например
СУБД или Hadoop
3.Гораздо проще в поддержке и развитии,
чем «некий скрипт».
4.Нет риска, что никто не разберётся в
«самописном» сценарии загрузки
MapReduce
UDF
Vibe – виртуальная машина данных. Её код
развёрнут прямо на узлах кластера Hadoop
22
= Удалённые среды разработки и тестирования
Аутсорсинг?
Атрибут Значение
Name Эдгар Кодд
SSN 556-12-5697
Account Number 1565-859-2565
Phone number 818-223-5755
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Атрибут Значение
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Не маскированные данные
Маскированные данные
Распрацоўшчык
Field Description
Name Алёша Попович
SSN 556-36-9999
Account Number 1565-333-3332
Phone number 818-555-5555
Product Ипотека 30 лет
Balance $560,000
Loan Amount $720,000
Маскированные данные
Developer
 Безопасные среды с
маскированными данными
 Возможно только с
подмножеством данных
промышленной системы
http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/
23
О Компании Informatica
• Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих
аналитических агентств (Gartner, Forrester) на протяжении 9 лет.
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
25
$0
$100 000 000
$200 000 000
$300 000 000
$400 000 000
$500 000 000
$600 000 000
$700 000 000
$800 000 000
$900 000 000
$1 000 000 000• Год основания: 1993
• Прибыль за 2013 г. : 948.2 млн.
долларов США
• Средний рост прибыли в год
(CAGR): 17%
• Сотрудники: 3,080+
• Партнёры: 450+
• Крупнейшие SI, ISV, OEM,
консалтинговые компании, лидеры
рынка (SaaS, социальные сети)
• Клиенты: Over 5,000
• Клиенты в 82 странах
• Прямое присутствие в 28 странах
• 1е место в рейтинге Customer Loyalty
Rankings (7 лет подряд)
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
26
• Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры
исследования и разработки по направлениям «Репликация Данных» и
«Управление Мастер-Данными» в Санкт-Петербурге и Казани
• Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные
компании и Розничные сети используют продукты Informatica для целей
отчетности, аналитики, маркетинга, привлечения и удержания клиентов
• 6 сертифицированных системных интеграторов
Компания Informatica В России и СНГ
27
Спасибо за внимание!
Будем рады ответить на ваши
вопросы на нашем стенде
www.informatica.com/bigdata
OSPconf Big Data Forum 2014 Ilya Gershanov

More Related Content

What's hot

6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
Elizaveta Alekseeva
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Ilya Gershanov
 
Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Anton Petrov
 
4 sas and big data short
4 sas and big data short4 sas and big data short
4 sas and big data short
antishmanti
 
Стратегия Microsoft
Стратегия MicrosoftСтратегия Microsoft
Стратегия Microsoft
Dell_Russia
 
Bios power bi о нас (RU)
Bios power bi о нас (RU)Bios power bi о нас (RU)
Bios power bi о нас (RU)
Oleksandr18
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных
Yuri Yashkin
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
Sergey Makrushin
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
Сергей Макрушин
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
Yuri Yashkin
 
Управление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell SoftwareУправление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell Software
Dell_Russia
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Denodo
 
Преимущества Dell
Преимущества DellПреимущества Dell
Преимущества Dell
Dell_Russia
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
antishmanti
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
Andrey Kozachek
 
#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT
Yuri Yashkin
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данных
Elizaveta Alekseeva
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
Dell_Russia
 
Использование PI Event Frames для сокращения времени анализа причин неисправн...
Использование PI Event Frames для сокращения времени анализа причин неисправн...Использование PI Event Frames для сокращения времени анализа причин неисправн...
Использование PI Event Frames для сокращения времени анализа причин неисправн...
Elizaveta Fateeva
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Yury Petrov
 

What's hot (20)

6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных6 важнейших качеств платформы для анализа Больших данных
6 важнейших качеств платформы для анализа Больших данных
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"Антон Петров "ЦОД во "времена перемен"
Антон Петров "ЦОД во "времена перемен"
 
4 sas and big data short
4 sas and big data short4 sas and big data short
4 sas and big data short
 
Стратегия Microsoft
Стратегия MicrosoftСтратегия Microsoft
Стратегия Microsoft
 
Bios power bi о нас (RU)
Bios power bi о нас (RU)Bios power bi о нас (RU)
Bios power bi о нас (RU)
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Решения HPE Software для Больших данных
Решения HPE Software для Больших данныхРешения HPE Software для Больших данных
Решения HPE Software для Больших данных
 
Управление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell SoftwareУправление ИТ-инфраструктурой с технологиями Dell Software
Управление ИТ-инфраструктурой с технологиями Dell Software
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
Преимущества Dell
Преимущества DellПреимущества Dell
Преимущества Dell
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
 
#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT#DisccovertheNEW Micro Focus с #командой MONT
#DisccovertheNEW Micro Focus с #командой MONT
 
Восемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данныхВосемь подводных камней на пути к внедрению аналитики Больших данных
Восемь подводных камней на пути к внедрению аналитики Больших данных
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
Использование PI Event Frames для сокращения времени анализа причин неисправн...
Использование PI Event Frames для сокращения времени анализа причин неисправн...Использование PI Event Frames для сокращения времени анализа причин неисправн...
Использование PI Event Frames для сокращения времени анализа причин неисправн...
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 

Similar to OSPconf Big Data Forum 2014 Ilya Gershanov

OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
Ilya Gershanov
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
BranchMarketing
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
 
5 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_20155 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_2015
trenders
 
Big data
Big dataBig data
Big data
mikeshagiev
 
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
MobileUp
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
Ipo Board
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
queryhunter
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
Evgeniy Pavlovskiy
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
Newprolab
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
Timur Bagirov
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
Cisco Russia
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
Dmitry Guzenko
 
Postgre sq lforbankitv2
Postgre sq lforbankitv2Postgre sq lforbankitv2
Postgre sq lforbankitv2
Kristina Prihodko
 
Технологии Microsoft для "Интернета Вещей"
Технологии Microsoft для "Интернета Вещей"Технологии Microsoft для "Интернета Вещей"
Технологии Microsoft для "Интернета Вещей"
Quarta-Embedded
 
Стратегия информационной безопасности
Стратегия информационной безопасностиСтратегия информационной безопасности
Стратегия информационной безопасности
journalrubezh
 
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнесаФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
Экосистемные Проекты Фрии
 
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всех
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всехCloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всех
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всехClouds NN
 

Similar to OSPconf Big Data Forum 2014 Ilya Gershanov (20)

OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
5 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_20155 dell softtware_minsk_june_25_2015
5 dell softtware_minsk_june_25_2015
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
Мобильная разработка и IoT, machine learning, VR. Специфика проектов с точки ...
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
 
Обеспечение и контроль качества услуг
Обеспечение и контроль качества услугОбеспечение и контроль качества услуг
Обеспечение и контроль качества услуг
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
Postgre sq lforbankitv2
Postgre sq lforbankitv2Postgre sq lforbankitv2
Postgre sq lforbankitv2
 
Технологии Microsoft для "Интернета Вещей"
Технологии Microsoft для "Интернета Вещей"Технологии Microsoft для "Интернета Вещей"
Технологии Microsoft для "Интернета Вещей"
 
Стратегия информационной безопасности
Стратегия информационной безопасностиСтратегия информационной безопасности
Стратегия информационной безопасности
 
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнесаФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
ФРИИ интернет предпринимательство - Приложения и сервисы для бизнеса
 
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всех
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всехCloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всех
CloudsNN 2013 Мызгин Игорь. Есть ли жизнь за мкадом или облака для всех
 

OSPconf Big Data Forum 2014 Ilya Gershanov

  • 1. Факторы успеха проектов Больших Данных Илья Гершанов igershanov@informatica.com
  • 2. Большие Данные (Big Data) 2 Data Velocity (Скорость) Data Volume (Объём) Data Variety (Разнообразие) GB TB В настоящее время обозначает класс задач обработки данных, которые не могут быть эффективно решены с помощью традиционных инструментов и подходов. 2008 г. - Редактор журнала Nature Клиффорд Линч (Clifford Lynch) впервые употребляет термин Big Data. (*) https://en.wikipedia.org/wiki/Big_data 2001 г. – Сотрудник Gartner Даг Лени (Doug Laney) вводит понятие (3xV) в оборот. MB PB
  • 3. № Задача 2013 2014 За год% 1 Предсказание поведения клиента 45% 44% 2 Поиск корреляций в разнородных данных (интернет, гео-, транзакции и т.д.) 52% 43% 3 Предсказание продаж продуктов или услуг 34% 36% 4 Предотвращение мошенничества и управление финансовыми рисками 28% 27% 5 Анализ интернет-активности (clickstream) 11% 26% 6 Выявление рисков ИТ безопасности 23% 25% 7 Анализ активности в социальных сетях для потребительского сегмента 18% 24% 8 Анализ сенсорных данных, web-логов, и т.д. 22% 23% 9 На данный момент не рассматривается 15% 14% Зачем это нужно Большие Данные и Бизнес (*) По данным 2014 Analytics, BI, and Information Management Survey by Information Week 1 1 9 2 15 2 6 1 1 3
  • 4. Большие Данные «Пик Завышенных Ожиданий» «Плато продуктивности» Ожидания … Время ~5-10 лет 2012 2013 Степень зрелости решений Большие Данные и Бизнес (*) Gartner's 2013 Hype Cycle for Emerging Technologies…  Многочисленные поставщики инструментов и решений  Первые успешные внедрения в корпоративном секторе  Консолидация поставщиков  Негативные публикации в прессе  2й-3й раунд венчурных проектов  <5% потенциальных пользователей  Продукты и сервисы 2го поколения 4
  • 5. Транзакционные БД и приложения Приложения в Облаке Большие Транзакционные Данные OLAP и ПАК для ХД Большие Данные Взаимодействия Соц. сети, Web Logs Устройства, сенсоры Документы и эл. письма Volume Variety Velocity Большие Данные (Big Data) Hadoop и NoSQL Hadoop  Хранение и обработка больших объёмов данных  и частично- и неструктурированных данных NoSQL  Быстро-меняющиеся модели данных  Простота управления  Гибкая разработка  Высоконагруженные и распределенные приложения Кластерные платформы Обработка Больших Данных  Стоимость масштабирования  Стоимость лицензий и внедрения 5
  • 6. Опасения и Риски Большие Данные и Бизнес • Экспертов не хватает, они дороги 47% (+9%) • Инструменты: • Нужных просто нет 20% (+2%) • Те, что есть, - не совместимы 19% • Сложны в освоении 18% (+1%) Ресурсы • Не очевидна экономическая эффективность бизнес инициатив Больших Данных 35% (+4%)Экономика$? • Качество данных 27% (+6%)Качество данных (*)По данным 2014 Analytics, BI, and Information Management Survey by Information Week • Доступность данных 17% (+4% **)Данные недоступны (**) По сравнению с данными за 2013 г. 6
  • 8. Собственно Работа с Большими Данными Загрузка Данных, Интеграция, Качество Данных 70-80% трудозатрат в проектах Больших Данных – Интеграция Данных и обеспечение Качества Данных 8
  • 9. • Ускорение разработки продуктов и услуг • Высвобождение ресурсов • Задачи подготовки данных - доступным разработчикам PowerCenter Перенос фокуса с «ручной» интеграции на продуктивную работу Трудоёмкость проектов Больших Данных Время и ресурсы на аналитику и другие продуктивные задачи Время и ресурсы на подготовку данных (миграция, парсинг, профилирование, очистка, трансформация, привязка) Кодирование С исполь- зованием инструментария Informatica или экономия! (*) Comparative costs and uses for data integration platforms by Bloor Research. Март 2014 9
  • 10. Загрузка в систему Больших Данных «как есть» Простой пример 10 Исходная система Целевые системы Графическая консоль Прямая загрузка (вариант 1) Генерация схемы данных Или промежуточные файлы (вариант 2) Репликация изменений  Графический интерфейс  Гетерогенные среды  Автоматический параллелизм http://www.informatica.com/us/products/data-replication РСУБД ПАК Hadoop Очереди На основе журналов Пакетная
  • 11. Без необходимости программирования WebSphere MQ JMS MSMQ SAP NetWeaver XI JD Edwards Lotus Notes Oracle E-Business PeopleSoft Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP Informix Teradata Netezza ODBC JDBC VSAM C-ISAM Binary Flat Files Tape Formats… Web Services TIBCO webMethods SAP NetWeaver SAP NetWeaver BI SAS Siebel Messaging, and Web Services Relational and Flat Files Mainframe and Midrange Unstructured Data and Files Flat files ASCII reports HTML RPG ANSI LDAP EDI–X12 EDI-Fact RosettaNet HL7 HIPAA ebXML HL7 v3.0 ACORD (AL3, XML) XML LegalXML IFX cXML AST FIX Cargo IMP MVR Salesforce CRM Force.com RightNow NetSuite ADP Hewitt SAP By Design Oracle OnDemand Packaged Applications Industry Standards XML Standards SaaS/BPO Social Media Facebook Twitter LinkedInEMC/Greenplum Vertica AsterData MPP Appliances Разнообразие форматов и типов источников 11 http://www.informatica.com/us/products/data-integration/powerexchange/
  • 12. • «Не пытайтесь строить законченную систему Больших Данных … технологии развиваются слишком быстро в настоящее время…» Нужно ли ставить всё на Большие Данные? 12(*) Ральф Кимбалл Ralph Kimball Newly Emerging Best Practices for Big Data В обозримом будущем системы Больших Данных будут сосуществовать с традиционными в корпоративном ИТ ландшафте. • «В ближайшем будущем поддерживайте баланс технологий, включая Hadoop, традиционные кластерные вычисления, СУБД…»
  • 13. Разгрузка Корпоративного Хранилища Данных Большой пример Корпоративное Хранилище Данных Корпоративные Приложения Операционные Хранилища Данных (ODS) Транзакци онные системы Business Intelligence Hadoop Load … Job 2Job 1 LoadExtract Transform Job y Job x … Запросы  Визуальная разработка  Знание Hadoop не требуется  Трансформации данных выполняются в Hadoop (или ПАК) без лишнего копирования данных 13 LoadExtract Transform Запросы
  • 15. = Качество бизнес-процессов и решений Качество Данных Согласо- ванность Полнота Досто- верность Точность Актуаль- ность 15
  • 16. Как процесс уровня предприятия Качество Данных Анализ 1. Профилирование данных 2. Определение целевых показателей качества данных 3. Проектирование и разработка правил качества данных 5. Мониторинг фактических показателей качества данных относительно целевых Улучшение 4. Внедрение правил в платформе интеграции данных 16 Data Steward Разработчик Владелец данных Аналитик
  • 17. Визуализация Анализ эмоциональной окраски высказываний Data Mining, Предиктивная аналитика Корпоративное Хранилище Данных Платформа Informatica Обработка, расчёт показателей качества, анализ всех данных Результаты ИнтеграцияБольшихДанных Бизнес- пользователь Качество данных & управление Соц.сети, Web-логи Устройства и сенсоры Документы и эл.почта Приложения, мейнфреймы платежи, сделки Клиент Сущ-ти Справочные данные и т.д. Инстр-ты Data Steward К-во данных, Управление правилами Разработчик Выверка и исправление Владелец данных Мониторинг и управление Профилирование Аналитик 17 Удобные интерфейсы для ИТ и Бизнес-пользователей
  • 19. Как оценить бизнес-инициативы Больших Данных? Экономическая эффективность 19  Международный опыт клиентов Informatica  Партнёры Informatica в России и СНГ • Знают ваш бизнес • И технологии
  • 20. Экспертов не хватает, они дороги (47%) Нет необходимых инструментов (20%) Инструменты не совместимы (19%) Инструменты сложны в освоении (18%) Ресурсы
  • 21. Какие люди нужны? Big Data 21 (*) Дрю Конвей http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram $
  • 22. И незаменимые специалисты Большие данные SELECT T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY, customer.C_NAME, customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY FROM ( SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx FROM lineitem GROUP BY L_ORDERKEY ) T1 JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY) JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY) JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY) WHERE nation.N_NAME = 'UNITED STATES' ) T2 INSERT OVERWRITE TABLE TARGET1 SELECT * INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(ORDERKEY2) GROUP BY CUSTKEY; Hive-QL 1.Интеграция данных – работа технолога, не кодировщика. 2.Поток работ транслируется в специфические команды среды, например СУБД или Hadoop 3.Гораздо проще в поддержке и развитии, чем «некий скрипт». 4.Нет риска, что никто не разберётся в «самописном» сценарии загрузки MapReduce UDF Vibe – виртуальная машина данных. Её код развёрнут прямо на узлах кластера Hadoop 22
  • 23. = Удалённые среды разработки и тестирования Аутсорсинг? Атрибут Значение Name Эдгар Кодд SSN 556-12-5697 Account Number 1565-859-2565 Phone number 818-223-5755 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Атрибут Значение Name Алёша Попович SSN 556-36-9999 Account Number 1565-333-3332 Phone number 818-555-5555 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Не маскированные данные Маскированные данные Распрацоўшчык Field Description Name Алёша Попович SSN 556-36-9999 Account Number 1565-333-3332 Phone number 818-555-5555 Product Ипотека 30 лет Balance $560,000 Loan Amount $720,000 Маскированные данные Developer  Безопасные среды с маскированными данными  Возможно только с подмножеством данных промышленной системы http://www.informatica.com/us/solutions/application-information-lifecycle-management/test-data-management/ 23
  • 25. • Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 9 лет. #1 независимый поставщик решений для интеграции данных О Компании Informatica 25
  • 26. $0 $100 000 000 $200 000 000 $300 000 000 $400 000 000 $500 000 000 $600 000 000 $700 000 000 $800 000 000 $900 000 000 $1 000 000 000• Год основания: 1993 • Прибыль за 2013 г. : 948.2 млн. долларов США • Средний рост прибыли в год (CAGR): 17% • Сотрудники: 3,080+ • Партнёры: 450+ • Крупнейшие SI, ISV, OEM, консалтинговые компании, лидеры рынка (SaaS, социальные сети) • Клиенты: Over 5,000 • Клиенты в 82 странах • Прямое присутствие в 28 странах • 1е место в рейтинге Customer Loyalty Rankings (7 лет подряд) #1 независимый поставщик решений для интеграции данных О Компании Informatica 26
  • 27. • Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры исследования и разработки по направлениям «Репликация Данных» и «Управление Мастер-Данными» в Санкт-Петербурге и Казани • Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов • 6 сертифицированных системных интеграторов Компания Informatica В России и СНГ 27
  • 28. Спасибо за внимание! Будем рады ответить на ваши вопросы на нашем стенде www.informatica.com/bigdata