SlideShare a Scribd company logo
Шесть важнейших качеств
платформы для анализа
Больших данных
Цифровая эра требует высоких скоростей.
Успевает ли за временем ваше хранилище данных?
2
Краткий обзор
Существующие во многих организациях аналитические решения
уже не справляются с растущими объемами данных. Согласно результатам
недавних исследований Hewlett Packard Enterprise, 66 % респондентов
полагают, что имеющиеся у них системы не способны анализировать нужные
объемы данных; по мнению 65 % опрошенных, запросы обрабатываются
слишком медленно или вызывают сбой; 43 % считают, что существующее
решение исчерпало свои возможности1
. При этом оперативный
и качественный анализ данных требуется все чаще.
Вы прекрасно понимаете, чем это грозит. Стремительный рост затрат
и сложности в управлении устаревшим хранилищем данных изматывают
компанию и приближают ее коллапс. В то же время модернизация
аналитической платформы Больших данных открывает новые источники
дохода — это возможность монетизировать данные, повысить лояльность
клиентов, оптимизировать трафик и обеспечить соответствие
законодательным нормам.
Правильно подобранная и установленная платформа для анализа Больших
данных усилит ваши конкурентные преимущества и поможет добиться
блестящих результатов. Как же выбрать оптимальную архитектуру
аналитики, обладающую необходимым запасом прочности, не наносящую урон
даже скромному бюджету и требующую минимальной адаптации процессов и
подходов?
Ниже перечислены шесть основных качеств, которыми должна обладать
такая платформа. Возможно, наши советы покажутся вам неожиданными
и заставят задуматься: следует учитывать не только количество данных и
глубину аналитики, но и производительность системы. Цифровая эра требует
высоких скоростей. Новая платформа должна ускорить извлечение полезных
сведений из массивов данных — ведь эти сведения помогут оптимизировать
процессы и быстрее получать желаемые результаты. Другими словами, будущее
принадлежит быстрому бизнесу.
Содержание
2	 Краткий обзор
3	 Ключевые требования
	 к платформе аналитики
	 Больших данных
3	 #1: Максимальное
	 быстродействие
4	 #2: Способность вмещать
	 огромные объемы данных
4	 #3: Совместимость с
	 имеющимися инструментами
5	 #4: Опора на Hadoop и
	 повышение эффективности
	 этой платформы
6	 #5: Оказание помощи
	 аналитикам
6	 #6: Наличие функций
	 расширенной аналитики
7	 HPE Vertica: уникальная
	 по эффективности
	 платформа аналитики
	 Больших данных
8	 Подробнее о HPE Vertica
1
Исследование TechValidate, декабрь
2015 г.
3
Ключевые требования к платформе для анализа
Больших данных
Очевидно, что выбранная вами платформа должна отвечать широкому спектру
требований. Вот шесть главных критериев.
#1: Максимальное быстродействие
Раз уж мы заговорили о современных скоростях, важно понять, что это означает
применительно к аналитической платформе Больших данных. Если совсем
коротко: пользователь, сделавший запрос, не должен ждать результата. Ответ
должен выдаваться моментально, с нужным качеством и без замедления других
процессов. Платформа должна обеспечивать высокую производительность
существующих приложений, позволять разрабатывать новые аналитические
алгоритмы, а также легко масштабироваться — понятно, предсказуемо и с
разумными затратами.
Выполнение этих требований предполагает использование колоночной
архитектуры СУБД (вместо традиционной строчной, не поддерживающей
параллельную обработку запросов) и технологии массивно-параллельной
обработки данных (МРР). Почему именно их? Колоночная архитектура
минимизирует нагрузку на каналы ввода-вывода (именно эта нагрузка чаще всего
снижает скорость обработки данных) и, кроме того, обеспечивает максимальные
возможности сжатия — вчетверо или даже впятеро сильнее, чем строчная
СУБД. А хранилища данных MPP обычно масштабируются линейно: при
удвоении дискового пространства двухузлового хранилища удваивается и его
производительность.
Сочетание колоночного дизайна и МРР не только обеспечивает мощное
масштабирование производительности (в 100–1000 раз), но и позволяет
устанавливать более низкие и прозрачные тарифы, например потерабайтный
(вместо традиционной оплаты по числу процессоров, узлов или пользователей).
Каков же конечный результат? Значительное увеличение производительности и
возможность снижения общей стоимости анализа Больших данных.
«Более 75 %
отраслевых
лидеров внедрили
у себя колоночные
базы данных», —
Aberdeen Group
0
10
20
30
40
50
60
70
80
Процентреспондентов
Колоночная база данных
Отраслевые лидеры76 %
37 %
28 %
57 %
25 % 23 %
54 %
30 %
14 %
Аналитика в режиме
реального времени
Середняки
Предиктивная/
расширенная
аналитика
Отстающие
Рисунок 1. Степень проникновения ключевых характеристик платформ
для анализа Больших данных: Aberdeen Group2
4
#2: Способность вмещать и обрабатывать огромные объемы данных
Конечно, сама по себе скорость работы мало что дает: такая аналитическая
платформа должна хранить и контролировать максимальные объемы
данных. Сегодня речь пойдет о гигабайтах или терабайтах, но завтра вам уже
понадобятся петабайты.
Массовый параллелизм — идеальная технология для масштабирования
аналитической обработки данных: она задействует и системы хранения,
и вычислительные возможности сразу нескольких компьютеров — целого
кластера. Масштабировать можно не только производительность, но и
способность системы обрабатывать огромные потоки входящих данных. К
тому же использование технологии МРР в платформе, рассчитанной на работу
со структурированными Большими данными, способствует ускоренному
выполнению аналитических процессов: структурированные данные
оптимизированы для аналитики, поэтому в них проще найти необходимую
информацию, при этом точность поиска возрастает.
СУБД, предназначенные для работы с неструктурированными данными, не
всегда можно масштабировать до размеров, доступных для колоночных СУБД,
рассчитанных на структурированную информацию. Тем не менее, платформы
аналитики Больших данных могут содержать функции, повышающие
масштабируемость и быстродействие даже неструктурированных СУБД.
#3: Совместимость с имеющимися инструментами
Если вы уже используете программные продукты для извлечения, передачи
и загрузки (ETL) данных (например, Attunity, Informatica, Syncsort, Talend,
Pentaho) или решения для визуализации на базе SQL (Logi Analytics,
Looker, MicroStrategy, Qlik, Tableau, Talena), убедитесь, что ваша платформа
сертифицирована для работы со всеми этими инструментами, а не только с
основными. Кроме того, удостоверьтесь, что и другие средства и технологии
соответствуют новейшей (SQL 2011) версии стандарта ANSI SQL.
5
#4: Опора на Hadoop и повышение эффективности этой платформы
Hadoop — программная платформа с открытым кодом, разработанная
компанией Apache Software Foundation, — стала самым мощным игроком
на рынке аналитики Больших данных. Многие профессионалы считают, что
именно с помощью Hadoop удастся расширить аналитические возможности их
хранилищ данных. К сожалению, производительность Hadoop при обработке
конкретных запросов и использовании SQL-аналитики зачастую оказывается
намного ниже, чем производительность колоночной платформы с МРР,
применяемой для анализа Больших данных. Кроме того, поддержка на Hadoop
запросов, применяемых обычно к хранилищам данных, требует овладения
новыми навыками, приобретения нового программного обеспечения, а во
многих случаях и найма новых сотрудников.
С другой стороны, Hadoop при обработке аналитических запросов
предоставляет ряд очевидных преимуществ. Создавая озера данных,
эта платформа позволяет снижать затраты, реализуя несколько уровней
хранения данных (редко используемая информация размещается отдельно
от той, что запрашивается часто). Hadoop помогает исследовать данные и
определять их ценность для бизнеса. С помощью ETL-инструментов она
может агрегировать и подчищать данные, поступающие в организацию.
Hadoop позволяет загружать, хранить и обрабатывать структурированные,
полуструктурированные и мультиструктурированные данные, причем с
небольшими затратами. Реляционная СУБД на такое не способна.
Вам может потребоваться все сразу: воспользоваться плюсами Hadoop
и избежать снижения производительности и возможных сбоев, то есть
аналитическая платформа должна обеспечивать использование Hadoop
в качестве экономичного решения, чтобы долго хранить данные и
легко управлять ими, ускорив при этом выполнение как обычных, так и
аналитических запросов к хранилищу данных.
6
#5: Оказание помощи аналитикам
Компании уделяют все более серьезное внимание работе специалистов
по исследованию данных, включая их в штат своих ИТ-подразделений,
и платформа для анализа Больших данных призвана помочь им в двух
ключевых областях. Во-первых, новое поколение специалистов по данным
применяет для предиктивной аналитики такие инструменты, как Java, Python
и R. Аналитическая СУБД, с которой они работают, должна поддерживать и
ускорять выполнение таких запросов предиктивной аналитики.
В-вторых, с ее помощью работа аналитика увязывается с бизнес-целями. В
наши дни аналитик обычно начинает свою карьеру с должности специалиста
по статистической обработке, плохо разбирающегося в стратегических целях
бизнеса. Поскольку из-за этого его выводы могут быть неполными, неточными
или нерелевантными с точки зрения бизнес-результатов, сотрудники профильных
подразделений прибегают к помощи таких специалистов только в особых
случаях. Быстрая, эффективная, удобная и широко используемая платформа
для анализа Больших данных позволит решить извечную проблему непонимания
между бизнесом и ИТ.
#6: Наличие функций расширенной аналитики
В ряде случаев требуется углубленное знание функций аналитики SQL,
встроенных в ваше решение для работы с Большими данными. Вы должны
понимать, какую именно аналитику SQL можно применять к конкретным
массивам данных, чтобы получить адекватные результаты.
Например, если необходимо проанализировать данные, поступающие от
устройств (скажем, Интернета вещей), вам понадобятся такие функции,
как анализ временных рядов или анализ разрывов. В случае их отсутствия
придется потратить время на подготовку данных или написание специального
кода.
Для многих организаций все большее значение приобретает предиктивный
анализ. Платформа для анализа Больших данных должна не только мгновенно
подготавливать и загружать информацию, но и строить предиктивные модели
и продвинутые алгоритмы и затем развертывать их, чтобы использовать для
подсчетов с применением средств СУБД.
Эти и другие функции позволят ускорить масштабируемые в широком
диапазоне возможности машинного обучения, статистического анализа и
построения диаграмм, а аналитики смогут при этом использовать привычные
статистические пакеты и языки.
7
HPE Vertica: уникальная по эффективности
платформа для анализа Больших данных
HPE Vertica — едва ли не единственное решение, отвечающее всем
перечисленным критериям. Эта платформа гарантирует скорость,
масштабируемость, удобство использования, а также открытость, отвечающие
практически всем требованиям к аналитическим системам, которые выдвигает
современный бизнес. Она обеспечивает непревзойденную скорость (выполнение
запросов в 50–1000 раз быстрее традиционных СУБД), масштабируемость
до петабайт (хранит на каждом из серверов в 10–30 раз больше данных, чем
традиционные СУБД), открытость и простоту (можно использовать любые
средства BI и ETL, а также Hadoop) — и всё это с гораздо более низкими
затратами, чем при использовании традиционных хранилищ данных.
Не менее важно и то, что HPE Vertica — не точечное решение, а полноценная
аналитическая платформа. Она предоставляет широкий спектр возможностей —
например, консоль управления для отслеживания работы кластеров Vertica, на
которой отображаются схема кластера, его узлы, состояние сети и подробные
диаграммы. Для аварийного восстановления поврежденной или неполной
базы данных или отдельных ее объектов можно применять полное резервное
копирование. Эти и другие функции, которые при использовании менее зрелого
решения пришлось бы собирать по отдельности, включены в нашу платформу
изначально.
HPE Vertica дополняет и расширяет
возможности Hadoop. Это экономичный
масштабируемый инструмент
традиционной и расширенной
аналитики, а также расширяемая
платформа для управления данными,
помогающая извлечь максимум выгоды
из Hadoop и других современных
решений.
HPE Vertica может отправлять прямые
запросы к данным, хранящимся в Hadoop.
© Copyright 2017 Hewlett Packard Enterprise Development LP. Информация в настоящем документе может
быть изменена без предварительного уведомления. HPE предоставляет только те гарантии на свои
продукты и услуги, которые изложены в гарантийных обязательствах, прилагаемых к этим продуктам
и услугам. Никакие сведения, содержащиеся в настоящем документе, не могут рассматриваться как
дополнительные гарантии. HPE не несет ответственности за технические, редакторские и другие
ошибки в данном документе.
50-1133_ Six_critical_capabilities_for_a_Big_Data_analytics_platform-8AA4-0417-MOS
Подробнее о HPE Vertica
Опробуйте HPE Vertica в действии, воспользовавшись БЕСПЛАТНОЙ
30-дневной демоверсией. Вы можете использовать Vertica в своей среде и с
собственными данными. Решение удобно в установке и развертывании, работает
на стандартном оборудовании, виртуальных машинах или в облаке. Хотите
узнать, чем Vertica может быть полезно вашей организации? Просто заполните и
отправьте нам форму — вы получите лицензионный ключ в течение одного дня.
Дополнительная информация —
на сайте: www.vertica.com

More Related Content

What's hot

Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
CleverDATA
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
antishmanti
 
Bios power bi о нас (RU)
Bios power bi о нас (RU)Bios power bi о нас (RU)
Bios power bi о нас (RU)
Oleksandr18
 
Управление Big data платформой Почты России
Управление Big data платформой Почты РоссииУправление Big data платформой Почты России
Управление Big data платформой Почты России
Andrey Bashchenko
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
Ilya Gershanov
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
Andrey Kozachek
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
Timur Bagirov
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
Marina Payvina
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
CleverDATA
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
Dell_Russia
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3
antishmanti
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
Marina Payvina
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
Yuri Yashkin
 
Success story with customer RingCentral
Success story with customer RingCentralSuccess story with customer RingCentral
Success story with customer RingCentral
Elizaveta Alekseeva
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
Andrey Gorbunov
 
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
Anatoliy Arkhipov
 
Руководство по достижению зрелости в области аналитики Больших данных
Руководство по достижению зрелости в области аналитики Больших данныхРуководство по достижению зрелости в области аналитики Больших данных
Руководство по достижению зрелости в области аналитики Больших данных
Elizaveta Alekseeva
 
Примеры использования Hr аналитики
Примеры использования Hr аналитикиПримеры использования Hr аналитики
Примеры использования Hr аналитики
OksanaGesina
 
Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI
Marina Payvina
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleAndrey Akulov
 

What's hot (20)

Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Bios power bi о нас (RU)
Bios power bi о нас (RU)Bios power bi о нас (RU)
Bios power bi о нас (RU)
 
Управление Big data платформой Почты России
Управление Big data платформой Почты РоссииУправление Big data платформой Почты России
Управление Big data платформой Почты России
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Final sharp!
Final sharp!Final sharp!
Final sharp!
 
Splunk overview Russian
Splunk overview RussianSplunk overview Russian
Splunk overview Russian
 
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и QlikATK_BiView - инструмент эффективной интеграции 1С и Qlik
ATK_BiView - инструмент эффективной интеграции 1С и Qlik
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
3 krot riw_2015_3
3 krot riw_2015_33 krot riw_2015_3
3 krot riw_2015_3
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
 
Success story with customer RingCentral
Success story with customer RingCentralSuccess story with customer RingCentral
Success story with customer RingCentral
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
 
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
Программные решения Hewlett Packard Enterprise - RUS DOC (документация на рус...
 
Руководство по достижению зрелости в области аналитики Больших данных
Руководство по достижению зрелости в области аналитики Больших данныхРуководство по достижению зрелости в области аналитики Больших данных
Руководство по достижению зрелости в области аналитики Больших данных
 
Примеры использования Hr аналитики
Примеры использования Hr аналитикиПримеры использования Hr аналитики
Примеры использования Hr аналитики
 
Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI Новая жизнь Ваших даных с PowerBI
Новая жизнь Ваших даных с PowerBI
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 

Similar to 6 важнейших качеств платформы для анализа Больших данных

OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
Ilya Gershanov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
Denodo
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Yuri Yashkin
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
Netpeak
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
queryhunter
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
queryhunter
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
Lviv Startup Club
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)Natasha Zaverukha
 
венчурам презентация Calligraph
венчурам презентация Calligraphвенчурам презентация Calligraph
венчурам презентация Calligraph
Владимир Лосев
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
Andrey Akulov
 
Big data
Big dataBig data
Big data
mikeshagiev
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
Ipo Board
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
Sergey Gorshkov
 
Talksum dec2013 rus_generic
Talksum dec2013 rus_genericTalksum dec2013 rus_generic
Talksum dec2013 rus_generic
dartemiev
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
Sergey Gorshkov
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Ilya Gershanov
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
Dell_Russia
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
Оникс Софт
 

Similar to 6 важнейших качеств платформы для анализа Больших данных (20)

OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
Informatica Пронет (v.0.3)
Informatica   Пронет (v.0.3)Informatica   Пронет (v.0.3)
Informatica Пронет (v.0.3)
 
венчурам презентация Calligraph
венчурам презентация Calligraphвенчурам презентация Calligraph
венчурам презентация Calligraph
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
BI Pre-Sale
BI Pre-SaleBI Pre-Sale
BI Pre-Sale
 
Аналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboardАналитический обзор рынка Больших Данных от IPOboard
Аналитический обзор рынка Больших Данных от IPOboard
 
Логическая витрина для доступа к большим данным
Логическая витрина для доступа к большим даннымЛогическая витрина для доступа к большим данным
Логическая витрина для доступа к большим данным
 
Talksum dec2013 rus_generic
Talksum dec2013 rus_genericTalksum dec2013 rus_generic
Talksum dec2013 rus_generic
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
 

6 важнейших качеств платформы для анализа Больших данных

  • 1. Шесть важнейших качеств платформы для анализа Больших данных Цифровая эра требует высоких скоростей. Успевает ли за временем ваше хранилище данных?
  • 2. 2 Краткий обзор Существующие во многих организациях аналитические решения уже не справляются с растущими объемами данных. Согласно результатам недавних исследований Hewlett Packard Enterprise, 66 % респондентов полагают, что имеющиеся у них системы не способны анализировать нужные объемы данных; по мнению 65 % опрошенных, запросы обрабатываются слишком медленно или вызывают сбой; 43 % считают, что существующее решение исчерпало свои возможности1 . При этом оперативный и качественный анализ данных требуется все чаще. Вы прекрасно понимаете, чем это грозит. Стремительный рост затрат и сложности в управлении устаревшим хранилищем данных изматывают компанию и приближают ее коллапс. В то же время модернизация аналитической платформы Больших данных открывает новые источники дохода — это возможность монетизировать данные, повысить лояльность клиентов, оптимизировать трафик и обеспечить соответствие законодательным нормам. Правильно подобранная и установленная платформа для анализа Больших данных усилит ваши конкурентные преимущества и поможет добиться блестящих результатов. Как же выбрать оптимальную архитектуру аналитики, обладающую необходимым запасом прочности, не наносящую урон даже скромному бюджету и требующую минимальной адаптации процессов и подходов? Ниже перечислены шесть основных качеств, которыми должна обладать такая платформа. Возможно, наши советы покажутся вам неожиданными и заставят задуматься: следует учитывать не только количество данных и глубину аналитики, но и производительность системы. Цифровая эра требует высоких скоростей. Новая платформа должна ускорить извлечение полезных сведений из массивов данных — ведь эти сведения помогут оптимизировать процессы и быстрее получать желаемые результаты. Другими словами, будущее принадлежит быстрому бизнесу. Содержание 2 Краткий обзор 3 Ключевые требования к платформе аналитики Больших данных 3 #1: Максимальное быстродействие 4 #2: Способность вмещать огромные объемы данных 4 #3: Совместимость с имеющимися инструментами 5 #4: Опора на Hadoop и повышение эффективности этой платформы 6 #5: Оказание помощи аналитикам 6 #6: Наличие функций расширенной аналитики 7 HPE Vertica: уникальная по эффективности платформа аналитики Больших данных 8 Подробнее о HPE Vertica 1 Исследование TechValidate, декабрь 2015 г.
  • 3. 3 Ключевые требования к платформе для анализа Больших данных Очевидно, что выбранная вами платформа должна отвечать широкому спектру требований. Вот шесть главных критериев. #1: Максимальное быстродействие Раз уж мы заговорили о современных скоростях, важно понять, что это означает применительно к аналитической платформе Больших данных. Если совсем коротко: пользователь, сделавший запрос, не должен ждать результата. Ответ должен выдаваться моментально, с нужным качеством и без замедления других процессов. Платформа должна обеспечивать высокую производительность существующих приложений, позволять разрабатывать новые аналитические алгоритмы, а также легко масштабироваться — понятно, предсказуемо и с разумными затратами. Выполнение этих требований предполагает использование колоночной архитектуры СУБД (вместо традиционной строчной, не поддерживающей параллельную обработку запросов) и технологии массивно-параллельной обработки данных (МРР). Почему именно их? Колоночная архитектура минимизирует нагрузку на каналы ввода-вывода (именно эта нагрузка чаще всего снижает скорость обработки данных) и, кроме того, обеспечивает максимальные возможности сжатия — вчетверо или даже впятеро сильнее, чем строчная СУБД. А хранилища данных MPP обычно масштабируются линейно: при удвоении дискового пространства двухузлового хранилища удваивается и его производительность. Сочетание колоночного дизайна и МРР не только обеспечивает мощное масштабирование производительности (в 100–1000 раз), но и позволяет устанавливать более низкие и прозрачные тарифы, например потерабайтный (вместо традиционной оплаты по числу процессоров, узлов или пользователей). Каков же конечный результат? Значительное увеличение производительности и возможность снижения общей стоимости анализа Больших данных. «Более 75 % отраслевых лидеров внедрили у себя колоночные базы данных», — Aberdeen Group 0 10 20 30 40 50 60 70 80 Процентреспондентов Колоночная база данных Отраслевые лидеры76 % 37 % 28 % 57 % 25 % 23 % 54 % 30 % 14 % Аналитика в режиме реального времени Середняки Предиктивная/ расширенная аналитика Отстающие Рисунок 1. Степень проникновения ключевых характеристик платформ для анализа Больших данных: Aberdeen Group2
  • 4. 4 #2: Способность вмещать и обрабатывать огромные объемы данных Конечно, сама по себе скорость работы мало что дает: такая аналитическая платформа должна хранить и контролировать максимальные объемы данных. Сегодня речь пойдет о гигабайтах или терабайтах, но завтра вам уже понадобятся петабайты. Массовый параллелизм — идеальная технология для масштабирования аналитической обработки данных: она задействует и системы хранения, и вычислительные возможности сразу нескольких компьютеров — целого кластера. Масштабировать можно не только производительность, но и способность системы обрабатывать огромные потоки входящих данных. К тому же использование технологии МРР в платформе, рассчитанной на работу со структурированными Большими данными, способствует ускоренному выполнению аналитических процессов: структурированные данные оптимизированы для аналитики, поэтому в них проще найти необходимую информацию, при этом точность поиска возрастает. СУБД, предназначенные для работы с неструктурированными данными, не всегда можно масштабировать до размеров, доступных для колоночных СУБД, рассчитанных на структурированную информацию. Тем не менее, платформы аналитики Больших данных могут содержать функции, повышающие масштабируемость и быстродействие даже неструктурированных СУБД. #3: Совместимость с имеющимися инструментами Если вы уже используете программные продукты для извлечения, передачи и загрузки (ETL) данных (например, Attunity, Informatica, Syncsort, Talend, Pentaho) или решения для визуализации на базе SQL (Logi Analytics, Looker, MicroStrategy, Qlik, Tableau, Talena), убедитесь, что ваша платформа сертифицирована для работы со всеми этими инструментами, а не только с основными. Кроме того, удостоверьтесь, что и другие средства и технологии соответствуют новейшей (SQL 2011) версии стандарта ANSI SQL.
  • 5. 5 #4: Опора на Hadoop и повышение эффективности этой платформы Hadoop — программная платформа с открытым кодом, разработанная компанией Apache Software Foundation, — стала самым мощным игроком на рынке аналитики Больших данных. Многие профессионалы считают, что именно с помощью Hadoop удастся расширить аналитические возможности их хранилищ данных. К сожалению, производительность Hadoop при обработке конкретных запросов и использовании SQL-аналитики зачастую оказывается намного ниже, чем производительность колоночной платформы с МРР, применяемой для анализа Больших данных. Кроме того, поддержка на Hadoop запросов, применяемых обычно к хранилищам данных, требует овладения новыми навыками, приобретения нового программного обеспечения, а во многих случаях и найма новых сотрудников. С другой стороны, Hadoop при обработке аналитических запросов предоставляет ряд очевидных преимуществ. Создавая озера данных, эта платформа позволяет снижать затраты, реализуя несколько уровней хранения данных (редко используемая информация размещается отдельно от той, что запрашивается часто). Hadoop помогает исследовать данные и определять их ценность для бизнеса. С помощью ETL-инструментов она может агрегировать и подчищать данные, поступающие в организацию. Hadoop позволяет загружать, хранить и обрабатывать структурированные, полуструктурированные и мультиструктурированные данные, причем с небольшими затратами. Реляционная СУБД на такое не способна. Вам может потребоваться все сразу: воспользоваться плюсами Hadoop и избежать снижения производительности и возможных сбоев, то есть аналитическая платформа должна обеспечивать использование Hadoop в качестве экономичного решения, чтобы долго хранить данные и легко управлять ими, ускорив при этом выполнение как обычных, так и аналитических запросов к хранилищу данных.
  • 6. 6 #5: Оказание помощи аналитикам Компании уделяют все более серьезное внимание работе специалистов по исследованию данных, включая их в штат своих ИТ-подразделений, и платформа для анализа Больших данных призвана помочь им в двух ключевых областях. Во-первых, новое поколение специалистов по данным применяет для предиктивной аналитики такие инструменты, как Java, Python и R. Аналитическая СУБД, с которой они работают, должна поддерживать и ускорять выполнение таких запросов предиктивной аналитики. В-вторых, с ее помощью работа аналитика увязывается с бизнес-целями. В наши дни аналитик обычно начинает свою карьеру с должности специалиста по статистической обработке, плохо разбирающегося в стратегических целях бизнеса. Поскольку из-за этого его выводы могут быть неполными, неточными или нерелевантными с точки зрения бизнес-результатов, сотрудники профильных подразделений прибегают к помощи таких специалистов только в особых случаях. Быстрая, эффективная, удобная и широко используемая платформа для анализа Больших данных позволит решить извечную проблему непонимания между бизнесом и ИТ. #6: Наличие функций расширенной аналитики В ряде случаев требуется углубленное знание функций аналитики SQL, встроенных в ваше решение для работы с Большими данными. Вы должны понимать, какую именно аналитику SQL можно применять к конкретным массивам данных, чтобы получить адекватные результаты. Например, если необходимо проанализировать данные, поступающие от устройств (скажем, Интернета вещей), вам понадобятся такие функции, как анализ временных рядов или анализ разрывов. В случае их отсутствия придется потратить время на подготовку данных или написание специального кода. Для многих организаций все большее значение приобретает предиктивный анализ. Платформа для анализа Больших данных должна не только мгновенно подготавливать и загружать информацию, но и строить предиктивные модели и продвинутые алгоритмы и затем развертывать их, чтобы использовать для подсчетов с применением средств СУБД. Эти и другие функции позволят ускорить масштабируемые в широком диапазоне возможности машинного обучения, статистического анализа и построения диаграмм, а аналитики смогут при этом использовать привычные статистические пакеты и языки.
  • 7. 7 HPE Vertica: уникальная по эффективности платформа для анализа Больших данных HPE Vertica — едва ли не единственное решение, отвечающее всем перечисленным критериям. Эта платформа гарантирует скорость, масштабируемость, удобство использования, а также открытость, отвечающие практически всем требованиям к аналитическим системам, которые выдвигает современный бизнес. Она обеспечивает непревзойденную скорость (выполнение запросов в 50–1000 раз быстрее традиционных СУБД), масштабируемость до петабайт (хранит на каждом из серверов в 10–30 раз больше данных, чем традиционные СУБД), открытость и простоту (можно использовать любые средства BI и ETL, а также Hadoop) — и всё это с гораздо более низкими затратами, чем при использовании традиционных хранилищ данных. Не менее важно и то, что HPE Vertica — не точечное решение, а полноценная аналитическая платформа. Она предоставляет широкий спектр возможностей — например, консоль управления для отслеживания работы кластеров Vertica, на которой отображаются схема кластера, его узлы, состояние сети и подробные диаграммы. Для аварийного восстановления поврежденной или неполной базы данных или отдельных ее объектов можно применять полное резервное копирование. Эти и другие функции, которые при использовании менее зрелого решения пришлось бы собирать по отдельности, включены в нашу платформу изначально. HPE Vertica дополняет и расширяет возможности Hadoop. Это экономичный масштабируемый инструмент традиционной и расширенной аналитики, а также расширяемая платформа для управления данными, помогающая извлечь максимум выгоды из Hadoop и других современных решений. HPE Vertica может отправлять прямые запросы к данным, хранящимся в Hadoop.
  • 8. © Copyright 2017 Hewlett Packard Enterprise Development LP. Информация в настоящем документе может быть изменена без предварительного уведомления. HPE предоставляет только те гарантии на свои продукты и услуги, которые изложены в гарантийных обязательствах, прилагаемых к этим продуктам и услугам. Никакие сведения, содержащиеся в настоящем документе, не могут рассматриваться как дополнительные гарантии. HPE не несет ответственности за технические, редакторские и другие ошибки в данном документе. 50-1133_ Six_critical_capabilities_for_a_Big_Data_analytics_platform-8AA4-0417-MOS Подробнее о HPE Vertica Опробуйте HPE Vertica в действии, воспользовавшись БЕСПЛАТНОЙ 30-дневной демоверсией. Вы можете использовать Vertica в своей среде и с собственными данными. Решение удобно в установке и развертывании, работает на стандартном оборудовании, виртуальных машинах или в облаке. Хотите узнать, чем Vertica может быть полезно вашей организации? Просто заполните и отправьте нам форму — вы получите лицензионный ключ в течение одного дня. Дополнительная информация — на сайте: www.vertica.com