Модернизация хранилища данных для использования передовой аналитики

Брошюра
Модернизация хранилища
данных для использования
передовой аналитики

Содержание
Модернизация хранилища данных для использования самой передовой аналитики................................3
Основа колоночного хранилища....................................................................................................................................................4
Работа с Hadoop...............................................................................................................................................................................7
Гибридная архитектура Больших данных......................................................................................................................................8
Универсального решения нет.......................................................................................................................................................10
Эффективное использование корпоративного хранилища данных.............................................................. 11
Итоговые результаты.....................................................................................................................................................................12
Узнайте, как снизить затраты на хранение возрастающего объема данных о клиентах......................................................13
HPE Vertica................................................................................................................................................................... 14
Обработка больших массивов данных в наши дни....................................................................................................................14
Основные технологические требования к платформе для анализа Больших данных.........................................................14
HPE Vertica: аналитическая платформа без границ и компромиссов.....................................................................................15
Уникальная технология HPE Vertica.............................................................................................................................................15
Разнообразные модели развертывания и использования........................................................................................................16

3Модернизация хранилища данных
Модернизация хранилища
данных для использования
самой передовой аналитики
Знакомство с HPE Vertica.
Углубленное изучение данных
Обновление хранилища, предназначенного для обработки и анализа
больших объемов данных, не должно нарушать функционирования вашей
информационной среды. Благодаря низкой стоимости, высокой скорости и
масштабируемости массивно-параллельной архитектуры колоночная база
данных, в частности HPE Vertica, способна стать важнейшим элементом
гибридной архитектуры Больших данных.
Ваше хранилище данных уже не справляется с растущими рабочими
нагрузками?
Всегда есть соблазн отказаться от поддержки устаревшего хранилища,
сославшись на то, что это «вещь из прошлого», которой нет места в
архитектуре Больших данных. И все-таки не делайте этого: вы рискуете
совершить не просто ошибку, а очень дорогостоящую ошибку.
Хранилище данных постепенно устаревает, но по-прежнему является лучшей
в своем роде платформой для обработки поисковых запросов. Его архитектура
обеспечивает более высокую производительность и обходится гораздо
дешевле любых других альтернатив, в том числе таких популярных платформ,
как Hadoop и Apache Spark, которые лишь дополняют и расширяют хранилище
данных. Они способны выполнять сложнейшие задачи поиска, не подходят
для аналитической обработки запросов, что как раз и является основной
функцией хранилища данных.
Многое изменилось с тех пор, как 25 лет назад была впервые представлена
архитектура хранилища данных. На смену строчным базам данных с
непараллельной обработкой, которые лежали в основе традиционных
решений, пришли гораздо более быстрые и эффективные колоночные
платформы, где хранение данных организовано по столбцам и используется
массивно-параллельная обработка (MPP).
Новшеством является не сама MPP-обработка, а ее доступность. Десять
лет назад такие аналитические базы данных, как HPE Vertica, сделали MPP
привлекательной с экономической точки зрения, дав возможность выполнять
масштабирование с разумными затратами. Для подавляющего числа
поисковых запросов хранилище данных MPP обеспечивает очень высокую
производительность — иногда в два раза больше, чем реляционные СУБД без
параллельной обработки. При выполнении аналитических запросов колоночное
хранилище данных с массивно-параллельной обработкой работает еще быстрее.
Устаревшее хранилище данных обходится слишком дорого и слишком
медленно реагирует на запросы? Скорее всего, оно функционирует на
основе строчной базы данных без параллельной обработки, поэтому ваши
ожидания относительно его возможностей явно завышены. Аналитическое
хранилище данных, такое как HPE Vertica, позволит значительно увеличить
производительность приложений, создать новые средства анализа данных
и — главное — разработать логичную, предсказуемую и не слишком затратную
стратегию масштабирования.
Все это становится возможным благодаря тому, что многие хранилища
данных MPP масштабируются линейно: при удвоении объема дискового
пространства двухузлового хранилища с массивно-параллельной обработкой

производительность возрастает в два раза. Удобное, потерабайтное,
ценообразование в отношении HPE Vertica, аналитической СУБД с MPP,
позволяет масштабировать производительность хранилища с учетом
потребностей бизнеса. Это очень важное отличие от традиционных систем,
которые лицензируются по числу процессоров, количеству пользователей,
подключенных систем или по всем этим параметрам сразу.
«Имеющиеся в организациях системы порой обходятся слишком дорого, так
как обязательные лицензионные сборы рассчитываются исходя из количества
пользователей, подключенных систем и т. д. К тому же они работают на
базе устаревшей технологии, которая не способна справляться с Большими
данными, — поясняет Стив Сарсфилд (Steve Sarsfield), руководитель отдела
маркетинга HPE Vertica. — Платформа HPE Vertica лишена этих недостатков.
Благодаря непревзойденным возможностям масштабирования она может
справиться с самыми сложными задачами, а прозрачная модель оплаты
по терабайтам позволяет избежать лишних расходов. Все эти достоинства
обеспечивают простое и удобное масштабирование. Клиенты могут без
труда модернизировать свою ИТ-среду и существенно снижать затраты при
внедрении и использовании самой передовой аналитики».
Основа колоночного хранилища
Архитектура традиционных хранилищ данных разрабатывалась на основе
строчных реляционных СУБД, рассчитанных на обработку транзакций в
реальном времени (OLTP), таких как Oracle, DB2 и Sybase.
OLTP-системы работают на платформе, состоящей из мэйнфреймов (в случае
с Oracle и DB2) или систем с архитектурой «клиент-сервер» — NetWare, OS/2,
Unix и (позже) Windows NT. Именно поэтому базы данных OLTP, как правило,
дешевле и доступнее предшествующих платформ, таких как IMS и ADABAS,
которые работали на мэйнфреймах и из-за сложных схем оплаты крупных и
мощных компьютеров были чересчур дорогими.
Другими словами, выбор строчных СУБД в качестве основы для хранилищ
данных объясняется тем, что в то время это было лучшее — то есть самое
удобное, экономичное и мобильное — решение. Но развитие колоночных баз
данных изменило ситуацию.
В отличие от поисковых запросов OLTP, в аналитические запросы включается
лишь ряд атрибутов, а это означает, что для основной части аналитики
колоночная архитектура обеспечит максимальную производительность и
эффективность. Однако когда разрабатывались и реализовывались первые
хранилища данных, качественных колоночных СУБД еще не было. Некоторые
платформы, в частности IMS, предлагали колоночную обработку, но не были
основаны на реляционной
модели. (Более того, IMS
предлагалась только для
мэйнфреймов.)
HPE Vertica стала одной
из первых так называемых
«аналитических» (или
колоночных с массивно-
параллельной обработкой)
систем хранилищ
данных. Ее придумал
гуру в области проектирования баз данных Майкл Стоунбрейкер (Michael
Stonebraker), в свое время участвовавший в создании революционной
РСУБД Ingres и ее преемника Postgres, а также VoltDB, Tamr и множества
других замечательных СУБД и хранилищ данных. Стоунбрейкер полагал,
что, поскольку строчные базы данных устарели, колоночная платформа
значительно ускорит анализ данных, обеспечив и ряд других важнейших
преимуществ.
В аналитические поисковые запросы включается лишь
ряд атрибутов, а это означает, что для основной части
аналитики колоночное строение обеспечит максимальную
производительность и эффективность.

«Секрет колоночной СУБД — в ее непревзойденной скорости работы. В
традиционных реляционных СУБД информация хранится в строках, поэтому,
даже если вашему запросу нужны данные из одного столбца, СУБД сканирует
содержимое всех строк — каждого столбца в каждой строке. Таким образом,
с диска каждый раз считывается вся строка», — поясняет Сарсфилд. Он
отмечает, что для большинства типов аналитики необходима информация
только из одного столбца. «Применяемый сегодня подход создает большую
нагрузку на системы ввода-вывода и увеличивает время поиска данных, ведь
для ответа на один простой запрос требуется обработать очень много данных».
Второе главное преимущество колоночного хранилища заключается в том,
что его архитектура позволяет сократить объем операций ввода-вывода
данных — а это самый существенный параметр для аналитической обработки.
Третье преимущество —
эффективное сжатие
данных, обеспечивающее
в 4–5 раз более высокую
производительность, чем
традиционные СУБД.
«Колоночные СУБД
эффективно сжимают
данные. В частности, HPE
Vertica, анализируя данные, определяет, какой алгоритм сжатия из имеющихся
в ее распоряжении можно использовать», — поясняет Сарсфилд. Кроме того,
он отмечает, что колоночная архитектура HPE Vertica позволяет выполнять
позднюю материализацию — осуществлять операции со сжатыми столбцами в
оперативной памяти.
В результате производительность СУБД повышается втрое, правда, при
условии, что сжатые данные не комбинируются с данными из двух или более
сжатых столбцов (в этом случае необходимо обеспечить декомпрессию
данных всех обрабатываемых столбцов до того, как начнется работа с ними).
«Сжатие, которого нам удалось достичь, позволяет хранить данные на
сравнительно небольшом объеме дискового пространства. К тому же оно
обеспечивает гораздо более высокую производительность операций ввода-
вывода, — уточняет Сарсфилд. — Например, при работе с полями, хранящими
даты, HPE Vertica автоматически подбирает лучший алгоритм сжатия,
благодаря чему для их хранения требуется значительно меньшее дисковое
пространство».
Строчные реляционные СУБД не способны эффективно сжимать данные.
Мало того, практика показывает, что строчные СУБД, объединенные в
ходе создания сервиса хранилища данных, могут использоваться вместе
лишь при наличии программного средства поддержки принятия решений,
которое будет обеспечивать совместную работу с ними. При таком подходе
настройка и балансировка становятся более трудоемкими процедурами,
чем при использовании колоночных СУБД, причем это становится особенно
заметно по мере дальнейшего увеличения объемов данных. Кроме того, для
обеспечения нужной производительности администраторам СУБД приходится
реализовывать временные решения: материализованные представления,
вертикальное партиционирование и индексацию каждого столбца.
В результате возрастают расходы на эксплуатацию и обслуживание
хранилища данных. И чем больше объемы данных, многообразнее и сложнее
поисковые запросы, тем ниже эффективность их выполнения.
«Можно себе представить, насколько медленно будет работать традиционная
СУБД, если в базе данных имеются сотни или тысячи столбцов — все их нужно
считывать. Чтобы ускорить обработку данных, приходится реализовывать
одно или несколько обходных решений, таких как материализованные
представления или индексы, — добавляет Сарсфилд. — Эти обходные
решения имеют ограничения. Материализованные представления необходимо
Колоночная архитектура сокращает объем операций ввода-
вывода, обычно весьма значительный при анализе данных.

обновлять и поддерживать, индексы предварительно строить и т. д. В
конечном счете именно от этого и зависит их эффективность».
Колоночное хранилище — это, конечно, не волшебная палочка, ведь нет ни
одной технологии, которая чудесным образом решила бы все проблемы. Но
недостатки колоночного хранилища некритичны и могут быть сглажены при
помощи массивно-параллельной обработки данных и различных приемов,
применяемых в ходе проектирования базы данных. В частности, один из
таких недостатков заключается в том, что колоночная СУБД хранит каждый
столбец в отдельном множестве дисковых блоков. (Колоночная СУБД, как и ее
реляционный аналог, оптимизируется для физического хранения данных на
диске или в оперативной памяти. Это важное различие между СУБД, например
колоночной или РСУБД OLTP, и хранилищем данных, например Hadoop. Мы
поговорим об этом подробнее в следующем разделе.)
Развертывание колоночной СУБД в ее базовой конфигурации может
привести к замедлению операций добавления и обновления данных, а
также задержать — или усложнить — их загрузку. Чтобы избежать подобных
проблем, в колоночных СУБД, в частности в HPE Vertica, реализуются
оптимизированные технологии массивно-параллельной загрузки и
используются реляционные подходы OLAP (ROLAP) или комплексные
методы OLAP (MOLAP). Кроме того, как отмечает Сарсфилд, колоночное
проектирование позволяет применять и другие технологии оптимизации,
повышающие производительность, например блочную итерацию. Так,
несколько значений из столбца могут быть переданы от одного оператору
другому в виде блока, что оказывается более эффективным, чем
использование итераторов по кортежам в строчной схеме.
«Мы сотрудничаем с очень
крупными компаниями,
например с Facebook,
которая ежечасно загружает
в HPE Vertica более 35
ТБайт информации. Пока
им этого достаточно, но при
необходимости они смогут
увеличить загрузку до 60
ТБайт. Мы можем выделить
часть узлов для решения подобных задач загрузки, а на остальные возложить
только аналитическую обработку, — поясняет он. — Кроме того, теперь HPE
Vertica предлагает и совершенно новые функции ROLAP/MOLAP, поскольку
некоторые наши клиенты попросили их добавить».
Сейчас некоторые поставщики «встраивают» в строчные базы данные
возможности колоночного хранилища. Например, база данных Microsoft SQL
Server 2016, которая должна вскоре выйти, будет поддерживать «колоночное
индексирование», при этом ее модуль расширения PowerPivot Excel позволит
на обычных ПК использовать функции, аналогичные колоночному хранению.
Но эти продукты не только не реализуют колоночную архитектуру СУБД, но и
не обеспечивают массивно-параллельную обработку.
Если колоночная архитектура оптимальна для выполнения анализа
данных, то массивно-параллельная архитектура — для масштабирования
аналитической обработки. По словам Сарсфилда, клиенты HPE Vertica
подтверждают неоспоримое преимущество колоночной MPP с точки зрения
производительности.
«Около года назад мы попросили наших клиентов сравнить их старые
хранилища данных и новые хранилища HPE Vertica по скорости выполнения
запросов. Около 10 % ответивших заявили, что смогли увеличить
производительность на 1000 %, а 64 % добились увеличения на 100 %, —
рассказывает он. — Увеличение производительности на 1000 % означает, что
операции, которые занимали один час, теперь выполняются всего за шесть
минут, а на то, что длилось в течение восьми часов, требуется всего 48 минут».
Если колоночная архитектура оптимальна для выполнения
анализа данных, то массивно-параллельная архитектура —
для масштабирования аналитической обработки.

Работа с Hadoop
Hadoop также является средой с массивно-параллельной обработкой
данных, однако, в отличие от реляционных СУБД, Hadoop не является
СУБД, она реализует распределенную файловую систему Hadoop (HDFS),
которая обеспечивает хранение и управление данными в рамках кластерной
конфигурации узлов.
Реляционные СУБД с MPP, например HPE Vertica, тоже распределяют
данные и управляют ими в рамках кластера узлов. Основное различие между
реляционной СУБД и файловой системой (которую все-таки можно считать
в каком-то смысле базой данных) — это уровень абстракции. В большинстве
случаев СУБД реализует оптимизацию размещения и физической структуры,
логику и схему работы с данными «поверх» файловой системы. HDFS не
обладает необходимыми для этого функциями. Как и реляционная СУБД,
Hadoop может эффективно хранить и извлекать данные, которые записывает
в блоки одинакового размера, но в Hadoop нет встроенных возможностей для
сопоставления данных, хранящихся в этих блоках.
Если Hadoop использовать как платформу для выполнения SQL-запросов, то,
чтобы воспользоваться функциями, присущими реляционной СУБД, придется
внедрить технологии Hive, Impala, Drill или Spark (со Spark SQL). Однако эти
инструменты не предлагают возможностей, необходимых для управления
данными. В отличие от HPE Vertica, которая совместима с новейшей — SQL
2011 — версией стандарта ANSI SQL, платформы Hive, Impala и Spark SQL
не полностью совместимы с ANSI SQL, к тому же не поддерживают высокий
уровень параллелизма.
«С помощью Hadoop многие стремятся решить проблемы с уже имеющимися
хранилищами данных, не способных справиться со многими аналитическими
запросами, которые генерируются пользователями. В то же время, если
сравнивать производительность Hadoop и HPE Vertica при выполнении
произвольных запросов и SQL-анализа, отрыв окажется огромным: HPE
Vertica на порядок быстрее обрабатывает большинство запросов, — уточняет
Сарсфилд. — Чтобы обеспечить поддержку поисковых запросов, применяемых
к хранилищам данных на Hadoop, придется заниматься обучением имеющихся
специалистов, искать новых сотрудников и приобретать дополнительное ПО,
а для этого потребуется немало денег и времени. Перейдя на HPE Vertica,
вы сможете отказаться от прежних дорогостоящих хранилищ данных. Мы
предлагаем способ модернизировать их без больших потрясений».
Сарсфилд подчеркивает, что стратегия HPE никоим образом не направлена
против Hadoop. Более того, он отмечает, что Hadoop позволяет дополнить,
расширить и даже
превзойти некоторые
весьма важные
возможности хранилищ
данных.
Во-первых, Hadoop
функционирует на основе
распределенной файловой
системы, поэтому может
эффективно обрабатывать
буквально все типы данных. Реляционная СУБД с массивно-параллельной
обработкой, напротив, обрабатывает далеко не всё. (При этом данные за
некоторыми исключениями должны соответствовать заранее определенной
схеме.) Кроме того, реляционная СУБД с MPP проигрывает в обработке
разнородных данных: РСУБД оптимизированы для выполнения запросов, в
том числе операций со структурированными данными, представленными в
виде таблицы (с помощью языка SQL). Как мы уже отметили, Hadoop позволяет
без лишних затрат размещать, хранить и обрабатывать структурированные,
Hadoop позволяет дополнить, расширить и даже превзойти
возможности хранилищ данных по некоторым важным
направлениям.

полуструктурированные и мультиструктурированные данные. С помощью
реляционной базы данных это сделать невозможно.
По словам Сарсфилда, в HPE Vertica реализовано лучшее из этих двух
вариантов. С одной стороны, Hadoop может стать экономичной платформой
для длительного хранения данных и управления ими. С другой — с помощью
HPE Vertica клиенты смогут повысить скорость выполнения поисковых
запросов традиционного хранилища данных и систем аналитики.
«Если вы хотите хранить информацию «на всякий случай» (например,
материалы из блогов или данные Интернета вещей), HPE Vertica прекрасно
для этого подойдет. Если нужен быстрый анализ огромных объемов данных
вне зависимости от их источника, HPE Vertica — идеальный вариант», —
говорит Сарсфилд, ссылаясь на пример онлайн-агрегатора купонов
RetailMeNot, который с помощью HPE Vertica оперативно предоставляет
купоны покупателям как на сайте, так и в обычных магазинах.
«Сведения о покупателях, переходящих по ссылке и использующих купоны,
сопоставляются с информацией о тех, кто игнорирует эти предложения, —
поясняет он. — Все данные собираются в Hadoop и анализируются в HPE
Vertica».
Гибридная архитектура Больших данных
По мнению Сарсфилда, невозможно дать точный ответ на вопрос, что
лучше — хранилище данных или Hadoop. Нужно учиться использовать
их совместно. Facebook и RetailMeNot применяют в рамках гибридной
архитектуры, предназначенной для работы с Большими данными, и хранилище
данных HPE Vertica, и Hadoop.
Hadoop является
недорогой и хорошо
масштабируемой основой
для хранения данных.
По словам известного
специалиста в этой отрасли
Томаса Дэвенпорта
(Thomas Davenport),
старшего научного сотрудника Центра цифрового бизнеса Массачусетского
технологического института, хранилище на основе Hadoop обходится в
0,23 доллара за гигабайт, в то время как при использовании традиционного
хранилища данных один гигабайт стоит 19 долларов. И хотя стоимость
гигабайта хранилища в такой колоночной платформе MPP, как HPE Vertica,
гораздо ниже, чем в традиционном хранилище данных MPP или не-MPP,
Hadoop является более гибким вариантом для хранения данных.
В HPE Vertica реализовано лучшее из двух миров: Hadoop, для экономичного
длительного хранения и управления данными, и расширенная аналитика для
повышения эффективности выполнения запросов в традиционном хранилище.
Однако Facebook, RetailMeNot и другие компании не используют Hadoop вместо
прежних систем хранения данных; они обращаются к таким колоночным
платформам MPP, как HPE Vertica, чтобы дополнить свою среду хранения
данных. HPE Vertica предлагает экономичный хорошо масштабируемый
механизм и традиционной, и расширенной аналитики, а кроме того, —
масштабируемую платформу управления данными, помогающую по
максимуму использовать преимущества Hadoop.
Сарсфилд полагает, что секрет успеха заключается в том, чтобы применять
каждую платформу там, где это нужно. Вот почему платформа HPE Vertica
разработана таким образом, чтобы можно было выполнять поиск по данным,
хранящимся в Hadoop.
Платформа HPE Vertica разработана таким образом, что может
выполнять запросы по данным, хранящимся в Hadoop.

«Многие наши клиенты используют узлы Hadoop. В кластерах Hadoop они
создают "песочницы" и размещают в них данные, но при попытке выполнить
анализ этих данных выясняется, что в Hadoop нет необходимых для этого
инструментов. Клиенты не могут воспользоваться всеми возможностями
аналитики, которые предлагает HPE Vertica. Hadoop не имеет служб
каталогов метаданных и не поддерживает высокие уровни параллелизма, —
рассказывает Сарсфилд, отмечая, что поисковый механизм HPE Vertica
способен работать c аналогом колоночного хранилища, а именно с файлами
Parquet и Optimized Row Columnar (ORC), которые используются с Impala и
Hive. — Мы усовершенствовали нашу систему обработки SQL-запросов на
базе HPE Vertica таким образом, что теперь с ее помощью можно получить
прямой доступ к данным в Hadoop (например, файлам Parquet или ORC) и
проанализировать их».
В этом и состоит принцип работы HPE Haven, гибридной платформы для
обработки Больших данных, в состав которой включены HPE Vertica,
HPE IDOL (Intelligent Data Operating Layer), созданный на основе Hadoop,
и технологии HPE Distributed R. Решение HPE IDOL предназначено для
анализа текстов и мультиструктурированных данных, таких как аудио, видео
и изображения, а также любых других файлов. Distributed R — массивно-
параллельная реализация R, среды статистического программирования с
открытым исходным кодом — позволяет выполнять сразу на нескольких узлах
параллельную обработку на языке R.
«HPE Haven — это интегрированная платформа для анализа данных любых
типов и объемов. В организациях встречаются, во-первых, структурированные
данные, например от транзакционных систем и CRM. Во-вторых, есть
машинные данные, поступающие из Интернета вещей, банкоматов, различных
устройств, в том числе серверных системных журналов и т. п. Еще есть третий
поток, который мы называем "человеческими данными": голосовые сообщения,
видео, аудио, распознавание лиц и удостоверений личности. Платформа
Haven содержит три лучших в своем роде механизма, оптимизированных
для обработки каждого вида данных. В основе платформы лежит поисковый
механизм HPE Vertica, который обрабатывает структурированные
данные. Таким образом, платформа HPE Haven унаследовала от Vertica
масштабируемый
механизм анализа с
использованием запросов
стандарта ANSI SQL, —
поясняет Сарсфилд. —
HPE IDOL помогает
изучить „человеческую“
информацию: данные
из социальных
сетей, голосовые
сообщения, видео и
мультиструктурированные данные. Кроме того, у нас есть технология
Distributed R, оптимальная для предиктивной аналитики. Все три механизма
работают сообща, помогая выполнять стандартную, расширенную и
предиктивную аналитику — в любом масштабе и с той скоростью, которая вам
требуется».
«Не стоит думать, что HPE Haven — это решение всех проблем,
предупреждает Сарсфилд. — Речь идет о способе объединения и совместного
использования лучших аналитических инструментов. Все поисковые
механизмы Haven связаны между собой. Если вам понадобятся возможности
не только Distributed R, но и HPE Vertica, к вашим услугам средства
оптимизации для ускорения предиктивной аналитики, которые предлагает HPE
Vertica. Она же способна автоматически загружать данные или планировать
задачи для параллельного выполнения в Distributed R».
С помощью таких колоночных платформ, как HPE Vertica, свои
среды хранения данных модернизируют Facebook, RetailMeNot
и другие компании.

Универсального решения нет
Ни одна платформа не может идеально справиться абсолютно со всеми
аналитическими задачами. HPE Vertica — это непревзойденная платформа
для обработки запросов и расширенной аналитики структурированных или
преимущественно структурированных данных. Однако она не так хорошо
подходит для анализа мультиструктурированных данных — изображений или
видеофайлов.
«В отличие от Hadoop, платформа HPE Vertica была создана именно
для выполнения аналитических поисковых запросов, касающихся
структурированных данных. Hadoop же создавался для распределенного
хранения файлов и разнесения вычислений MapReduce между узлами
кластеров, — говорит Сарсфилд. — Расширенная аналитика в HPE Vertica
отличается от той, что выполняется в Hadoop. Hadoop идеально подходит для
анализа некоторых видов мультиструктурированных данных. Обе платформы
замечательны, просто их следует использовать для разных целей».

Хранилища данных — это огромные, чрезвычайно дорогостоящие
программные архитектуры, привязанные к еще более дорогим аппаратным
платформам.
Сбор Больших данных стал очень сложной проблемой для архитектур
хранилищ данных, не способных вместить такие объемы информации. Что
еще важнее, производительность традиционных архитектур хранилищ данных
стремительно снижается в условиях роста объемов, скорости и многообразия
Больших данных. Единственный способ «успевать» за этими изменениями —
вкладывать все больше и больше денег в улучшение работы хранилища, но, в
конечном счете, даже это может оказаться бессмысленным.
В отличие от платформы анализа Больших данных у хранилищ есть
ограничения
В наши дни данные могут поступать как из внешних, так и из внутренних
источников — от датчиков, клиентов, пациентов, транзакционных,
аналитических систем и т.д. Эти полуструктурированные и неструктурированные
данные попросту невозможно разместить в традиционных хранилищах.
Когда информация находится в хранилищах данных, к ней не так просто
получить доступ. При таком подходе данные удобно хранить, но не
использовать: чем крупнее хранилище, тем больше в нем помещается, но
найти то, что нужно, сложнее.
Без ограничений
Если вы решили потратиться на создание хранилища данных, помните, что
это только начало. Чтобы обеспечить нужный уровень производительности,
придется регулярно приобретать дополнительное оборудование и подключать
новые услуги.
Должно быть другое, более современное и экономичное решение для SQL-
анализа Больших данных.
Эффективное использование
корпоративного хранилища
данных
HPE Vertica поможет сделать аналитику данных
более доступной по цене
Преимущества HPE Vertica
Не нужны дорогостоящие
обновления оборудования
Платформа HPE Vertica — это
исключительно программное
решение для SQL-анализа.
Высокая производительность
труда сотрудников
Операции, на которые
требовалось несколько дней или
часов, выполняются за считаные
часы или секунды.
Масштабирование в широком
диапазоне
Неограниченная
масштабируемость для анализа
Больших данных.

КОМПАНИЯ
С ТРАДИЦИОННЫМ
ХРАНИЛИЩЕМ ДАННЫХ
С HPE VERTICA РЕЗУЛЬТАТЫ
Ведущий
разработчик
онлайн-игр
• Не удавалось достичь
поставленных целей
• Анализ 70 млрд строк в день в реальном
времени
• Выполнение задач в 100 раз быстрее по
сравнению с другими хранилищами данных
• Дополнительно 8 ТБайт неструктурированных
данных ежедневно в кластере из 230 узлов
• 2 ПБайт исходных данных сжаты до 500 ТБайт
• 500–600 уникальных отчетов в день
• Итого 10 000 отчетов ежедневно
• Благодаря использованию
аналитической платформы HPE
Vertica, заменившей традиционное
хранилище данных известного
вендора, сэкономлено 30 млн
долл.
Cardlytics
• До 20 часов тратилось
на обработку поискового
запроса
• В 40–80 раз быстрее (выдача результатов за
30 секунд)
• На 5 % дешевле, чем прежняя платформа
• На 90 % ниже операционная нагрузка
ИТ-персонала (специалисты, занятые
обслуживанием хранилища данных, могут
переключиться на более полезные задачи
анализа информации)
• Решение окупилось за три месяца
• Средний поток обслуживаемых
клиентов возрос в 10 раз
• 200 новых потенциальных
партнеров в неделю по сравнению
с 20 в неделю при использовании
прежней платформы
Глобальная
телекомму-
никационная
компания
• Процессы занимали 14 часов
• Лицензионные затраты
достигали 120 000
долларов за 1 ТБайт
• Процессы занимают 1 час
• Затраты на лицензию и оборудование менее
5 000 долларов за 1 ТБайт
• Сэкономлены сотни тысяч
долларов благодаря сокращению
затрат на лицензии и оборудование
Крупный
банк США
• Отсутствовала
возможность анализа
оценки кредитных карт
(их одобрение или
отклонение) в реальном
времени
• 4-узловой кластер на 80 % быстрее
12-узлового кластера и на 1/3 дешевле
• Лицензионные затраты для одного
из проектов сократились на 20 млн
долл.
• Сэкономлено 4 млн долл. за счет
снижения расходов на лицензии и
оборудование для другого проекта
• Cоглашения SLA выполняются в
полной мере
Итоговые результаты
Все чаще организации дополняют свои хранилища данных аналитической
платформой HPE Vertica или устанавливают ее взамен прежних решений, и на
то есть веские причины:
• Многомиллионная экономия (в долларовом эквиваленте) на
лицензиях и оборудовании. Благодаря оптимизированному хранилищу
вы можете хранить на сервере в 10–30 раз больше данных по сравнению
с традиционными хранилищами и еще больше сокращать затраты за счет
понятной и доступной модели ценообразования.
• Производительность на порядок выше. Анализ данных происходит почти
в реальном времени, запросы выполняются в 50–1000 раз быстрее, чем при
использовании традиционных хранилищ данных.
• Отказ от дорогостоящих и трудоемких замен оборудования. HPE
Vertica — это исключительно программное решение, поэтому вы можете
выбрать любое оборудование, которое подойдет для вашей среды. Загрузка
данных и выполнение запросов осуществляются параллельно (не нужно
отключать систему на время обновления оборудования).
• Высокая производительность. Благодаря использованию HPE Vertica
время выполнения операций сокращается с нескольких дней до часов и даже
секунд, поэтому решение аналитических задач ускоряется.
• Массивное масштабирование. Платформу для SQL-анализа можно
масштабировать, добавляя любое количество серверов стандартной
архитектуры. Кроме того, предварительно настроенная среда HPE
AppSystem for Vertica поможет вам быстрее раскрыть потенциал, скрытый в
Больших данных.

• Снижение затрат на внедрение и управление. Платформа HPE Vertica
удобна в эксплуатации и обеспечивает поддержку отраслевых стандартов,
что позволяет установить ее и настроить за считанные дни с минимальными
расходами на администрирование.
Узнайте, как снизить затраты на хранение
возрастающего объема данных о клиентах
Анализ Больших данных открывает перед операторами связи широкие
аналитические возможности для эффективного управления сетями, изучения
спроса и повышения качества обслуживания. Все это позволяет сократить
отток клиентов и укрепить позиции на рынке. Однако корпоративные хранилища
данных обходятся слишком дорого, поэтому не все компании могут хранить и
анализировать Большие данные так, как им нужно.
Обратитесь к своему менеджеру HPE по работе с клиентами и узнайте, как,
наращивая объемы подробных записей о телефонных звонках (CDR), тратить
меньше, чем при использовании традиционных СУБД и хранилищ данных.
HPE Vertica предлагает широкие возможности для работы с Большими данными.
Аналитическая платформа HPE Vertica создана специально для расширенного
анализа Больших данных. Она представляет собой массивно-параллельную
колоночную СУБД и является частью аналитической платформы HPE Haven.
HPE Vertica отличается высокой производительностью при работе со сложными
аналитическими запросами, охватывающими терабайты данных.
HPE Vertica for SQL on Hadoop — это новое предложение, которое обеспечивает
высокую производительность при выполнении поисковых запросов стандарта
ANSI SQL к данным Hadoop. Платформа интегрируется с любой распределенной
системой Hadoop. Благодаря сотрудничеству с ключевыми поставщиками —
Hortonworks, Cloudera и MapR — HPE удалось обеспечить устойчивую
производительность и соблюдение стандартов во всех перечисленных
распределенных системах.
Помимо SQL — основного языка запросов и анализа, HPE Vertica поддерживает
языки Java, Python, R и C. Более того, функция HPE Vertica Flex Zone позволяет
в ходе выполнения поиска и анализа определять и применять оптимальную
схему, чтобы работать с необычными неструктурированными данными или
данными, лишенными какой-либо структуры. Для более простого и быстрого
развертывания аналитического решения HPE предлагает образцы архитектур
и оборудование, оптимизированное для HPE Vertica, хотя следует отметить,
что какого-то специального оборудования не требуется. Кроме того, доступны
облачные версии платформы Haven.
Получите бесплатную пробную версию HPE Vertica
Подробности см. по адресу: www.vertica.com/

14HPE Vertica Analytics Platform
Обработка больших массивов данных в наши дни
В современные инфраструктуры данных информация поступает отовсюду:
из CRM и ERP, от различных сенсорных датчиков, из «Твиттера» и других
социальных сетей, блогов и лент новостей, из газораспределительных и
электрических сетей, с мобильных устройств и т. д. Неудивительно, что многие
компании сталкиваются с проблемами даже при попытке собрать и сохранить
эти объемы данных, а их анализ оказывается почти невозможным.
Сегодня на рынке представлен целый ряд инновационных платформ,
позволяющих анализировать огромные объемы и потоки разнообразных
данных. Поскольку новые данные чаще всего являются неструктурированными
или полуструктурированными (сообщения электронной почты, текстовые
документы, IM, файлы системных журналов), новые технологии должны
извлекать из них ценную информацию, чтобы компании смогли получать
невиданные прежде преимущества. Те, кто использует в своей деятельности
платформы анализа Больших данных, меняет облик целых отраслей — от
розничной торговли до здравоохранения, от телекоммуникаций до энергетики
и т. д. Именно данные помогают им удерживать клиентов, обеспечивать
соответствие требованиям регуляторов и оптимизировать трафик.
Основные технологические требования к
платформе для анализа Больших данных
На что же нужно обратить внимание при выборе платформы Больших данных?
• Управление огромными объемами данных. Вы наверняка рассчитываете
на безграничные возможности масштабирования, которые позволят хранить
значительные объемы данных или управлять ими. В наши дни за единицу
масштабирования хранилищ принимаются гигабайты или терабайты, а
завтра, быть может, речь пойдет и о петабайтах.
• Быстрая аналитика. Пользователи не любят долгих ожиданий. Чтобы
требования соглашения об уровне обслуживания (SLA) выполнялись,
аналитическая платформа должна обеспечивать необходимую скорость
поиска и быстро выполнять запросы.
• Поддержка унаследованных систем. Если при анализе Больших данных
применяются инструменты для извлечения, преобразования и загрузки
(ETL), либо визуализации на базе SQL, аналитическая платформа должна
обеспечивать надежное и мощное выполнение запросов SQL и быть
совместимой со всеми имеющимися в компании системами.
• Поддержка работы специалистов по анализу данных. Современная
аналитическая система должна поддерживать создание инновационной
предиктивной аналитики с использованием языков Java, Python и R, что
ускоряет процесс разработки.
• Расширенная аналитика. В зависимости от сценария использования
может потребоваться изучение встроенных в HPE Vertica функций анализа с
применением SQL, чтобы узнать, какие еще возможности она предлагает.
Платформа HPE Vertica
Analytics
Чтобы помочь частным
компаниям и государственным
учреждениям справиться
с обработкой растущих
объемов Больших данных,
Hewlett Packard Enterprise
предлагает аналитическую
платформу Vertica. Эта СУБД,
поддерживающая стандартный
язык запросов SQL,
обеспечивает непревзойденно
быстрый анализ Больших
данных. Платформа
поддерживает множество
моделей развертывания и
использования, в том числе
локального, созданных на
основе Hadoop и в облаке.
• Зрелая платформа
корпоративного уровня
• Максимальная
масштабируемость
• Невероятно высокая
производительность
• Совместимость с SQL-99
HPE Vertica
Следующее поколение систем для анализа
Больших данных

HPE Vertica Analytics Platform 15
HPE Vertica: аналитическая платформа
без границ и компромиссов
Платформу HPE Vertica Analytics придумал легендарный гуру баз данных
Майкл Стоунбрейкер (Michael Stonebraker), и каждая строка ее кода нацелена
на решение задач, связанных с анализом Больших данных. Зачем нужна эта
платформа? Ни для кого не секрет, что хранилища данных и традиционные
методики работы с бизнес-информацией накладывают свои ограничения, из-за
чего компаниям приходится идти на болезненные компромиссы. Аналитическая
платформа HPE Vertica отличается высокой производительностью,
масштабируемостью и удобством использования. Благодаря распределенной
колоночной архитектуре и сжатию данных она способна справляться с
любыми аналитическими запросами. HPE Vertica предлагает непревзойденную
скорость, выполняя запросы в 50–1000 раз быстрее, чем традиционные СУБД,
обеспечивает масштабирование до нескольких петабайт данных, храня на
каждом из серверов в 10–30 раз больше информации, чем традиционные СУБД,
а также открытость и простоту: работая с ней, ней можно использовать любые
средства бизнес-анализа, ETL, Hadoop и т. д., — и всё это с гораздо более
низкими затратами, чем в случае применения традиционных платформ.1
Уникальная технология HPE Vertica
Платформа HPE Vertica создавалась для устранения множества проблем,
возникающих в ходе анализа Больших данных. Благодаря наличию системы
массивно-параллельной обработки данных она способна обрабатывать
петабайты данных и успешно справляется с самыми сложными вариантами
анализа. За счет колоночного хранения информации осуществляется
эффективное сжатие данных, а время выполнения запросов сокращается
с нескольких часов до минут или с минут до секунд — прежние технологии
строчных хранилищ на это не способны. Наконец, HPE Vertica предлагает
расширенный анализ на базе SQL, используемый для широкого круга задач, —
от анализа графов до триангуляции и моделирования по методу Монте-Карло,
то есть речь идет о полнофункциональной аналитической системе.
Аналитическая платформа HPE Vertica — это колоночная реляционная СУБД,
предназначенная для решения современных аналитических задач. В отличие
от строчных СУБД, как коммерческих, так и с открытыми кодами, созданных
десятки лет назад для обработки относительно небольших объемов данных,
она предоставляет клиентам следующие преимущества:
• полная поддержка стандартного и расширенного набора аналитических
функций SQL;
• кластерный подход к хранению данных, обеспечивающий необходимую
скорость выполнения поисковых и аналитических запросов;
• эффективное сжатие данных, позволяющее экономить дисковое
пространство;
• гибкость и масштабируемость, дающие возможность повышать
производительность по мере увеличения аналитической нагрузки;
• одновременное выполнение загрузки данных и запросов к ним;
• встроенные функции предиктивной аналитики, а также возможность
использования библиотек с применением Python и R;
• снижение затрат и усилий на администрирование платформы и ее оптимизацию.
HPE Vertica обеспечивает непревзойденную масштабируемость.
Благодаря колоночной архитектуре, эффективному сжатию и массивно-
параллельной обработке данных она демонстрирует гораздо более высокую
производительность при выполнении современных аналитических запросов,
чем прежние технологии.
1
techvalidate.com/tvid/B9F-BA0-073.
Каждая версия HPE
Vertica сертифицирована
и протестирована на
совместимость с различными
средствами визуализации и
интеграции данных. Поскольку
платформа поддерживает
язык SQL и протоколы JDBC
и ODBC, пользователям не
придется тратить время и
деньги на изучение и освоение
новых технологий.
С Vertica тесно интегрированы
многие популярные системы
бизнес-аналитики и
визуализации данных, в том
числе Tableau, Microstrategy
и многие другие, а также
приложения ETL, в том числе
Informatica, Talend, Pentaho и
прочие.

16HPE Vertica Analytics Platform
Разнообразные модели развертывания и
использования
Hewlett Packard Enterprise предлагает три версии HPE Vertica: для развертывания
на локальных серверах, в облаке и на основе хранилища Hadoop.
• HPE Vertica Enterprise Edition — это модульная, локальная версия
Vertica, которая обеспечивает расширенный SQL-анализ с безграничным
масштабированием.
• HPE Vertica in the Cloud — корпоративная лицензия этой версии позволяет
развернуть HPE Vertica в облаках Amazon, Microsoft Azure или VMware®. Этот
вариант выручает в тех ситуациях, когда срочно нужны дополнительные
мощности, но нет времени на перенастройку имеющегося оборудования.
• HPE Vertica for SQL on Apache Hadoop® ускоряет SQL-анализ данных,
хранящихся в файловой системе Hadoop.
Движок HPE Vertica SQL
–– Расширенная аналитика
–– Поддержка открытых стандартов
ANSI SQL ++
–– R, Python, Java, Spark, Scala
HPE Vertica in the Cloud
–– Быстрый перенос и выполнение запросов в облаке
–– Amazon AWS, Microsoft Azure и VMware
–– Гибкие варианты развертывания в облаке масштаба
предприятия
HPE Vertica for SQL on Apache Hadoop
–– Работа с файлами формата ORC, Parquet и т. д.
–– Поддержка лучших в отрасли распределенных систем
–– Не нужны вспомогательные узлы, нет единой точки
отказа
HPE Vertica Enterprise
–– Колоночное хранение данных и их эффективное сжатие
–– Непревзойденная производительность и масштабируемость
–– Гибкие таблицы для схемы при чтении [schema on read:
данные сначала загружаются без каких-либо изменений,
а затем обрабатываются].
В облаке. Программное обеспечение HPE Vertica оптимизировано и
предварительно настроено для развертывания в облаках Amazon, Microsoft
Azure и VMware. Обеспечивается гибкость и быстрота развертывания,
интеграция с приложениями бизнес-аналитики и ETL. Благодаря возможности
начинать с малого и расширять систему по мере развития компании, HPE
Vertica позволяет легко переносить данные из облака в локальное хранилище
и обратно и увеличивать объем необходимых ресурсов. С таким уровнем
гибкости идти на компромисс не придется.
На базе локального оборудования. Аналитическая платформа HPE Vertica —
это распределенная база данных без разделяемых ресурсов, предназначенная
для работы в кластерах, скомпонованных из серийных серверов стандартной
архитектуры. Чтобы увеличить ее производительность, достаточно просто добавить
в кластер новые серверы. Благодаря особенностям архитектуры HPE Vertica
можно значительно сократить затраты на оборудование и масштабирование —
снижение расходов составит 70–90 % по сравнению с традиционными
СУБД, для работы которых нужны дорогостоящие специальные серверы со
множеством процессоров и систем хранения. Кроме того, кластеризация
обеспечивает более высокую производительность за счет параллельного
выполнения запросов и балансировки нагрузки между узлами кластера.

HPE Vertica Analytics Platform 17
На Hadoop. Платформа HPE Vertica for SQL on Apache Hadoop устанавливается
непосредственно на кластере Hadoop, что позволяет организации не
только использовать мощный набор возможностей для анализа данных,
но и добиваться гораздо больших результатов, чем при использовании
только Hadoop. Из-за отсутствия в этой версии вспомогательных узлов для
выполнения запросов у нее нет единой точки отказа. Установив Vertica на
кластере Hadoop, вы сможете читать файлы Hadoop форматов ORC, Parquet,
Avro и других, пользоваться расширенными и комплексными возможностями
SQL на Hadoop, выполнять все запросы TPC-DS без модификаций и работать в
любой распределенной конфигурации Hadoop.
Монетизация и использование Больших данных
Платформа HPE Vertica Analytics открывает перед организациями все
преимущества Больших данных. Назовем несколько компаний, которые с
помощью HPE Vertica научились извлекать прибыль из своих стратегических
активов — данных:
• Intuit: HPE Vertica обрабатывает миллиарды транзакций, предоставляя
быстрое персонифицированное обслуживание миллионам пользователей
системы расчета налогов TurboTax.
• Conservation International: HPE Vertica выполняет сравнительный анализ
различных объектов и образцов по 86 миллионам записей в режиме,
близкому к реальному времени, и тем самым помогает ученым оценивать
влияние климатических, техногенных и агротехнических факторов.2
• Cerner: HPE Vertica улучшает уход за больными, анализируя эффективность
лечения в пунктах скорой помощи. Благодаря системе обнаружения сепсиса
им уже удалось спасти 500 жизней.3
• Национальный комитет демократической партии США: HPE Vertica
применяется в рамках стратегии маркетинга, основанной на данных:
предиктивное моделирование позволяет понять, когда и на каких
телевизионных каналах следует покупать рекламное время.
• Guess: HPE Vertica обеспечивает предоставление ежедневных мобильных
отчетов о работе магазинов, помогая получать точные данные о продажах,
улучшать подачу товаров и оптимизировать сбыт, изучать поведение
покупателей.
Установите пробную версию этой уникальной аналитической платформы и
воплотите свои идеи в жизнь. Высокопроизводительный реляционный механизм
выполнения SQL-запросов аналитической платформы нового поколения HPE
Vertica доступен в трех вариантах: для развертывания на базе локального
оборудования, в облаке или на Hadoop. Оцените HPE Vertica уже сегодня!
Подробности по адресу: www.vertica.com
2
youtube.com/watch?v=ox-QtXq4mac
3
youtube.com/watch?v=rg3MsgG9YAE

© Copyright 2017 Hewlett Packard Enterprise Development LP. Информация в настоящем документе может
быть изменена без предварительного уведомления. HPE предоставляет только те гарантии на свои
продукты и услуги, которые изложены в гарантийных обязательствах, прилагаемых к этим продуктам
и услугам. Никакие сведения, содержащиеся в настоящем документе, не могут рассматриваться как
дополнительные гарантии. HPE не несет ответственности за технические, редакторские и другие
ошибки в данном документе.
50-1128 HPE Vertica Analytics-20A4-0417-MOS

Модернизация хранилища данных для использования передовой аналитики

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to Модернизация хранилища данных для использования передовой аналитики

Similar to Модернизация хранилища данных для использования передовой аналитики (20)

More from Yuri Yashkin

More from Yuri Yashkin (20)

Модернизация хранилища данных для использования передовой аналитики