Продукт HP Vertica является системой управления базами данных, работающей по принципам массивной параллельной обработки и разработанной специально для хранения и обработки больших объемов данных.
HP Vertica поддерживает язык SQL, стандартные интерфейсы доступа к данным ODBC, JDBC, ADO.NET, а также содержащий множество коннекторов к различным инструментам бизнес-аналитики и анализа данных.
Кластер СУБД HP Vertica состоит из узлов стандартной архитектуры x86, объединенных сетевым соединением. Все узлы кластера являются равноценными, любой из узлов кластера может принимать и обслуживать запросы пользователей, а также выполнять загрузку данных.
От больших к очень большим данным — зачем нужна нормализация в Big Data / Гол...Ontico
Спроектировать хранилище данных, казалось бы, не сложно.
Собрать требования -> построить модель данных -> реализовать ETL.
Но проходит год-два, и рост объема данных, и, главное, рост сложности данных приводит хранилище на грань работоспособности.
В докладе будет проиллюстрировано, как Big Data хранилище Авито экспоненциально увеличивалось в размерах данных и сложности их взаимосвязей вместе с ростом объема и сложности бизнеса компании, сохраняя скорость выполнения запросов.
Будет обосновано, почему следование ограничениям 6-й нормальной формы (Anchor Modeling) помогает не утонуть в новых данных и успешно масштабировать нагрузку в условиях MPP СУБД.
В качестве финального штриха будет рассказано, как высоконормализованная модель данных Anchor Modeling позволяет малыми усилиями сделать шаг за пределы СУБД к хранению части данных в виде (ORC) файлов в распределенной файловой системе (HDFS) к сохранению для пользователей возможности работать со всеми данными посредством (почти) обычного SQL (без Hive).
От больших к очень большим данным — зачем нужна нормализация в Big Data / Гол...Ontico
Спроектировать хранилище данных, казалось бы, не сложно.
Собрать требования -> построить модель данных -> реализовать ETL.
Но проходит год-два, и рост объема данных, и, главное, рост сложности данных приводит хранилище на грань работоспособности.
В докладе будет проиллюстрировано, как Big Data хранилище Авито экспоненциально увеличивалось в размерах данных и сложности их взаимосвязей вместе с ростом объема и сложности бизнеса компании, сохраняя скорость выполнения запросов.
Будет обосновано, почему следование ограничениям 6-й нормальной формы (Anchor Modeling) помогает не утонуть в новых данных и успешно масштабировать нагрузку в условиях MPP СУБД.
В качестве финального штриха будет рассказано, как высоконормализованная модель данных Anchor Modeling позволяет малыми усилиями сделать шаг за пределы СУБД к хранению части данных в виде (ORC) файлов в распределенной файловой системе (HDFS) к сохранению для пользователей возможности работать со всеми данными посредством (почти) обычного SQL (без Hive).
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
"Контекстная реклама в Avito: что под капотом?"
Вадим Аюев и Андрей Остапец (Avito)
Из этого доклада вы узнаете об основных этапах создания и обучения моделей, на основе которых работает контекстная реклама в Avito: как собираем и готовим данные, обучаем модели, как реализовано тестирование и внедрение.
Python Data Science meetup @ Avito 13.08.2016
Webinar: Live Data Visualisation with Tableau and MongoDBMongoDB
MongoDB 3.2 introduces a new way for familiar Business Intelligence (BI) tools to access your real-time operational data – opening it up to data analysts and data scientist, enabling new insights to be discovered faster than ever before. Tableau accesses the JSON document data stored in MongoDB via this new BI connector. We will cover how the BI connector works by creating a relational view definition of a JSON data set that is then used to present a tabular SQL/ODBC interface to Tableau. Then we will set-up a live connection from Tableau Desktop to the MongoDB Connector for BI. Once we have Tableau Desktop and MongoDB connected, we will demonstrate the visual power of Tableau to explore the agile data storage of MongoDB. This webinar will cover:
What is the MongoDB BI Connector?
Setting up a connection from Tableau to the MongoDB BI Connector.
How to perform data discovery Tableau connected to MongoDB live data.
Publishing a Tableau Dashboard for sharing insights.
Защита данных от Dell Software: бэкап и восстановление так, как это хочет видеть бизнес
Дмитрий Крайнов, менеджер по работе с корпоративными клиентами и партнерами, Dell Software
Форум решений Dell — 2014 (Dell Solutions Forum 2014).
Москва, 14 ноября 2014 г.
Защита данных от Dell Software: бэкап и восстановление так, как это хочет видеть бизнес
Дмитрий Крайнов, менеджер по работе с корпоративными клиентами и партнерами, Dell Software
Использование Vertica для управления данными, фиксируемыми интеллектуальными ...Elizaveta Alekseeva
Системы Интернета вещей уже приносят реальную экономическую пользу: в энергетике и ЖКХ активно внедряются системы интеллектуального учета потребления. Чтобы справиться с потоками информации от многочисленных приборов учета, энергокомпании внедряют технологии Больших данных и SQL-аналитики в реальном времени.
Использование аналитической платформы HPE Vertica для управления большими объ...Yuri Yashkin
Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"Fwdays
- как ошибка выбора идентификатора пользователя, обнаруженная после запуска проекта, чуть не стоила 2 лет разработки
- как мы боролись с перегруженным mysql когда даже включение binlog убивает сервер
- почистил партицию mysql под нагрузкой - получи мертвый сервер
- как верстальщик поменял верстку серча и уложил продукт на 4 часа
- ошибка в ядре php которая привела даунтайм на несколько часов
- как незнание особенностей работы GC у redis обошлось в $50к чистой прибыли
- добавлением или удалением серверов из пула memcached инвалидировали весь кэш (кривые настройки php клиента Memcache/Memcached)
- как поправив тест потерять 2 миллиона пользовательских писем
- как релиз одного проекта крэшил хелсчеки соседнего проекта
- самый большой фейл с системами очередей и статистикой: ивенты терялись годами
"Контекстная реклама в Avito: что под капотом?" Вадим Аюев и Андрей Остапец (...AvitoTech
"Контекстная реклама в Avito: что под капотом?"
Вадим Аюев и Андрей Остапец (Avito)
Из этого доклада вы узнаете об основных этапах создания и обучения моделей, на основе которых работает контекстная реклама в Avito: как собираем и готовим данные, обучаем модели, как реализовано тестирование и внедрение.
Python Data Science meetup @ Avito 13.08.2016
Webinar: Live Data Visualisation with Tableau and MongoDBMongoDB
MongoDB 3.2 introduces a new way for familiar Business Intelligence (BI) tools to access your real-time operational data – opening it up to data analysts and data scientist, enabling new insights to be discovered faster than ever before. Tableau accesses the JSON document data stored in MongoDB via this new BI connector. We will cover how the BI connector works by creating a relational view definition of a JSON data set that is then used to present a tabular SQL/ODBC interface to Tableau. Then we will set-up a live connection from Tableau Desktop to the MongoDB Connector for BI. Once we have Tableau Desktop and MongoDB connected, we will demonstrate the visual power of Tableau to explore the agile data storage of MongoDB. This webinar will cover:
What is the MongoDB BI Connector?
Setting up a connection from Tableau to the MongoDB BI Connector.
How to perform data discovery Tableau connected to MongoDB live data.
Publishing a Tableau Dashboard for sharing insights.
Защита данных от Dell Software: бэкап и восстановление так, как это хочет видеть бизнес
Дмитрий Крайнов, менеджер по работе с корпоративными клиентами и партнерами, Dell Software
Форум решений Dell — 2014 (Dell Solutions Forum 2014).
Москва, 14 ноября 2014 г.
Защита данных от Dell Software: бэкап и восстановление так, как это хочет видеть бизнес
Дмитрий Крайнов, менеджер по работе с корпоративными клиентами и партнерами, Dell Software
Использование Vertica для управления данными, фиксируемыми интеллектуальными ...Elizaveta Alekseeva
Системы Интернета вещей уже приносят реальную экономическую пользу: в энергетике и ЖКХ активно внедряются системы интеллектуального учета потребления. Чтобы справиться с потоками информации от многочисленных приборов учета, энергокомпании внедряют технологии Больших данных и SQL-аналитики в реальном времени.
Использование аналитической платформы HPE Vertica для управления большими объ...Yuri Yashkin
Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
Дмитрий Меньшиков "Топ-10 фейлов на реальном highload проекте"Fwdays
- как ошибка выбора идентификатора пользователя, обнаруженная после запуска проекта, чуть не стоила 2 лет разработки
- как мы боролись с перегруженным mysql когда даже включение binlog убивает сервер
- почистил партицию mysql под нагрузкой - получи мертвый сервер
- как верстальщик поменял верстку серча и уложил продукт на 4 часа
- ошибка в ядре php которая привела даунтайм на несколько часов
- как незнание особенностей работы GC у redis обошлось в $50к чистой прибыли
- добавлением или удалением серверов из пула memcached инвалидировали весь кэш (кривые настройки php клиента Memcache/Memcached)
- как поправив тест потерять 2 миллиона пользовательских писем
- как релиз одного проекта крэшил хелсчеки соседнего проекта
- самый большой фейл с системами очередей и статистикой: ивенты терялись годами
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных".
Лекция №9 "Безопасность баз данных". Лектор - Павел Щербинин.
Открывается лекция рассказом о резервном копировании (о логических и физических резервных копиях, о выборе данных для копирования). Затем определяется терминология для обсуждения дальнейших вопросов. После этого рассматриваются основы учётных записей: таблицы доступа, привилегии, виды записей. Обсуждаются SQL-injection, список смежных вершин (Adjacency Set), вложенное множество (Nested Set), материализованный путь (Materialized Path) и комбинированный подход.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Модуль 14. Лекция 55-56. Управление релизами и развертыванием продуктаYana Brodetski
Управление релизами и развертыванием
продукта (Release and Deployment)
● Планирование управлением поставками
продукта
● Определение артефактов
● Формирование плана конфигурации поставки
продукта
● Определение и формирование плана релиза
продукта
Потребности:Надежное, экономически выгодное и простое в обращении решение для резервного копирования
Среда: VMware и Hyper-V, более, чем10 TБданных.
Предыдущее решение:
Очень дорогое и сложное решение для резервного копирования
Проблема: нехватка бюджета на нужды ИТ
Область применения:Социальные услуги.
Потребности:Сократить время и сложность бэкапа виртуальных машин.
Среда:45 ВМ, 1.5 TБданных, Windows Domain Controller, Lotus Notes, NAS
Область применения:ИТ услуги
Потребности:надежная система резервного копирования, нацеленная на сокращение времени простоя в случае отказа сервера.
Среда:множествоГипервизоров, WEBсайтов, ERP систем.
Hpe Data Protector Disaster Recovery GuideAndrey Karpov
This chapter provides a general overview of the disaster recovery process, explains the basic terms used in the Disaster Recovery guide and provides an overview of disaster recovery methods
Carefully follow the instructions below to prepare for disaster recovery and ensure a fast and efficient restore. The preparation procedure does not depend on the disaster recovery method, and includes developing a detailed disaster recovery plan, performing consistent and relevant backups, and updating the SRD file on Windows.
Assisted Manual Disaster Recovery (AMDR)
Manual Disaster Recovery (MDR)
This chapter contains descriptions of problems you might encounter while performing a disaster recovery. You can start with problems connected to a particular disaster recovery method and continue with general disaster recovery problems.
Example Preparation Tasks
Hpe Zero Downtime Administrator's GuideAndrey Karpov
Part 1: HPE P4000 SAN Solutions
This part describes how to configure the Data Protector HPE P4000 SAN Solutions integration. For information on how to perform zero downtime backup and instant recovery using the HPE P4000 SAN Solutions integration, see the HPE Data Protector Integration Guide for Microsoft Volume Shadow Copy Service.
Part 2: HPE P6000 EVA Disk Array Family
This part describes how to configure the Data Protector HPE P6000 EVA Disk Array Family integration, how to perform zero downtime backup and instant recovery using the HPE P6000 EVA Disk Array Family integration, and how to resolve the integration-specific Data Protector problems
Part 3: HPE P9000 XP Disk Array Family
This part describes how to configure the Data Protector HPE P9000 XP Disk Array Family integration, how to perform zero downtime backup and instant recovery using the HPE P9000 XP Disk Array Family integration, and how to resolve the integration-specific Data Protector problems.
Part 4: HPE 3PAR StoreServ Storage
This part describes how to configure the Data Protector HPE 3PAR StoreServ Storage integration, and how to perform zero downtime backup and instant recovery using the HPE 3PAR StoreServ Storage integration through native storage system support built-in in the Data Protector HPE P6000 / HPE 3PAR SMI-S Agent. For information on how to perform zero downtime backup and instant recovery using the HPE 3PAR StoreServ Storage integration through the Data Protector Microsoft Volume Shadow Copy Service integration, see the HPE Data Protector Integration Guide for Microsoft Volume Shadow Copy Service.
Part 5: EMC Symmetrix
This part describes how to configure the Data Protector EMC Symmetrix integration, how to perform zero downtime backup and instant recovery using the EMC Symmetrix integration, and how to resolve the integration-specific Data Protector problems.
Part 6: NetApp Storage
This part describes how to configure the Data Protector NetApp Storage integration, how to perform zero downtime backup using the NetApp Storage system, and how to resolve the integration-specific Data Protector problems.
Part 7: EMC VNX Family
This part describes how to configure the Data Protector EMC VNX Family integration, how to perform zero downtime backup using the EMC VNX storage system, and how to resolve the integration-specific Data Protector problems.
Part 8: EMC VMAX Family
This part describes how to configure the Data Protector EMC VMAX Family integration, how to perform zero downtime backup using the EMC VMAX storage system, and how to resolve the integration-specific Data Protector problems.
Introducing Backup to Disk devices and deduplication
This document describes how HPE Data Protector integrates with Backup to Disk devices and deduplication. By supporting deduplication, several new concepts are introduced to Data Protector, including a new device type, the Backup to Disk device, and four interface types: the HPE StoreOnce Software deduplication, the HPE StoreOnce Backup System, Smart Cache, and the EMC Data Domain Boost. Backup to Disk devices and deduplication are both discussed in detail in this document.
Backup to Disk devices are devices that back up data to a physical storage disk and support multi-host configurations. They support different backends such as the HP StoreOnce Software deduplication, the StoreOnce Backup system, Smart Cache, or the EMC Data Domain Boost. This document also describes the basic principles behind deduplication technology.
Data Protector supports the following deduplication backends:
HPE Data Protector Software deduplication provides the ability to deploy target-side deduplication on virtually any industry-standard hardware, offers greater flexibility than existing solutions as it can be deployed in a wider range of hardware set-ups, and provides enterprise-class scalability.
Because of the way Data Protector makes use of the extremely efficient HPE StoreOnce engine, Data Protector software deduplication uses memory very efficiently. As a result, you can deploy deduplication on application or backup servers without lowering application performance. Data Protector software deduplication can even be deployed on a virtual machine. In addition, Data Protector software deduplication delivers very high throughput. HPE StoreOnce Backup system devices are disk to disk (D2D) backup devices which support deduplication. Smart Cache devices are backup to disk devices that enable non-staged recovery from VMware backups. EMC Data Domain Boost devices are D2D backup devices which support deduplication.
Hpe Data Protector troubleshooting guideAndrey Karpov
How to troubleshoot
To solve problems quickly and efficiently:
1.Make yourself familiar with the general troubleshooting information.
2.Check if your problem is described in the HPE Data Protector Help file or the troubleshooting sections of applicable guides:
To troubleshoot installation and upgrade, see the HPE Data Protector Installation Guide.
To troubleshoot application integration sessions, see the HPE Data Protector Integration Guide.
To troubleshoot zero downtime backup and instant recovery, see the HPE Data Protector Zero Downtime Backup Administrator's Guide and HPE Data Protector Zero Downtime Backup Integration Guide.
To troubleshoot disaster recovery, see the HPE Data Protector Disaster Recovery Guide.
Overview of the installation procedure
Chapter 2: Installing Data Protector
This chapter contains detailed instructions about:
Installing the Data Protector Cell Manager and Installation Servers
Installing the Data Protector Single Server Edition
Installing the Data Protector web reporting
Chapter 3: Installing Data Protector clients
Chapter 4: Installing the Data Protector integration clients
Chapter 5: Installing Data Protector on Clusters
Chapter 6: Maintaining the installation
Chapter 7: Upgrading the Data Protector
Chapter 8: Data Protector Licensing
Chapter 9: Troubleshooting installation and upgrade
Part 1: IBM Applications
This part of the guide describes ways to back up and restore Informix Server database objects, DB2 databases, and Lotus Notes/Domino Server.
This part includes the following chapters:
Data Protector Informix Server integration
Data Protector DB2 UDB integration
lData Protector Lotus Notes/Domino Server integration
Part 2:
Microsoft Applications
This part of the guide describes ways to configure and use the following:
Data Protector Microsoft SQL Server integration
Data Protector Microsoft SQL Server 2007/2010/2013 integration
Data Protector Microsoft SharePoint Server VSS based solution
Data Protector Microsoft Exchange Server 2007 integration
Data Protector Microsoft Exchange Server 2010 integration
Data Protector Microsoft Exchange Single Mailbox integration
Part 3:
Oracle and SAP
This part of the guide describes ways to configure and use the following:
Data Protector Oracle Server integration
Data Protector MySQL integration
Data Protector SAP R/3 integration
Data Protector SAP MaxDB integration
Data Protector SAP HANA Appliance integration
Part 4:
Sybase and Network Data Management Protocol Server
This part of the guide describes ways to configure and use the following:
Sybase Server integration
Network Data Management Protocol Server integration
NetApp SnapManager solution
Part 5:
Virtualization
This part of the guide describes ways to back up VMware virtual machines and Microsoft Hyper-V data online.
This part includes the following chapters:
Data Protector Virtual Environment integration for VMware
Data Protector Virtual Environment integration for Microsoft Hyper-V
Part 6:
PostgreSQL
This part of the guide describes Data Protector integration.
This part includes the following chapter:
Data Protector PostgreSQL integration
HPE IDOL Technical Overview - july 2016Andrey Karpov
Search and Analytics Platform for Text and Rich Media
Open Innovation is transforming everything
Connected people, apps and things generating massive data in many forms
How do you bridge the gap between data and outcomes?
Augmented Intelligence power apps for competitive advantage
Machine Learning at the Service of Business Augmented Intelligence
HPE Big Data Advanced Analytics Software Solutions
Strong information and weak information
HPE IDOL: Natural Language Processing (NLP) engine
VM Explorer® is a simple but powerful software to back up, replicate and restore your VMware ESX, ESXi and Microsoft Hyper-V Virtual Machines (VM).
The following documentation explains the main tasks required for configuration and daily use of VM Explorer®. All services hereinafter are brought to you by HPE.
The HPE services and materials presented for VM Explorer® hereinafter are protected by copyright, trademark, trade dress, unfair competition, and other intellectual property rights. The trademarks, logos and marks of HPE and VM Explorer® displayed on the services and products are the property of HPE or third parties. You are not permitted to use the Marks without the prior consent of HPE or the third party that may own the Marks.
Трансформация ИТ с помощью Hewlett Packard Enterprise
ИТ для экономики идей
Идеи всегда являлись залогом успеха в развития бизнеса. Однако одних лишь хороших идей мало. Успех определяется тем, насколько быстро компания может превращать идеи в прибыль. Сегодня путь от идеи до ее реализации радикально сократился. Именно поэтому, говоря об особенностях современного этапа развития экономики, эксперты рынка все чаще используют термин «экономика идей».
Building and managing secure private and hybrid clouds
HP Helion extends beyond just cloud to become the very fabric of your enterprise. Delivers an extensible and open portfolio to build and manage enterprise grade end-to-end orchestrated cloud services.
HPE Data Protector Administrator's GuideAndrey Karpov
About Data Protector
HPE Data Protector is a backup solution that provides reliable data protection and high accessibility for your
fast-growing business data. Data Protector offers comprehensive backup and restore functionality
specifically tailored for enterprise-wide and distributed environments.
Major Data Protector features
l Scalable and highly flexible architecture
l Mixed environment support
l Easy central administration
l High performance backup
l Easy restore
l Data and control communication security
l High availability support
l Automated or unattended operation
l Monitoring, reporting, and notification
l Service management
l Integration with online database applications
l Integration with other products
Data Protector Architecture
l Software Version number, which indicates the software version.
l Document Release Date, which changes each time the document is updated.
l Software Release Date, which indicates the release date of this version of the software.
To check for recent updates or to verify that you are using the most recent edition of a document, visit the
Knowledge Base on the HPE Big Data Customer Support Site.
Конференция по программным решениям HPE 2016Andrey Karpov
Конференция по программным решениям HPE 14 апреля 2016
Автоматизация процесса перевода транспортного сервиса между географически распределенными площадками
Система управления ТСЭР
Подсистема автоматизации процедуры перевода обработки
ЭС между центральными серверами ЦТУ ТСЭР (ПАПО)
Автоматизация процессов управления DevOps Новые реалии – новая скорость
8.0Transforming records management for Information Governance
•Access and understand virtually any source of information on-premise and in the cloud
•A strategic pillar of HP’s HAVEnBig Data platform
•Non-disruptive, manage-in-place approach complements any organization
Understanding human information
•Access and understand virtually any source of information on-premise and in the cloud
•A strategic pillar of HP’s HAVEnBig Data platform
•Non-disruptive, manage-in-place approach complements any organization
March 2016 HPE Data Protector
Comprehensive data protection for the modern enterprise
If you pick up the latest datacenter trends reports from ESG, Gartner, and IDC, you will notice that improving backup and recovery appears among the top IT priorities for organizations. The reason for that is simple: as the velocity, variety and complexity of data continue to accelerate, so do the risks of not being able to speedily restore critical systems and applications in case of disaster or data loss.
HP Distributed R is a high-performance scalable platform for the R language. It enables R to
leverage multiple cores and multiple servers to perform Big Data Advanced Analytics. It consists of
new R language constructs to easily parallelize algorithms across multiple R processes.
HP Distributed R simplifies large-scale analysis by extending R. Because R is a single-threaded
environment, it has limited utility for Big Data analytics. HP Distributed R allows you to specify that
parts of programs be run in multiple single-threaded R-processes. This approach results in
significantly reduced execution times for Big Data analysis.
Become a data-driven organization with the Internet of Things
Executive summary
Personal health monitors tracking your fitness, trashcans monitoring their fullness, watches telling you more
than just the time, and agricultural soil monitors saying it’s time to water. It seems a day doesn’t go by that
we don’t hear about the latest “offline” thing, device, or equipment becoming “online,” moving from isolation
to being connected to the Internet of Things (IoT). It’s clear that integrating sensors, electronics, and
network connectivity into devices can enable innovation, enhancing and extending the way we work and
interact with each other and the world around us.
1. Содержание
Описание архитектуры СУБД HP Vertica....................................................................................................2
Общие сведения......................................................................................................................................2
Представление данных в HP Vertica ......................................................................................................2
Массивная параллельная обработка (MPP)..........................................................................................3
Колоночное хранение данных ...............................................................................................................3
Эффективная компрессия данных .........................................................................................................4
Отказоустойчивость.................................................................................................................................4
Безопасность............................................................................................................................................5
Загрузка данных...........................................................................................................................................5
Загрузка структурированных данных в HP Vertica................................................................................5
Загрузка неструктурированных данных в HP Vertica (Flex Zone).........................................................6
Пользовательский механизм загрузки..................................................................................................6
Выборка и анализ данных ..........................................................................................................................7
Стандартные механизмы доступа..........................................................................................................7
Аналитическая платформа......................................................................................................................7
Аналитические расширения...................................................................................................................7
Интеграции со сторонними системами.....................................................................................................7
Поддержка инструментов BI и средств визуализации.........................................................................8
Поддержка систем класса ETL/ELT и репликаторов.............................................................................8
Интеграция с Hadoop...............................................................................................................................8
Администрирование ...................................................................................................................................8
Разворачивание системы........................................................................................................................8
Требования к аппаратному и общесистемному программному обеспечению ................................9
Инструмент управления Management Console ...................................................................................10
Оптимизация с помощью Database Designer ......................................................................................10
Резервное копирование .......................................................................................................................10
Организация зон разработки и тестирования ....................................................................................11
Лицензирование....................................................................................................................................11
2. Описание архитектуры СУБД HP Vertica
Общие сведения
Продукт HP Vertica является системой управления базами данных, работающей по принципам
массивной параллельной обработки и разработанной специально для хранения и обработки
больших объемов данных.
HP Vertica поддерживает язык SQL, стандартные интерфейсы доступа к данным ODBC, JDBC,
ADO.NET, а также содержащий множество коннекторов к различным инструментам бизнес-
аналитики и анализа данных.
Кластер СУБД HP Vertica состоит из узлов стандартной архитектуры x86, объединенных сетевым
соединением. Все узлы кластера являются равноценными, любой из узлов кластера может
принимать и обслуживать запросы пользователей, а также выполнять загрузку данных.
Рисунок 1 Кластер HP Vertica
Представление данных в HP Vertica
Данные в HP Vertica хранятся в виде проекций. При создании базы данных создается мастер-
проекция, содержащая весь объем загруженных данных. Также, в процессе эксплуатации системы
пользователь может создавать собственные проекции, задавая произвольно для каждой
проекции правила сортировки и сегментации данных. Инструмент оптимизации Database Designer
упрощает создание новых проекций, анализируя нагрузку и выдавая в автоматическом режиме
рекомендации по созданию и изменению проекций. Различные проекции могут содержать одну
таблицу, либо объединение таблиц, что существенно сокращает время выполнения запросов
благодаря использованию оптимальной сортировки и сегментации под конкретные запросы.
Рисунок 2 Организация проекций в HP Vertica
3. Массивная параллельная обработка (MPP)
Ключевым свойством системы с массивной параллельной обработки является динамическое
распределения нагрузки и порядка выполнения запросов, любой из узлов кластера может
принимать и диспетчеризировать запросы пользователей.
Рисунок 3 Выполнение запросов в HP Vertica
Выполнение запроса в HP Vertica выглядит следующим образом:
Узел, к которому подключается пользователь на время выполнения запроса становится узлом-
инициатором (initiator).
Остальные узлы кластера становятся узлами-исполнителями (executor).
Узел-инициатор анализирует запрос, формирует план запроса и отправляет его одному или
нескольким узлам-исполнителям.
Узлы-исполнители выполняют план запроса и возвращают частичные результаты инициатору.
Узел-инициатор агрегирует результаты и возвращает данные пользователю
Также, обязательным свойством HP Vertica как MPP системы является отсутствие разделяемых
компонентов (shared-nothing), как следствие:
Система не предполагает использования выделенного разделяемого хранилища, за счет чего
исключается единая точка отказа (СХД), а благодаря использованию локальных дисков
сокращается стоимость владения дисковой подсистемой и повышается её
производительность.
Все компоненты системы являются одноранговыми, отсутствует единый диспетчер,
балансировщик, каталог и т.п., кластер HP Vertica продолжает работать при отказе любого из
узлов.
Колоночное хранение данных
В СУБД HP Vertica реализован механизм колоночного хранения данных, что позволяет:
o Осуществлять компрессию данных
o Выполнять выборку только по колонкам данных, за счет чего существенно ускорять
выборку данных
o Осуществлять выборку не выполняя декомпрессию данных
На рис. 4 приведен пример запроса, выполняющегося в СУБД с колоночным хранением и СУБД со
строчным хранением. Пример наглядно демонстрирует, что СУБД с колоночным хранением более
эффективно оперирует с данными при запросе и снижает нагрузку на подсистему ввода-вывода.
Текст запроса:
SELECT avg(price) FROM tickstore WHERE symbol = ‘AAPL” date = ‘5/06/09’
4. Рисунок 4 Пример выполнения запроса
Эффективная компрессия данных
Благодаря использованию колоночного хранения данных возможна эффективная компрессия
данных внутри колонок.
В HP Vertica реализовано 12 механизмов компрессии, выбор механизма компрессии
осуществляется автоматически в зависимости от типа данных, но также может быть определен
вручную.
Степень компрессии варьируется в зависимости от набора исходных данных и может составлять
до 90%. На ряде наборов данных HP Vertica может выполнять запросы без декомпрессии данных,
что позволяет повысить скорость выполнения запросов и снизить нагрузку на систему ввода-
вывода.
Рисунок 5 Компрессия различных типов данных
Отказоустойчивость
HP Vertica рассчитана на использования с business-critical и mission-critical приложениях и
поддерживает следующие механизмы отказоустойчивости:
Встроенный механизм отказоустойчивости на уровне кластера (K-Safety)
o Основным принципом механизма K-Safety является копирование данных на любые
один и более узлов кластера
o При выходе любого узла кластера из строя работоспособность системы не
нарушается
5. Рисунок 6 Организация хранения данных, K-Safety
Disaster Recovery (DR)
o Помимо основного механизма обеспечения отказоустойчивости, система также
поддерживает возможность кластера Disaster Recovery. Данные могут загружаться
в данном случае следующим образом:
Применение ETL к первичному и вторичному узлам DR-кластера, таким
образом оба узла DR-кластера остаются активными
Репликация данных на вторичный узел с помощью инструментария
резервного копирования
o Лицензируется только первая копия данных, копия на вторичный узел DR-кластера
при лицензировании не учитывается.
Безопасность
Так как на основе СУБД HP Vertica строятся хранилища данных с повышенными требованиями к
безопасности, система поддерживает различные механизмы управления безопасностью, в том
числе:
Возможность внешней аутентификации (LDAP, Kerberos, и т.д.)
Конфигурируемые политики управления паролями (сложность, жизненный цикл)
SSL-шифрование для клиент-серверного взаимодействия
AES шифрование на уровне записи
Ролевая модель доступа: Предопределенные роли для суперпользователя и
администратора БД
Предоставление доступа на уровне объектов посредством стандартного синтаксиса SQL
GRANT
Загрузка данных
Загрузка структурированных данных в HP Vertica
В зависимости от структуры загружаемых данных для загрузки можно использовать как Write
Optimized Store (WOS) так и Read Optimized Store (ROS). WOS используется для большого
количества мелких операций записи. ROS используется для записи больших объемов данных.
Рисунок 7 Загрузка данных в HP Vertica
Write Optimized Store (WOS) – хранилище, оптимизированное для записи, обладает следующими
характеристиками:
6. Хранит и обрабатывает данные в памяти
Данные не сортированы
Данные не компрессированы
Низкая задержка
Read Optimized Store (ROS) – хранилище, оптимизированное для чтения, обладает следующими
характеристиками:
Хранит и обрабатывает данные на диске
Данные сортированы
Данные компрессированы
Благодаря эффективной архитектуре система поддерживает чтение во время загрузки данных.
Загрузка неструктурированных данных в HP Vertica (Flex Zone)
Благодаря технологии Flex Zone продукт HP Vertica обладает возможностью загрузки
неструктурированных данных, представленных файлами форматов JSON и CSV. Система
анализирует файл с данными, определяет схему (патентованная технология Auto-schematization),
автоматически создает схему и выполняет загрузку данных в созданную таблицу. Благодаря
данной технологии становится возможным выполнять SQL запросы на неструктурированных
данных.
Рисунок 8 Технология Flex Zone
Пользовательский механизм загрузки
HP Vertica включает инструмент User Defined Load (UDL), позволяющий разрабатывать
пользовательские расширения для загрузки данных. UDL позволяет изменить любой из трех
встроенных инструментов загрузки, в том числе:
Source – получение данных из любого источника
Filter – трансформация данных в новый формат
Parser – преобразование исходных данных в записи БД
Использование данного механизма позволяет расширять функциональность HP Vertica за счет
добавления поддержки пользовательских форматов и источников данных.
7. Выборка и анализ данных
Стандартные механизмы доступа
HP Vertica предоставляет широкие возможности для доступа к данным на языке SQL, посредством
следующих интерфейсов:
ODBC/JDBC
ADO.NET
Python
Perl
PHP
Язык HP Vertica SQL полностью соответствует стандарту ANSI SQL-99 и дополнен следующими
аналитическими расширениями:
Временные ряды
Окна для событий и разбивка на сессии
Графы
Поиск закономерностей
Цепочки событий
Статистика
География
Аналитическая платформа
HP Vertica предоставляет функциональность аналитической платформы, и предоставляет
универсальный доступ к данным, посредством Application Programming Interface (API) и User
Defined Extionsions (UDx) на следующих языках:
R – язык для статистического анализа с открытым кодом, содержащий множество пакетов
для сложного исследования данных (data mining) и статистического анализа. HP Vertica
поддерживает пользовательские расширения на R и обеспечивает их параллельное
выполнение.
HP Vertica предоставляет возможность разработки пользовательских расширений User
Defined Extensions (UDx) посредством Java SDK API и C++ SDK API, что позволяет
использовать экспертизу Java и C++ для анализа данных.
Аналитические расширения
Помимо стандартного функционала языка HP Vertica SQL предоставляется доступ к аналитическим
расширениям, таким как HP Vertica Pulse и HP Vertica Place, существенно расширяющих
возможности анализа в части анализа социальных связей и геопространственных данных. Полный
список расширений доступен на портале HP Vertica Marketplace: https://vertica.hpwsportal.com/
Интеграции со сторонними системами
HP Vertica является ключевым элементом аналитической инфраструктуры и предоставляет
широкий набор инструментов для интеграции с продуктами сторонних производителей.
Интеграционные возможности можно условно разделить на три группы:
Инструменты Business Intelligence (BI) и средства визуализации
Системы извлечения, загрузки и трансформации данных (ETL/ELT) и репликаторы (CDC)
Hadoop
8. Поддержка инструментов BI и средств визуализации
HP Vertica поддерживает интеграции с множеством промышленных инструментов BI и средств
визуализации. Поддерживаются стандартные интерфейсы ODBC, JDBC, ADO.NET, а к ряду систем
разработаны специализированные коннекторы для обеспечения максимальной прозрачности
интеграции. Использование стандартного инструментария BI позволяет использовать
существующую экспертизу в части анализа данных и сохранить инвестиции для реализации
аналитических продуктов. HP Vertica интегрируется со следующими продуктами, и список
постоянно расширяется:
Tableau
Microstrategy
Oracle BI
IBM Cognos
SAP Business Objects
SAS
Looker
Pentaho
Поддержка систем класса ETL/ELT и репликаторов
HP Vertica поддерживает интеграции с множеством инструментов извлечения, загрузки и
трансформации данных, а также репликаторов, что позволяет организовать максимально
оперативнный обмен между транзакционной и аналитической базами данных. Поддерживаются
следующие инструменты:
Informatica
Talend
Syncsort
Oracle Data Integrator
Microsoft SQL Server Integration Services
Oracle Golden Gate
Attunity
Hit Software DBMoto
Интеграция с Hadoop
Дополнительно к этим двум группам ПО HP Vertica поддерживает интеграцию с Hadoop, в том
числе и для загрузки данных из неструктурированных источников. Интеграция с Hadoop
реализуется с помощью выделенного коннектора, позволяющего:
Загружать результаты MapReduce в HP Vertica для дальнейшей обработки
Обрабатывать результаты выборки HP Vertica в Hadoop
Получать SQL доступ к файлам, находящимся в HDFS
Загружать файлы, находящиеся в HDFS в таблицы HP Vertica
Помимо этого, HP Vertica также может использоваться в качестве базы для HCatalog.
Администрирование
Разворачивание системы
HP Vertica функционирует на серверах стандартной архитектуры x86 и может разворачиваться в
следующих вариантах:
На физических серверах x86
9. На базе программно-аппаратного комплекса HP Converged System 300 for Vertica
На облачных сервисах HP Cloud, Amazon EC2, и т.д.
На виртуальной инфраструктуре (в частном облаке)
Система обладает свойством эластичного расширения, то есть, расширение системы не влияет на
её работоспособность и осуществляется простым добавлением узлов. HP Vertica автоматически
добавляет узлы в кластер и распространяет данные на новые узлы в фоновом режиме.
Система поддерживает функции изменения конфигурации без остановки системы, в том числе:
Добавление/удаление узлов с автоматической ребалансировкой данных
Замена/ремонт узлов без остановки кластера
Добавление дисков на существующие узлы
Клонирование БД с одного кластера на другой
Требования к аппаратному и общесистемному программному обеспечению
Аппаратное обеспечение должно соответствовать следующим требованиям:
Узел кластера должен иметь один или два x86 процессора, рекомендуется использовать
двухпроцессорную конфигурацию с 12-ядерными процессорами
Узел кластера должен содержать объем памяти в расчете 8ГБ на ядро процессора
Дисковая подсистема должна быть построена на дисках 10K RPM и сконфигурирована с
использованием RAID 10. При расчете объема дисковой подсистемы необходимо
учитывать следующие факторы:
o Уровень компрессии данных (как правило 1:4)
o Объем дискового пространства под временные файлы должен составлять не менее
40%
o Объем дискового пространство под репликацию данных K-Safety (напр. При K-
Safety=1 объем данных удваивается)
o Объем дискового пространства под проекции, определяемый сценариями
использования (от 1,2х до 2х)
Узлы кластера должны быть идентичными по типу процессора, объемам памяти и
дисковой подсистемы
Рекомендуется использование 10Gb Ethernet для соединения узлов внутри кластера
Рекомендуется использование локальных дисков для хранения БД. Возможно, но не
рекомендуется использовать внешнюю СХД для построения продуктивного кластера, так
как в этом случае СХД является единой точкой отказа. Использование внешней СХД в
тестовой среде допустимо.
Систему можно размещать на виртуальной среде, но существует риск снижения
производительности, обусловленный непрозрачностью виртуальной инфраструктуры.
Рекомендуется использование виртуальных сред в тестовой среде.
НР Vertica функционирует на одной из следующих операционных системах:
o Red Hat Enterprise Linux 5 and 6
o SUSE Linux Enterprise Server 11
o Oracle Enterprise Linux 6 - Red Hat Compatible Kernel only - HP Vertica does not
support the unbreakable kernel (kernels with a uel suffix)
o Debian Linux 6
o Cent OS 5 and 6
o Ubuntu 12.04LTS
10. Инструмент управления Management Console
HP Vertica Management Console – это эффективный инструмент управления HP Vertica,
позволяющий:
Управлять одним или несколькими кластерами
Осуществлять мониторинг активности СУБД и отслеживать статус кластера
Коррелировать активность системы и активность СУБД.
Рисунок 9 Management Console
Помимо этого, система поддерживает оповещение по SNMP, таблицы состояний и историю
запросов, содержащую информацию о нагрузке и времени выполнения запросов с целью
дальнейшей оптимизации.
Оптимизация с помощью Database Designer
Database Designer (DBD) – инструмент оптимизации, входящий в комплект поставки HP Vertica.
DBD анализирует запросы пользователей и выдает рекомендации по оптимизации структуры базы
данных путем создания дополнительных проекций. Благодаря его использованию возможно
существенно сократить время выполнения запросов.
Резервное копирование
HP Vertica содержит инструментарий для резервного копирования системы. Инструментарий
позволяет выполнять полные либо инкрементальные копии базы данных. Осуществляется
детализация на уровне объекта (приложение, пользователь, схема). Резервное копирование
выполняется в онлайн-режиме и не требует остановки СУБД.
Рисунок 10 Варианты резервного копирования
Резервные копии могут сохраняться на следующие компоненты:
На все узлы кластера
На один узел кластера
На другой кластер
На отдельно стоящее хранилище (NAS или ленточное хранилище)
11. Организация зон разработки и тестирования
HP Vertica участвует в цикле разработки аналитических продуктов, и важным свойством системы
является возможность создания зон разработки и тестирования. Зоны разработки и тестирования
могут разворачиваться как на продуктивной среде, так и на внешней физической, виртуальной или
облачной инфраструктуре. При этом копии данных на эти зоны дополнительно не лицензируется.
Лицензирование
СУБД HP Vertica лицензируется исходя из объема загружаемых в систему «сырых» данных,
стоимость терабайта уменьшается при увеличении объема хранилища в соответствии с
диапазонами лицензирования (1-10ТБ, 11-50ТБ, 51-100ТБ, 101-500ТБ, более 500ТБ).
Лицензируется только первая копия данных, копии на непродуктивные среды, включая Disaster
Recovery, тестовые среды и среды разработки дополнительно не лицензируются.
Гарантийная поддержка на первый год в режиме 24х7 включается в поставку лицензий и
составляет 21% от стоимости лицензий.