Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
#DisccovertheNEW Micro Focus с #командой MONTYuri Yashkin
More Related Content
Similar to Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
Similar to Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ (20)
Использование аналитической платформы HPE Vertica для управления большими объемами данных, фиксируемых интеллектуальными приборами учета в отраслях энергетики и ЖКХ
3. Содержание
Рост и возможности Интернета вещей...........................................................................................................................................4
Сценарий использования: интеллектуальный учет потребления ресурсов в сфере ЖКХ и энергетики..........................4
Исследуемая система........................................................................................................................................................................6
Экспериментальная методология...................................................................................................................................................6
Экспериментальные результаты
Загрузка и восстановление данных...............................................................................................................................................7
Анализ данных интеллектуальных приборов учета...................................................................................................................8
Совокупное энергопотребление......................................................................................................................................................8
Основные преимущества...............................................................................................................................................................10
4. 4
1
«Интернет вещей (The Internet of Things)»,
McKinsey Quarterly, март 2010 г.
2
«IDC: Интернет вещей изменит всё (The In-
ternet of Things Is Poised to Change Everything,
Says IDC)», пресс-релиз IDC, 3 октября 2013 г.
3
«Возможности: Интернет вещей становится
средой передачи данных в режиме реального
времени (Opportunities: The Internet Is Becoming
A Real-Time Medium», Harbor Research, 2013 г.
Ожидается, что Интернет вещей объединит миллиарды датчиков,
непрерывно собирающих данные о контролируемых ими машинах, активах
и средах. Организациям, которые хотят получить от этого выгоду, требуется
масштабируемая платформа аналитики Больших данных для эффективного
управления наборами данных и их быстрой обработки. Для демонстрации
того, как HPE Vertica и ее SQL-механизм аналитических запросов позволяют
воспользоваться широчайшими возможностями Интернета вещей,
рассмотрим сценарий применения интеллектуальных приборов учета крупной
электроэнергетической компанией, обслуживающей 40 млн потребителей.
Полученные результаты подтверждают, что платформа аналитики HPE Vertica
обеспечивает стабильную сверхвысокую производительность при хранении
информации, собранной за более чем десятилетний срок (22,8 трлн показаний
интеллектуальных приборов учета, 726 ТБайт данных), в кластере из восьми
серверов HPE DL380p ProLiant Gen8.
Рост и возможности Интернета вещей
Поскольку все больше физических объектов встраивается в сеть датчиков
и приводных механизмов, количество и сложность генерируемых ими
данных будет расти в геометрической прогрессии. Как отмечают эксперты
McKinsey, с появлением Интернета вещей «мир физических сущностей
становится одним из видов информационных систем», где подключенные к
сети объекты «порождают огромные объемы данных, которые стекаются в
компьютеры для последующего анализа»1
. Обработка этих данных (наряду
с информацией, генерируемой людьми) и управление ими позволяют
реализовать огромный потенциал Интернета вещей (IoT) и улучшают нашу
способность решать проблемы, возникающие в окружающем нас мире.
Расширенная SQL-аналитика обеспечивает безопасность киберфизических
систем и предоставляет ценные сведения, используемые для принятия
бизнес-решений и создания новых сервисов, способствующих успешному
развитию предприятий. В будущем эти технологии охватят значительную
часть рынка IoT (объем которого, по оценкам IDC, к 2020 году составит 8,9
трлн долл.)2
. Как отмечают в компании Harbor Research, масштабы выгод,
получаемых в результате использования Интернета вещей, будет зависеть от
качества управления, понимания и реагирования на огромные объемы данных,
создаваемых людьми и машинами в режиме реального времени3
.
Сценарий использования: интеллектуальный
учет потребления ресурсов в отраслях
энергетики и ЖКХ
Внедрение систем интеллектуального учета, или расширенной
инфраструктуры учета потребления (Advanced Metering Infrastructure, AMI), —
одна из главных тенденций отраслей энергетики и ЖКХ. Истощение ресурсов,
необходимость управлять спросом и обеспечивать соответствие требованиям
регуляторов (что актуально в ряде стран), вынуждают многие предприятия,
снабжающие потребителей электричеством, газом, водой и теплом,
развертывать инфраструктуры интеллектуального учета потребления, которые
могут генерировать огромные объемы данных. Поскольку энергокомпаниям
5. 5
4
Согласно прогнозам Navigant Re-
search, расходы энергокомпаний на
внедрение и использование ИТ-систем
для интеллектуальных электросетей
вырастут с 8,5 млрд долл. в 2013 году до
19,7 млрд долл. в 2022 году (совокупный
среднегодовой темп роста за этот период
составит 9,7 %). «ИТ-системы для
интеллектуальных электросетей (Smart
Grid IT Systems)», Navigant Research, 4-й
квартал 2013 г.
придется находить способы хранения этой информации и извлечения из нее
выгоды для своего бизнеса, они в первую очередь станут рассматривать
возможность применения технологий Больших данных и SQL-аналитики в
режиме реального времени. По оценкам Navigant Research, в общей сумме
расходов на программное обеспечение и услуги для интеллектуальных
электросетей (Smart Grid)4
затраты на обработку этого потока данных к 2020
году достигнут почти 20 млрд долл. В отличие от систем управления данными
приборов учета (Meter Data Management, MDM), которые предлагаются
другими вендорами, платформа аналитики HPE Vertica не является обычной
реляционной СУБД, модифицированной для работы в качестве MDM-системы,
и обладает очевидными преимуществами.
Приборы учета размещаются в жилых
и коммерческих зданиях клиентов.
Зафиксированные ими данные
передаются через беспроводные
сети в несколько головных узлов, а
затем направляются в систему MDM
для агрегации, хранения и поддержки
различных бизнес-процессов, в том
числе выставления счетов клиентам
энергокомпании. Развертывание
многочисленных интеллектуальных
приборов учета и их подключение к
головным узлам — дорогостоящий и
трудоемкий процесс, который обходится
в миллионы долларов и зачастую
занимает несколько лет. В настоящее
время большинство компаний ЖКХ и
энергетики не обладает подробной
информацией о производительности
или возможностях ИТ-систем, в которых
хранятся их данные.
В представленном здесь сравнительном тестировании использовались
конфигурационные характеристики реального поставщика электроэнергии. В
связи с отсутствием достаточного набора эмпирических данных, полученных
из реальной интеллектуальной электросети, мы разработали генератор
синтетических данных, который имитирует показания каждого прибора
учета и агрегирует их для последующей загрузки в MDM-систему. Чтобы
точно воспроизвести типы изменчивости в наборах эмпирических данных,
мы создали и протестировали реалистичную модель бытового потребления
электроэнергии на основе относительно небольшого набора эмпирических
данных, полученного от поставщика. Наша модель отражает разброс значений
между отдельными приборами учета, а также суточные и сезонные колебания.
Тем самым гарантируется, что исследуемая система ведет себя так же, как и
реальная система электроэнергетической компании. Каждое синтетическое
показание прибора учета имеет те же три поля, что и набор эмпирических
данных:
• время, когда было снято показание прибора учета;
• уникальный идентификатор прибора учета, выполнившего измерение;
• величина потребления.
1 % синтетических показаний интеллектуальных приборов учета (типичная
доля данных, теряемых в ходе сбора показаний приборов учета, о которой
сообщают их производители) намеренно отбрасывался, чтобы оценить
производительность HPE Vertica при восстановлении данных.
Прибор учета 1
Прибор учета i
Головной узел 1
Прибор учета j
Головной узел H
Прибор учета M
Рисунок 1. Типичная среда интеллектуального
учета потребления
6. 6
Таблица 1. Характеристики набора данных приборов учета
Параметры Значение
Количество домовладений 40 млн
Интервал выборки 10 мин (144 в день, 7 дней в неделю)
Точность измерений С точностью до ватта
Доля потерянных показаний 1 %
Всего показаний 22,8 трлн
Таблица 2. Конфигурация сервера HPE ProLiant DL380p Gen8
В каждом сервере
Два процессора Intel® Xeon® E5-2670
Память 128 Гбайт
Два жестких диска SAS 10 тыс. об/мин по 300 Гбайт
Два жестких диска SAS 10 тыс. об/мин по 22 900 ГБайт
Два двухпортовых сетевых контроллера Ethernet 10 Гбит/с
Операционная система Red Hat® Enterprise Linux® 6.4
В таблице 1 приведены основные высокоуровневые характеристики нашего набора данных.
Исследуемая система
В экспериментах, описанных в этом документе, использовалась платформа аналитики HPE Vertica версии 7.0.0. Мы
установили ее в кластере из восьми серверов HPE ProLiant DL380p Gen8. Конфигурация каждого сервера DL380p
приведена в таблице 2. Два жестких диска по 300 ГБайт были сконфигурированы в массив RAID 1 и использовались для
развертывания операционной системы и каталога СУБД. Жесткие диски по 22 900 ГБайт сконфигурированы в массив RAID
10 и использовались для данных, хранящихся в СУБД. Девятый сервер DL380p Gen8 предназначался для управления
экспериментами и сбора результатов. Серверы были соединены между собой с помощью сетевого коммутатора HPE
5900AF-48XG-4QSFP+.
Экспериментальная методология
Наше сравнительное тестирование состоит из трех основных этапов: загрузка, восстановление и анализ данных,
поступающих в течение одного дня с 40 млн приборов учета. Генерация данных является частью нашего
экспериментального процесса, но не тестирования. На этапе загрузки необработанные данные загружаются
во временную «подготовительную» область в HPE Vertica. Поскольку MDM-система должна выявлять и исправлять
недостаточно качественные «сырые» данные (то есть выполнять процедуры проверки, оценки и редактирования
[Validation, Estimation, and Editing, VEE]), мы используем встроенные в HPE Vertica средства заполнения пробелов
в данных и их интерполяции (Gap Filling and Interpolation GFI), которые входят в состав ее функций аналитики временных
рядов. Это позволит выявить и восстановить потерянные показания. Наконец, мы создаем набор запросов данных
за месяц, чтобы оценить производительность их выполнения. Здесь мы сосредоточимся на двух запросах: обработаем
временные ряды, характеризующие энергопотребление, и рассчитаем стоимость электроэнергии с учетом времени
суток. В первом запросе вычисляется сумма всех значений потребления в течение месяца для каждого 10-минутного
интервала, что позволяет понять закономерности спроса. Во втором запросе для каждого отдельного клиента
рассчитываются четыре важных фактора, оказывающих влияние на стоимость (пиковая, непиковая и полупиковая
Рисунок 2. Процесс загрузки и восстановления
Подготовительная таблица 1
Основная таблица
Узел 8: «сырые» данные Подготовительная таблица 8
Узел 1: «сырые» данные
Загрузка
Восстановление
Загрузка
7. 7
нагрузка, а также совокупное потребление за указанный месяц). Каждый из запросов — пример того, как подробные
показания интеллектуальных приборов учета дают более полное представление о том, кто использует ресурсы
энергокомпании в тот или иной период времени, позволяя управлять бизнесом с большей гибкостью.
Эти этапы тестирования отражают «один месяц из жизни энергокомпании» — ту часть деятельности, которая связана
со сбором и анализом данных. Для 31-дневного месяца восстановленный набор данных с 40 млн приборов учета,
установленных в электросети, содержит более 178 млрд показаний — в 4464 раза больше, чем если бы компания
считывала показания каждого прибора учета только раз в месяц. Это свидетельствует о том, что по мере все большего
распространения интеллектуальных приборов учета имеющиеся системы уже не смогут справляться
с лавинообразным ростом данных.
Поскольку поставщик электроэнергии захочет сохранить ранее накопленные данные, чтобы повысить окупаемость
своей расширенной инфраструктуры учета потребления, этапы ежемесячной загрузки, восстановления и анализа
будут повторяться до тех пор, пока в нашем кластере не закончится свободное пространство для хранения собранных
данных. Это позволяет получить представление о «десятилетии жизни энергокомпании» и о том, как работает
платформа аналитики HPE Vertica после того, как управляемый ею объем данных увеличивается на два порядка.
Следующий после заполнения основной базы данных HPE Vertica шаг заключается в повторном анализе данных
за каждый месяц. Чтобы поставщики энергии могли извлекать из накопленных ранее данных пользу для своего
бизнеса, важно понять, насколько быстро (по сравнению с недавно сохраненной информацией) их можно обработать
средствами поисковых запросов.
Платформа аналитики HPE Vertica включает в себя конструктор баз данных Database Designer (DBD) — полезный
инструмент для оптимизации структуры данных, позволяющий существенно повысить производительность выполнения
запросов. В нашем исследовании DBD был запущен один раз — после того как в систему были впервые загружены
данные за месяц. Мы использовали DBD только в рамках запроса для обработки временных рядов, характеризующих
электропотребление, добиваясь тем самым более эффективной организации данных на диске. На практике DBD может
применяться для создания нескольких «проекций» данных, чтобы оптимизировать производительность широкого
спектра запросов. В нашем исследовании DBD определил структуру для эффективного хранения данных и позволил
быстро выполнять наши запросы.
Экспериментальные результаты
Загрузка и восстановление данных
Платформа аналитики HPE обладает масштабируемой архитектурой. Одно из ее преимуществ заключается в том, что
каждый узел кластера может загружать информацию и размещать «сырые» данные в отдельной подготовительной
таблице, предназначенной только для этого узла. На этапе восстановления такие «сырые» данные объединяются в
основной таблице, в которой сохраняются исправленные данные. Этот процесс отображен на рис. 2. Основная таблица
содержит три столбца, по одному для каждого поля в показаниях приборов учета (время, идентификатор прибора
учета, величина потребления).
На рис. 3 показана производительность платформы аналитики HPE Vertica при загрузке и восстановлении данных,
поступающих от интеллектуальных приборов учета. Исследуемая система, состоящая из восьми серверов HPE
DL380p ProLiant Gen8 под управлением HPE Vertica 7.0.0, смогла вместить данные за 130 месяцев, собранные с 40 млн
интеллектуальных приборов учета. Это 22,8 трлн показаний с совокупным набором данных 726 ТБайт. Как показано на
рис. 3(a), в течение всего эксперимента платформа HPE Vertica непрерывно загружала от 37 до 40 млн показаний/сек,
даже когда доступное пространство хранилища было израсходовано. Начальный этап эксперимента завершился после
загрузки данных за 130 месяцев, когда вся имеющаяся емкость была заполнена.
Рисунок 3. Скорость загрузки и восстановления показаний интеллектуальных приборов учета в HPE Vertica 7.0.0
8. 8
На рис. 3(б) представлена производительность HPE Vertica 7.0.0 при
восстановлении данных. Данные за первый месяц были восстановлены и
сохранены в основной таблице со скоростью 8,3 млн показаний/сек. После
запуска конструктора баз данных DBD использовалась структура с более
эффективным хранилищем (с более высокой степенью сжатия данных). Это
позволило сохранить большее количество показаний интеллектуальных
приборов учета. Один из компромиссов — повышенные затраты на добавление
показаний в основную таблицу из-за использования алгоритмов сжатия.
Для остальных месяцев средняя скорость восстановления составила
7,4 млн показаний/сек. Важно отметить, что инструментарий DBD может
применяться для создания альтернативных или дополнительных структур
данных, называемых проекциями, и позволяет по-разному настраивать СУБД.
В этом эксперименте мы рассматривали только структуру с эффективным
хранилищем.
Анализ данных интеллектуальных приборов учета
После того как восстановленные данные сохранены в основной таблице,
она готова к анализу. Мы описали два возможных запроса к данным
интеллектуальных приборов учета, которые могла бы сделать энергокомпания.
Эти запросы были выбраны потому, что оба демонстрируют, как можно быстро
извлечь полезную информацию из больших объемов данных, ежемесячно
собираемых интеллектуальными прибора учетами.
Запрос на обработку временных рядов энергопотребления агрегирует значения
потребления со всех 40 млн приборов учета, позволяя определить совокупное
энергопотребление в каждом 10-минутном интервале. Этот запрос помогает
понять, как меняется характер потребления. Например, на рис. 4 показаны
временные ряды совокупного энергопотребления для электросети с 40 млн
пользователей за один месяц (в данном случае — март), на основании
которых мы можем сделать несколько выводов. Во-первых, существует
четкая зависимость от времени суток: самый низкий спрос характерен для
раннего утра, первый пик происходит после полудня, а суточный пик — ранним
вечером. Эти показатели коррелируют с типичным распорядком дня людей.
Во-вторых, заметно изменение пиков в течение месяца. В начале марта
вечерний пик значительно превышает полуденный, а к концу марта он лишь
немного выше. Это связано с сезонными изменениями: в теплую весеннюю
погоду потребность в использовании электрообогревателей уменьшается
(рассматриваемый поставщик электроэнергии находится в северном
полушарии).
Совокупное энергопотребление
Рисунок 4. Графическое представление результатов запроса для обработки временных
рядов за один месяц
На основе этого простого сценария легко представить, как предприятие может
использовать такого рода информацию. Например, если 31 марта был обнаружен
высокий пик ранним утром, стоит подробнее проанализировать данные, чтобы
выяснить причины аномалии. Для этого СУБД должна быстро обрабатывать
подобные типы запросов. Приведенные ниже результаты подтверждают, что
платформа аналитики HPE Vertica обладает такой способностью.
9. 9
Рисунок 5. Производительность выполнения запроса для обработки временных рядов энергопотребления: (a) первоначальный анализ,
(б) повторный анализ
На рис. 5(a) показано, насколько долго обрабатывался запрос временных
рядов энергопотребления за каждый месяц. Измерения проводились сразу
после восстановления и добавления данных в основную таблицу. В этом
эксперименте данные, собиравшиеся в течение месяца с 40 млн приборов
учета, составили почти 6 ТБайт (без сжатия). На основании полученных
результатов можно сделать вывод, что HPE Vertica обрабатывает такое
количество данных и рассчитывает совокупное энергопотребление для каждого
интервала приблизительно за 400 миллисекунд, обеспечивая взаимодействие
пользователей с данными. В частности, для этого запроса требуется
информация, которая хранится в двух из трех столбцов основной таблицы.
Такая оптимизация позволяет существенно уменьшить объем данных, которые
нужно считать с диска и распаковать.
Вкладывая огромные средства в инфраструктуру интеллектуального учета
потребления, энергетические компании стремятся извлекать выгоду и из ранее
накопленных данных. На рис. 5(б) показано, за какой срок осуществляется
повторный запуск анализа временных рядов ежемесячного энергопотребления
после того, как в базу данных было внесено 22,8 трлн показаний. Судя по
графику, запрос выполняется практически с той же скоростью, что и сразу
после загрузки данных за указанный месяц. Другими словами, HPE Vertica
обеспечивает быстрый доступ к новым данным без ущерба для скорости
доступа к «старой» информации: в обоих случаях производительность очень
высока.
Предприятиям, развертывающим интеллектуальные приборы учета, будет
также интересен запрос на расчет стоимости электроэнергии с учетом
времени суток. Это более сложный запрос, чем при анализе временных рядов
энергопотребления. В нем используются все столбцы основной таблицы,
включая данные об идентификаторах, хранимые с высокой степенью сжатия.
Как показано на рис. 6(a), такой анализ осуществлялся для каждого месяца в
течение примерно 10 мин (в среднем 553 секунды), что значительно дольше,
чем в случае запроса на обработку временных рядов энергопотребления,
но все же на порядок быстрее, чем это происходит сегодня во многих
компаниях из сфер энергетики и ЖКХ. Например, обычная текущая практика —
ежемесячно посвящать несколько ночей пакетной обработке для выполнения
таких задач, как вычисление основных факторов, влияющих на стоимость
энергоресурсов. Благодаря платформе аналитики HPE Vertica необходимость
в пакетной обработке устраняется. Хотя расчет основных факторов стоимости
электроэнергии с учетом времени суток, возможно, понадобится только раз
в месяц, приведенные на рис. 6(а) результаты подтверждают: эффективная
платформа позволит предприятиям делать то, на что раньше у них не было
доступных возможностей. Кроме того, согласно этим результатам, HPE Vertica
и ее механизм SQL-аналитики гарантируют стабильную производительность
даже при непрерывном росте объемов баз данных.
10. 10
Рисунок 6. Производительность выполнения запроса на расчет стоимости с учетом времени суток: (a) первоначальный анализ, (б)
повторный анализ
На рис. 6(б) представлено скорость обработки запроса на расчет стоимости
с учетом времени суток для накопленных данных после полного заполнения
имеющихся ресурсов хранения. Как и в случае запроса временных рядов
потребления, достигнутые показатели вполне согласуются с результатами,
полученными при первом добавлении данных в основную таблицу.
Для итоговой демонстрации возможностей платформы аналитики HPE Vertica
мы запустили запрос на расчет стоимости с учетом времени суток по всему
набору данных (22,8 трлн показаний, 726 ТБайт). Его обработка заняла
15 часов 12 минут, хотя набор данных был в 130 раз больше, чем при обычном
ежемесячном цикле выставления счетов. Конечно, маловероятно, что какая-
то компания будет ждать целое десятилетие, прежде чем отправить счета
своим клиентам. Однако этот тест позволяет с уверенностью утверждать,
что платформа аналитики HPE Vertica успешно справится даже с самыми
сложными запросами.
Два описанных выше запроса — примеры функциональных возможностей HPE
Vertica, которыми могут воспользоваться предприятия из отраслей энергетики
и ЖКХ для сбора и анализа больших объемов данных интеллектуальных
приборов учета. Кроме того, с помощью SQL-интерфейса HPE Vertica можно
с легкостью создать и запустить любой запрос к этим данным.
Основные преимущества
Расширенная инфраструктура учета потребления будет собирать в тысячи
раз больше данных, чем те системы, которые до сих пор использовались
большинством энергокомпаний. Платформа аналитики HPE Vertica дает
возможность с легкостью обрабатывать этот поток информации.
Она была тщательно протестирована на предмет соответствия требованиям
к хранению и анализу данных интеллектуальных приборов учета. Сравнение
общедоступных показателей нескольких аналитических платформ показало,
что такие данные, собранные крупным поставщиком электроэнергии более чем
за 10 лет, способна хранить и анализировать только HPE Vertica.
Примеры, представленные в этом документе, наглядно демонстрируют, что HPE
Vertica позволяет энергокомпаниям и прочим организациям извлекать выгоду из
больших наборов данных на несколько порядков быстрее, чем решения других
разработчиков.
Дополнительная информация —
на сайте: www.vertica.com