Druid - Interactive Analytics At Scale

Apache Druid - Interactive Analytics at Scale

Немного истории
• Druid вышел в свет в 2011 году как продукт компании Metamarket
• Исходный текст был открыт в 2012 году под лицензией GPL
• В 2015 году его создатели отделились от Metamarket, организовали
компанию Imply и он перешел под патронат Apache
• В 2019 году в компанию Imply было инвестировано $30M в рамках
этапа финансирования Series B, а сам Druid был оценен в $350M

Что такое Apache Druid?
Apache Druid - это колоночная база данных семейства OLAP (On-
Line Analytical Processing). Druid спроектирован с целью быстрой
обработки больших, редко изменяющихся массивов данных и
немедленного предоставления доступа к ним.
Druid чаще всего используется в качестве базы данных для случаев
использования, когда важны:
 обработка в режиме реального времени
 быстрая обработка запросов
 высокая работоспособность и отказоустойчивость
Druid лучше всего работает с данными, ориентированными на события.

Что же это Apache Druid?

Apache Druid и САР теорема
CAP теорема:
Consistency - клиент получит консистентные данные или ошибку
Availability - клиент всегда получит результат, хотя бы не консистентный
Partition tolerance - система функционирует, несмотря на потерю сообщений по
сети
A
PС
Druid ?

Особенности Apache Druid
 Колоночное хранение данных
 Мощная параллельная обработка данных
 Возможность работы в режиме реального времени или в
пакетном режиме
 Облачная отказоустойчивая архитектура
 Быстрая фильтрация
 Точные и аппроксимированные вычисления
 Интеграция с существующими сервисами обработки больших
данных

Возможности Apache Druid
 Собственная реализация индекса поиска. Реализует обратный
индекс
 Колоночное хранение данных
 Гибкая схема данных
 Разбиение данных в кластере по временной метке. Ускоряет
запросы с временным параметром
 Поддержка SQL
 Горизонтальное масштабирование

Функционирование Apache Druid
 Репликация данных
 Независимые сервисы
 Автоматическое резервирование данных
 Инкрементные обновления

Типы узлов по ответственности
Мастер:
• Overlord - координирует обработку входных данных
• Coordinator - координирует распределение данных в кластере
Узлы запросов:
• Brokers - обрабатывают запросы чтения данных
• Routers* - единая точка входа для кластера (опционально)
Узлы данных:
• Historicals - хранят данные для запросов
• MiddleManagers - обрабатывают входные данные

Сторонние сервисы
• Metastore - хранилище служебной информации. Реляционная БД:
MySQL или PostgreSQL.
• Apache Zookeeper - сервис координации узлов Druid. Еще
используется как Service Discovery и хранилище метаданных.
• Deep Storage - распределенная файловая система для хранения
данных Druid.

Запись данных
Overlord
Middle Manager
BrokerBrokerPeon
Deep storage
(HDFS, S3)
Hadoop task
Native task
Realtime task
Task
Segments
Middle Manager
BrokerBrokerPeon Segments

Запрос данных
Query Broker
Broker
Broker
Broker
Broker
Middle Manager
Broker
Broker
Historical
Deep storage
(HDFS, S3)
Segments
Streaming

Запрос данных
Coordinator
Query Broker
Broker
Broker
Broker
Broker
Middle Manager
Broker
Broker
Historical
Deep storage
(HDFS, S3)
Segments
Streaming

Логическая структура данных
Datasource1
Timestamp
Dimensions
Metrics
DatasourceN
Timestamp
Dimensions
Metrics
…

Типы Datasource
• Table - создающийся при загрузке данных
• Lookup - соответствует объекту lookup (ключ-значение) и
хранится в специальной схеме lookup
• Union - получается на основе объединения нескольких table
Datasource
• Inline - получается на основе данных, встроенных в запрос
• Query - получается на основе вложенного запроса
• Join - объединение разных типов Datasource

Структура сегмента
• Timestamp – каждая строка в Друиде обязана содержать поле времени. Данные
оптимально распределяются по кластеру используя это поле. Запросы чтения
тоже могут быть разбиты по временным интервалам: минуты, часы, дни, и т.д.
• Dimensions – колонки, которые хранятся в неизменном виде. Во время запросов
их можно группировать, фильтровать или применять агрегаторы.
Поддерживаемые типы: одиночные строки, массивы строк, Long, Double или
Float
• Metrics – колонки хранимые в агрегированном состоянии. Они вычисляются во
время Свертки (Rollup). Простые агрегирующие функции: count, sum, min, max,
first, last, и т.д. И приближенные (approximate) структуры: Count distinct
(HyperLogLog, Theta Sketch, Cardinality, HyperUnique), Histograms (Fixed Buckets
Histogram, Approximate Histogram), Quantiles (Quantiles Sketch, Moments Sketch).
Соответственно метрики должны быть целыми или с плавающей точкой числами.

Структура сегмента

Свертка данных (Rollup)

Пример спецификации загрузки данных
"dataSchema": {
"dataSource": "wikipedia",
"timestampSpec": {
"column": "timestamp",
"format": "auto"
},
"dimensionsSpec": {
"dimensions": [
{ "type": "string", "page" },
{ "type": "string", "language" },
{ "type": "long", "name": "userId" }
]
},
"metricsSpec": [
{ "type": "count", "name": "count" },
{ "type": "doubleSum", "name": "bytes_added_sum", "fieldName": "bytes_added" },
{ "type": "doubleSum", "name": "bytes_deleted_sum", "fieldName": "bytes_deleted" }
],
"granularitySpec": {
"segmentGranularity": "day",
"queryGranularity": "none",
"intervals": ["2020-10-21/2020-11-01"]
}
}

Демонстрация
• Установка
• Запуск
• Обработка данных
• Чтение данных
• Просмотр Datasource
• Просмотр сегментов

Применение Apache Druid
 Аналитика интернет серфинга (сlickstream web and mobile)
 Аналитика сетевой телеметрии (мониторинг
производительности)
 Хранилище серверных метрик
 Аналитика цепочек поставок (manufacturing metrics)
 Метрики приложений
 Анализ цифрового маркетинга или рекламы
 Различный BI (business intelligence) / OLAP (online analytical
processing)

Когда использовать Apache Druid?
• Основная операция - добавление данных. Обновления данных происходят
очень редко
• Основной тип запросов – группировка данных. Также есть поддержка
запросов поиска и сканирования
• Ожидаемое время выполнения запроса от 100 мс до нескольких секунд
• Данные содержат временной компонент
• Каждый запрос делается в пределах одной большой таблицы
• Большое количество уникальных данных (high cardinality), по которым
нужны быстрые запросы
• Данные должны быть загружены с больших файлов или источников
больших данных как Kafka, HDFS, Flink, Amazon S3, Amazon Kinesis и т.д.

Один из примеров архитектуры

Кто использует Apache Druid?

Apache Druid и САР теорема
CAP теорема:
Consistency - клиент получит консистентные данные или ошибку
Availability - клиент всегда получит результат, хотя бы не консистентный
Partition tolerance - система функционирует, несмотря на потерю сообщений по
сети
A
PС
Druid

Druid - Interactive Analytics At Scale

Recommended

Recommended

More Related Content

Similar to Druid - Interactive Analytics At Scale

Similar to Druid - Interactive Analytics At Scale (20)

More from Lohika_Odessa_TechTalks

More from Lohika_Odessa_TechTalks (20)

Druid - Interactive Analytics At Scale