SlideShare a Scribd company logo
1 of 41
Prometheus как
time series
database
Тимур Нурутдинов
Кто мы?
IT в Lamoda
WE CODE THE FASHION
11 млн.
пользователей
60 внутренних
систем
4 000 сотрудников
Мы делаем один из самых крупных e-commerce проектов в России
Продуктовая команда
QA
Online shop development Monitoring & Statistics
Phones, tablets, watchesiOS + Android
Product owner
Задача - посчитать “циферку”
Задача - посчитать “циферку”
Задача. Минимальные требования
• Хранить исторические данные (до месяца)
• Возможность посчитать агрегатную функцию за произвольный
интервал времени в произвольной точке
Задача. Визуализируем
Время (~месяц)t1 t2
sum([t2 - 7d, t2])
sum([t1 - 7d, t1])
e1 e2 e3 e4 e6e5
Time series. Варианты
• Gorilla
• InfluxDB
• Prometheus
• Многие другие
Time series. Gorilla
http://www.vldb.org/pvldb/vol8/p1816-teller.pdf
Gorilla
(proxy cache 26h)
HBase
(Long-term
storage)
Time series. InfluxDB
• Негативный опыт.
• Сервер переставал принимать данные.
• Кластеризация платная.
• Сложный storage – Time-Structured Merge Tree (TSM)
https://docs.influxdata.com/influxdb/v1.2/concepts/storage_engine/
Time series. Prometheus
Prometheus
• Находится в эксплуатации
• Хорошо зарекомендовал себя в мониторинге
~ 1кк метрик каждые 15 секунд
Time series. С точки зрения данных
Sample = 64bit timestamp + 64bit value
Time series data = [Sample1, Sample2 … SampleN]
Prometheus. Вопрос?
• Наши данные?
Prometheus. Наши данные
• Всего около 500 млн. событий в месяц
• key(product_id + event_type) = time series
Prometheus. Вопрос?
• Наши данные?
• Как смоделировать наши данные в терминах prometheus?
Prometheus. Metric
metric_name{label_name=“value”} timestamp value
Prometheus. Metric
metric_name{label_name=“value”} timestamp value
product_id{type=“event”} timestamp value
~ 500к ключей
Prometheus. Metric
{__name__=“product_id”, type=“event”} timestamp value
Prometheus. Metric
{__name__=“product_id”, type=“event”} timestamp1 value1
{__name__=“product_id”, type=“event”} timestamp2 value2
{__name__=“product_id”, type=“event”} timestamp3 value3
Prometheus. Вопрос?
• Какой диск выбрать?
• Сколько диска/памяти?
• Какие ключевые ручки крутить?
Prometheus. Metric
fnv(sort({__name__=“product_id”, type=“event”}))
[{timestamp1, value1} … {timestampN, valueN}]
Файл
Prometheus. Chunk
Sample = timestamp (8 byte) + value (8 byte)
Chunk (1kb) = [Sample1, Sample2 … SampleN]
Metric (файл) = [Chunk1, Chunk2 ... ChunkN]
Prometheus. Chunk
5 bytes
headers
timebase time time time time ...
value value value ...base value value
Prometheus. Chunk. Encoding (v1)
timestamp Δ ΔΔ
1000000 0 0
1000015 15 0
1000029 29 -1
Δ = tn - tn-1
ΔΔ = (tn - tn-1) - (tn-1 - tn-2)
Prometheus. Chunk. Encoding (v1)
Value
1.ΔΔ так же как для timestamp
2. 0 bytes для постоянных значений
Prometheus. Chunk. Encoding (v1)
5 bytes
headers
Δtimebase time ΔΔtime ΔΔtime ΔΔtime ...
ΔΔvalue ΔΔvalue ΔΔvalue ...base value Δvalue
3.3 bytes per sample (в среднем)
Prometheus. Chunk. Encoding (v1)
Один из наших инстансов
500к метрик / каждые 15 сек / за 50 дней
Prometheus. Chunk. Encoding (v2)
Timestamp (Varbinary)
• Если ΔΔ в [-32; 31]: 10 + 6bit
• Если ΔΔ в [-65536; 65535]: 110 + 17bit
• Если ΔΔ в [-4194304; 4194303]: 111 + 23bit
• Если ΔΔ = 0: 0 + 7bit (повторы)
Prometheus. Chunk. Encoding (v2)
Value
1.0 bytes для постоянных значений
2.ΔΔ целые с переменным числом бит
3. следующее XOR предыдущее
4. 64 bit если XOR тоже 64
https://prometheus.io/blog/2016/05/08/when-to-use-varbit-chunks/
Prometheus. Chunk. Encoding (v2)
Value
1.0 bytes для постоянных значений
2.ΔΔ целые с переменным числом бит
3. следующее XOR предыдущее
4. 64 bit если XOR тоже 64
https://prometheus.io/blog/2016/05/08/when-to-use-varbit-chunks/
1.28 bytes per sample
(в среднем)
Prometheus. Chunk
head chunk
memory
disk
evictable chunks (LRU)
PromQL
Query
Engine
one file per time series
series hash:
Prometheus. Конфигурирование
• -storage.local.target-heap-size (Стоит указывать в 1.5 меньше
реальной величины)
• -storage.local.series-sync-strategy (По умолчанию adaptive,
вероятно можно never)
Prometheus. Indexes
LevelDB (Размер кэша)
-storage.local.index-cache-size.label-name-to-label-values
-storage.local.index-cache-size.label-pair-to-fingerprints
-storage.local.index-cache-size.fingerprint-to-metric
-storage.local.index-cache-size.fingerprint-to-timerange
https://prometheus.io/docs/operating/storage/
Prometheus. Indexes
Query (regexp)
product_id{type=“event_type1|event_type2”}
label-name-to-label-values
Prometheus. Что дальше?
• Задача выполнена. Бизнес доволен :)
• НО! Не устраивает производительность на чтение
• ~ 200rps с 150ms - среднее время ответа
• Пришлось написать маленький кэш
Prometheus. Результат
Бизнес метрика
Prometheus. Результат
• Много чего знаем о tsdb, смотрим в сторону cache + aerpospike
для некоторых задач
Prometheus. Еще
•Анализ временных рядов (ручной)
•Телеметрия для IoT и автоматический анализ
•Бизнес метрики и автоматический алертинг
Вопросы?
Спасибо за внимание
Меня зовут Тимур Нурутдинов
timur.nurutdinov@lamoda.ru
We are https://tech.lamoda.ru/

More Related Content

More from Ontico

ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Ontico
 
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Ontico
 
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Ontico
 
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...Ontico
 
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)Ontico
 
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)Ontico
 
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)Ontico
 
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)Ontico
 

More from Ontico (20)

ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
 
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
 
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
 
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...
Отказоустойчивая архитектура фронтальной системы банка / Роман Шеховцов, Алек...
 
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)
libfpta — обгоняя SQLite и Tarantool / Леонид Юрьев (Positive Technologies)
 
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)
Синхронизация данных из PgSQL в Tarantool / Вениамин Гвоздиков (Calltouch)
 
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)
Хранимые процедуры в NoSQL СУБД на примере Tarantool / Денис Линник (Mail.Ru)
 
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)
Оптимизации поисковой выдачи Яндекса / Иван Хватов, Сергей Ляджин (Яндекс)
 

Prometheus как time series database / Тимур Нурутдинов (Lamoda)