Метаданные для кластера: гонка key-value-героев / Руслан Рагимов, Светлана Лазарева (RAIDIX)

Метаданные для кластера:
гонка key-value героев
Руслан Рагимов
Светлана Лазарева

2
О КОМПАНИИ
«Рэйдикс» — ведущий российский
разработчик высокопроизводительных систем
хранения данных.
Уникальные алгоритмы
помехоустойчивого кодирования
составляют ключевые преимущества создаваемого
продукта.

3
О КОМПАНИИ
В области развития технологий и оптимизации
решений компания «Рэйдикс» сотрудничает
с ведущими экспертами отрасли и крупнейшими
стратегическими партнерами по всему миру.
Партнерская сеть «Рэйдикс»
охватывает системных
интеграторов и поставщиков
более чем в 30 странах мира.

Все хотят, чтобы СХД:
•Легко масштабировалась до любых
размеров
•Стоила недорого
•Была гибкой в настройке и обслуживании
•Быстро развертывалась и легко
управлялась
5

• Перебалансировка
кластера в
приоритетном режиме:
• плохо работает с
большими дисками
• Избыточность-
репликация
6

Конфигурация кластера
12 узлов по 2 NVME диска.
Linux kernel 4.9.22 собранный с
поддержкой nvme и IB.
Узлы соединены по Infiniband
драйвера MLNX_OFED_LINUX-4.0
7

Максимальная производительность.
Без отказоустойчивости.
Random write 4K Random read 4K
СEPH Bluestore 240K 540K
MDRAID (ISER) 3180K 5160K
MDRAID(SPDK) 7759K 11078K
ZFS vol 180K 408K

Что нужносейчас рынку.
• Быстрый NVME- RAID
• Быстрый сетевой NVME- RAID
9

Рабочая нагрузка. HPC
•16/32 KB IO.
•Чередование запись/чтение в сотни и
тысячи потоков

Рабочая нагрузка. Enterprise
•8-64 KB IO.
•Random read/write примерно 50/50.
•Периодически Seq Read и Write в сотни
потоков (Boot, Virus Scan)

Рабочая нагрузка.Media
• NLE (нелинейный монтаж)
Чтение и запись нескольких больших файлов параллельно
• VOD (видео по запросу)
Чтение множества потоков, иногда с перескоками
Возможна параллельная запись в несколько потоков
• Транскодинг
16-128 KB random R/W 50/50

Требования
• Основной сценарий доступа - Случайные r/w
• Размер блоков 8-64kb
• Соотношение 50/50
• Latency -1-2мс для flash
• Производительность на узел от 20ГБ/с ,от 300-500K IOPs

Распределенная система хранения.
• Доступность 99.999% (простой 5 минут в год)
• Распределенное кодирование вместо репликации
(уменьшение стоимости, размещение данных)
• Лог-структурированная запись ???
• Дедупликация+сжатие онлайн ( для виртуализации)
• Гибридное хранение
• Снэпшоты
14

Запросы к СХД от клиента
•Время поступления запроса. Latency
•Тип запроса (запись или чтение)
•Логический адрес первого блока- LBA.
Определяем откуда читать/писать- PBA.
• Размер запроса.

Лог-структурированная запись. Журнал

Блочная дедупликация
• Получаем данные
• Считаем хэш от LBA
• Проверяем совпадение
• Создаем записи в таблицах
метаданных
800 Tbуникальных данных
при размере блока 8K
Требуют 2 Tb метаданных

Как выглядят наши метаданные?
lba1 metadata1
lba2 metadata2
lbaN metadataN
8 bytes 16 bytes 24 bytes
Адресует страницу 4КБ

Какое N?
Данных на
узел (ГБ)
N Метаданных
на узел (ГБ)
3815 1 000 000 000 22.3

Какое N?
Данных на
узел (ГБ)
65536 17 179 869 184 384
3815 1 000 000 000 22.3

Какое N?
Данных на
узел (ГБ)
524288 137 438 953 472 3072
65536 17 179 869 184 384
3815 1 000 000 000 22.3

Как их можно хранить?
• Key-value БД
✓ lba – ключ, metadata - значение

• Key-value БД
• Прямая адресация

Прямая адресация
MD1 MD32MD2 MD3 MD31
pba1
lba1 lba2 lba3 lba31 lba32
lba1 metadata1
lba2 metadata2
lbaN metadataN

• Key-value БД
✓ Не храним lba = метаданных N*16Б, а не N*24Б

Попробуем выбрать KV-БД

• Встраиваемые

• Встраиваемые
• Выделенные

• YCSB
Чем тестить?
СТАНДАРТ
WORKLOAD'Ы
JAVA

• YCSB
СТАНДАРТ
WORKLOAD'Ы
JAVA НЕ ДЛЯ ДВИЖКОВ

• YCSB
• ioarena
СТАНДАРТ
WORKLOAD'Ы
JAVA НЕ ДЛЯ ДВИЖКОВ
C
МАЛО
WORKLOAD'ОВ

Какие у нас workload'ы?
Mix 50/50

Какие у нас workload'ы?
Mix 50/50
Mix 70/30
Mix 30/70
Read

Методика тестирования
1. Заполнение БД
Сброс кэшей

2. 32 потока:
1. Read
2. Mix'ы

2. 32 потока:
1. Read
2. Mix'ы
3. 256 потоков:
1. Как 32 потока

Что измеряем?
• Throughput (IOPS/RPS)
• Latency (msec):
• Min
• Max

Что измеряем?
• Throughput (IOPS/RPS)
• Latency (msec):
• Min
• Max
• Среднее квадратическое значение
• 99.99% <=

Конфигурация
CPU: 2 x Intel Xeon E5-2620 v4 2.10GHz
RAM: 16Gb
Disk: [2 x] NVMe HGST SN100 1.5TB
OS: CentOS Linux 7.2 kernel 3.11
FS: EXT4

Тесты
RocksDB
WiredTiger
Sophia
MDBX

Тесты
RocksDB
WiredTiger
Sophia
MDBX
Durability = sync | lazy | nosync

RocksDB-? WiredTiger-? Sophia-? MDBX-?
Заполнение 1млрд ключей

RocksDB
WiredTiger-? Sophia-? MDBX-?

RocksDB
Sophia-? MDBX-?
WiredTiger

RocksDB
Sophia
MDBX-?
WiredTiger

RocksDB
Sophia
MDBX
WiredTiger

RocksDB
Sophia
MDBX
WiredTiger
DATA > RAM

RocksDB
Sophia
MDBX
WiredTiger
Заполнение 1млрд ключей. MAX latency

RocksDB
Sophia
MDBX
WiredTiger
Заполнение 1млрд ключей. RMS latency

cache_size=8GB
Read. 1млрд ключей

Mix70/30. 1млрд ключей

Latency. Read. 1млрд ключей

Latency. Mix50/50. 1млрд ключей

RocksDB
WiredTiger

RocksDB
WiredTiger
Заполнение 17млрд ключей. MAX latency + RMS latency

cache_size=96GB
Read. 17млрд ключей

Latency. Read. 17млрд ключей

Latency. Mix50/50. 17млрд ключей

Выводы
Запись + мало потоков => WiredTiger

Выводы
Запись + много потоков => RocksDB

Выводы
Чтение + DATA > RAM => RocksDB

Выводы
Чтение + DATA < RAM => MDBX

Выводы
Mix50/50 + много потоков + DATA > RAM => RocksDB

Выделенные БД
• Aerospike
• Cassandra

Aerospike
• Индекс в RAM

Aerospike
• Использование RAW дисков (= нет ФС)

Aerospike
• Использование RAW дисков (= нет ФС)
• Не дерево, а хэш

Индекс Aerospike
• 64 байта на ключ

• 64 байта на ключ - ОЧЕНЬ МНОГО!

• 64 байта на ключ - ОЧЕНЬ МНОГО!
• Надо уменьшить кол-во ключей

Чит
lba1 metadata1
lba2 metadata2
lbaN metadataN
lba3 metadata3
lba4 metadata4
lba5 metadata5

Чит
lba1 metadata1
lba2
metadata2
lbaN metadataN
lba3
metadata3
lba4
metadata4
lba5 metadata5 metadata6 metadata7 metadata8

Чит
lba1 metadata1
lba2
metadata2
lbaN/4 …..
lba3
metadata3
lba4
metadata4

Чит
lba1 metadata1
lba2
metadata2
lbaN/4 …..
lba3
metadata3
lba4
metadata4
УПАКОВКА

Чит
• Получили N/4 ключей
• Таким же образом получаем N/k ключей

Чит
• Получили N/4 ключей
• Таким же образом получаем N/k ключей
• Размер значения теперь 16 * k байт

Тесты
• 17млрд ключей

Тесты
• 17млрд ключей / 64 = 265млн ключей

Тесты
• 17млрд ключей / 64 = 265млн ключей
• 16 байт значение * 64 = 1024 байт значение

Заполнение 17млрд ключей (265млн)

Заполнение 17млрд ключей (265млн). MAX latency

Read. 17млрд ключей (265млн)

Mix70/30. 17млрд ключей (256млн)

Latency. Read. 17млрд ключей (265млн)

Latency. Mix50/50. 17млрд ключей (265млн)

Выводы
Много потоков + DATA > RAM + Упаковка => Aerospike

Упущения
• ФС и её настройки имеют значение

Упущения
• Настройки виртуальной памяти

Упущения
• Настройки виртуальной памяти
• Ещё что-то..

Что дальше?
• Попробовать упаковку на RocksDB/...

• Тесты на 137млрд ключей

• Посмотреть на Cassandra/ещё что-то

• Посмотреть на Cassandra/ещё что-то
• Фрагментация
• Трудозатратно
• Выделение сразу всего места на накопителе

raidix.ru
Ragimov.R@raidix.com, Lazareva.s@raidix.ru
+7 812 622 16 80
Россия, Санкт-Петербург,
наб. р. Смоленки, д. 33
Спасибо за внимание!
118
https://github.com/ragruslan/raidixHL2017

Метаданные для кластера: гонка key-value-героев / Руслан Рагимов, Светлана Лазарева (RAIDIX)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Метаданные для кластера: гонка key-value-героев / Руслан Рагимов, Светлана Лазарева (RAIDIX)

Similar to Метаданные для кластера: гонка key-value-героев / Руслан Рагимов, Светлана Лазарева (RAIDIX) (20)

More from Ontico

More from Ontico (20)

Метаданные для кластера: гонка key-value-героев / Руслан Рагимов, Светлана Лазарева (RAIDIX)