Опыт внедрения и использования распределенной системы хранения данных на основе Voldemort+Tarantool

Опыт внедрения и использования распределенной
системы хранения данных на основе
Voldemort+Tarantool

О чем данный доклад?

• Опыт использования NoSQL разных типов
• Архитектура существующего решения на основе BerkeleyDB
• Цель внедрения распределенной системы хранения данных
• Архитектура хранилища данных на основе Voldemort и Tarantool
• Проблемы, с которыми столкнулись и пути их решения
• Преимущества и недостатки каждого из решений
• Результаты внедрения на примере сервиса отправки сообщений

Существующее решение
Архитектурно хранилище CP-типа с горизонтальным партиционированием:
one-db — BerkeleyDB 4.5 (Си) + Remote Interface (JBoss remoting)

Slave 1 Slave 2 Slave N

Node 1 Node 2 Node N

Master 1 Master 2 Master N

Remote interface Remote interface ... Remote interface

JBoss remoting JBoss remoting JBoss remoting
Партиционирование по
младшему байту ключа.
256 возможных партиций
Remote clients

Недостатки существующего решения

• Невысокая производительность < 10K операций в секунду с одной ноды
• Низкая отказоустойчивость (SPOF)
• Сложное обслуживание (ручная работа по восстановлению)
• Высокая стоимость оборудования (В случае интенсивных операций
update slave может использоваться только как backup)

Цель внедрения распределенной системы
хранения данных

• Высокая отказоустойчивость (SPOF)
• Неограниченная масштабируемость без down time
• Максимальная производительность на чтение/запись
• Возможность использования дешевого железа
• Простота обслуживания (минимум ручной работы, только для
восстановления персистентных отказов оборудования)

Свойства распределенных систем AP-типа

+ Высокая доступность (High Availability), отсутствие SPOF
+ Устойчивость к отказам сегментов сети (Partition tolerance)
+ Масштабируемость без down time
- Eventual Consistency (согласованность в конечном счете)
- Неопределенное состояние данных в случае timeout или quorum fail

Анализ существующих решений
• Cassandra 0.6.4
+ Табличная модель данных (на подобие Google Big Table)
+ Поддерживает Hinted Handoff
+ Java
- Отсутствие механизма разрешения конфликтов (есть только timestamp
для колонки)
• Voldemort 0.8.1
+ Разные backend (default BerkeleyDB)
+ Механизм отслеживания параллельных изменений (Vector Clock)
+ Java
- Отсутствие Hinted Handoff
• Riak
+ Сопоставим с Voldemort
- Erlang

Исследование производительности
Тесты для кластера 3 ноды с replication factor 3, read/write quorum 2
Сервера SuperMicro 2 CPU(8 cores), RAM 32 GB, 500 GB SATA 7200.
Размер данных < 5Kb, объем данных 25G, сценарий: read 50%, write 50%
• Cassandra 0.6.4
 Read: ~8-9K ops
 Write: > 20K ops
 Увеличение размеров хранимых данных для разрешения конфликтов
• Voldemort 0.8.1 (BerkeleyDB)
 Read: ~32K ops
 Write: ~7.5K ops
• Voldemort 0.8.1 (Tarantool)
 Read: ~36K ops
 Write: ~9K ops

Архитектура на основе Voldemort + Tarantool
Node 1
Voldemort clients
Voldemort
Quorum r=2, w=2
Tarantool

Node 2

Voldemort
Tarantool

...
Node N
Cleanup Scheduler
Voldemort
Quorum r=2, w=3
Tarantool

Функционирование Voldemort cluster

• Replication factor 3, quorum read: 2, write:2. R+W>N (strong consistency)
• Vector clock + Custom conflict resolver
• Использование проверок для уменьшения повторных обновлений
• Segment locks на каждой ноде для операций модифицирующих данные
• Использование soft delete (маркировка)
• Нет Hinted Handoff (частично компенсируется процедурой cleanup)

Функционирование Cleanup scheduler

• Сканирование всех ключей хранимых в Tarantool
• Проверка данных в Voldemort на наличие признака soft delete
• Восстановление данных по read repair
• Для hard delete необходимо перемаркировать с quorum write 3.
В случае успешной маркировки возможно физическое удаление

Проблемы, с которыми столкнулись
• Отсутствие Hinted Handoff (реализовано в версии 0.9)
• Ошибка в работе процедуры восстановления ноды кластера:
- Заливались данные, которые не принадлежат данной ноде согласно
hash ring
- Переполнение in-memory storage
+ Используется собственный fix (должно быть исправлено в версии 0.9)
• Особенности процедуры перебалансировки
- Нельзя одновременно переносить партиции с репликами друг друга
- Для равномерной балансировки требуется предварительный
анализ кластерной конфигурации.

Нагрузка на примере сервиса обмена сообщениями
Отосланных сообщений ~170M в день
Операций с диалогами ~30K в секунду (чтений 22K, запись 8К)

Сообщения
Диалоги

Результаты внедрения распределенного хранилища
для пользовательских диалогов
• Отсутствие SPOF
• Масштабируемость без down time
• Уменьшение размеров кластера с 18 серверов до 10 (загрузка RAM на 50%)
• Время старта кластера ~10 минут
• Время полного восстановления ноды с реплик ~30минут
• Необходимость ручной работы только в случае down time на нодах с
пересечением данных
• Увеличение среднего времени операций на ~80%
• Наличие небольшого количества повторных изменений ~3∙10-5% (~100 в
день)

Количество операций, выполняющихся на
Voldemort cluster, в 5 минут

Количество операций, выполняющихся
с пользовательскими диалогами, в 5 минут

Среднее время выполнения операций с диалогами

СПАСИБО!
к.т.н. Роман Антипин
Инженер-программист, Одноклассники.ru
roman.antipin@odnoklassniki.ru

Опыт внедрения и использования распределенной системы хранения данных на основе Voldemort+Tarantool

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (17)

Similar to Опыт внедрения и использования распределенной системы хранения данных на основе Voldemort+Tarantool

Similar to Опыт внедрения и использования распределенной системы хранения данных на основе Voldemort+Tarantool (20)

More from tfmailru

More from tfmailru (11)

Опыт внедрения и использования распределенной системы хранения данных на основе Voldemort+Tarantool