Распределенный отказоустойчивый сервис финансовых транзакций / Алексей Бурылов (Qiwi)

Распределенный
отказоустойчивый
сервис
финансовых
транзакций
Алексей Бурылов

Как сделать приложение:
• Горизонтально масштабируемое
• C большим числом операций на объект
• Гарантией выполнения операции один и только один раз
• Отказоустойчивое
• Устойчивое к человеческому фактору
• Дешёвая эксплуатация

Отказоустойчивость сервиса

Доступность параллельного сервиса
99.9
98.6
98.8
99
99.2
99.4
99.6
99.8
100
1 2 3 4 5 6 7 8 9 10 11 12
Доступность, %
Число узлов, шт
Одиночная база данных

98.81
98.6
98.8
99
99.2
99.4
99.6
99.8
100
1 2 3 4 5 6 7 8 9 10 11 12
Шардированая БД

98.81
99.99
98.6
98.8
99
99.2
99.4
99.6
99.8
100
1 2 3 4 5 6 7 8 9 10 11 12
Параллельная БД
Отказоустойчивая БД

CAP теорема
• Consistency (согласованность)
• Availability (доступность)
• Partition tolerance (устойчивость к разделению) :

CAP теорема:
Согласованность
• Все клиенты видят одинаковые данные
Какой у меня
баланс?
8200₽
7640₽
2 147 483 63₽

CAP теорема:
Доступность
• Любой запрос на чтение и запись может быть обработан
системой

CAP теорема:
Устойчивость к разделению
• Система способна работать при разрыве соединения между
узлами

CAP теорема
согласованность + доступность + разделение ≤ 2

Работает ли CAP теорема?

К сожалению CAP теорема работает
• Есть доказательство
• Не удалось опровергнуть
• Не получить даже два из трех

Bitcoin и CAP теорема
• Возможность двойных проводок
Согласованность
• Медленное проведение
Доступность

Bitcoin!
• Согласованность устраивает пользователей
• Доступность оставляет желать лучшего
• Идеальная устойчивость к разеделнию

Итог
• Отказоустойчивость связана с доступностью
• Система отказоустойчива если может терять ноды
• CAP параметры могут быть не дискретны
• С CAP теоремой можно жить.
• Вероятностная работа системы

Требования
• 5 000 проводок в секунду
• 1 000 проводок в секунду на объект
• Строгая согласованность
• Отказоустойчивость

Разделяй и властвуй
• 5 000 проводок в секунду
• 1 000 проводок в секунду на объект
• Строгая согласованность
• Отказоустойчивость
Шардинг
Пакетная обработка
Конценцус

Стек
Шардинг
Пакетная обработка
Конценцус

Шардинг
Счет №1
Счет №2

Шардинг
Клиент Сценарий
Исполнитель
сценария
Счет №1
Счет №2

Шардинг
Клиент
сценария
Шарды для
счета №1
Счет №1
Счет №2

Шардинг
Клиент
сценария
Шарды для
счета №1
Шарды для
счета №2
Счет №1
Счет №2

Шардинг
Клиент Результат
сценария
Шарды для
счета №1
Шарды для
счета №2
Счет №1
Счет №2

Шардинг
Клиент
Сценарий
Исполнители
сценария
Шарды для
счета №1
Шарды для
счета №2
Счет №1
Счет №2

Агрегация проводок
сценария
Нода
Block1
Tx042
Block1
Tx042
Block1
Tx042
Tx001
Tx003
Tx002

Нода
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block2
Tx001
Tx003
Block1
Tx042
Block1
Tx042
сценария

Нода
Block2
Tx001
Tx003
Tx002
Tx007
Tx001
Tx004
Block1
Tx042
Block1
Tx042
Block1
Tx042
Block2
Tx001
Tx003
сценария

Клиент
Нода
Block2
Tx001
Tx003
Tx002
Tx007
Tx001
Tx004
Block1
Tx042
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block2
Tx001
Tx003
Tx002
Block1
Tx042

Нода
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block3
Tx004
Tx007
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block3
Tx004
Tx007
Block2
Tx001
Tx003
Tx002
Block1
Tx042
сценария

Нода
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block3
Tx004
Tx007
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block3
Tx004
Tx007
Block2
Tx001
Tx003
Tx002
Block1
Tx042
Block3
Tx004
Tx007
сценария

Требования к алгоритму консенсуса
• Идеальная согласованность
• Атомарная операция с несколькими шардами
• Работа при потере одного дата центра
В терминах CAP-теоремы
• С = 1
• A ≈ 1/3
• P ≈ 1/3

Не изобретать велосипед
• Paxos
• Vertical paxos and primary-backup replication / Pages 312
• Raft
• Не устойчив

Свой алгоритм консенсуса
• Много лидеров одновременно
• Лидер совмещен с акцептором (последователем)
Недостатки
• Лишний трафик

Алгоритм консенсуса
Клиент
Нода

Любая нода
сохранила блок
Большинство нод
выбрали
одинаковый блок
Выбрать блок с
наименьшим хэшем

Любая нода
Сохранить блок в
персистентное
хранилище Большинство
нод сохранили
один блок
выбрали

Любая нода
один блок
Ждем
выбрали

Любая нода
один блок
Ждем
выбрали
Любая нода

Любая нода
один блок
Ждем
Подтверждаем
блок
Алгоритм
завершёнБольшинство нод
выбрали
Любая нода

Алгоритм консенсуса полностью
Номер
текущего
блока
Запросить
все новые
блоки
Сказать ноде
что она
устарела
Номер блока, порядковый номер блока, все время растет
Кворум это (n+1)/2 нод
Больше текущего
Меньше текущего
Текущее
состояние
Инициализировать
алгоритм либо
новым блоком
либо пришедшим
Кворум нод выбрал
один блок
Ждать/повторить
отправку
сообщений
Подтвердить блок
Завершить
алгоритм.
Записать блок в
неподтверждённо
м состоянии.
Отправить всем
сообщение
Кворум нод выбрал
один блок
меньшим хэшем
среди всех
полученных
Не инициализировано
Нача-
льный
Блок сохранен без подтверждена
Да
Нет
Да
Нет

Итог
• Шардинг наше все
• Пакетная репликация
• Есть готовые алгоритмы Raft и Paxos
• Сделать свой алгоритм консенсуса просто
• Специализированное решение лучше общего

Test-Driven Development
распределенной системы

Зачем?
• Работает ли алгоритм
• Оценка вероятностей
• Экономия времени

Тестируем конченый автомат
Фаза: null
Блок: null
Сохр: null

Фаза: Новый
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Инициализация

Падение ноды
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null

Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null

инициализация
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
2!!!
Блок: 0xEF12
Сохр: null

Фаза: Коммит
Блок: 0x4CA7
Сохр: 0x4CA7
Дошло сообщение
от других нодФаза: Новый
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Нода 1 Нода 2
Новый Новый
0x4CA7 0x4CA7
Блок: 0xEF12
Сохр: null

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
от других нод
0x4CA7 0x4CA7

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
0x4CA7 0x4CA7
Блок: 0x4CA7
Сохр: null
Не дошло
сообщение от
других нод

Тестируем три КА
Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Нода 1
Нода 2
Нода 3

Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Нода 1
Нода 2
Нода 3
Фаза: null
Блок: null
Сохр: null
Блок: 0x4CA7
Сохр: null
Блок: 0xEF12
Сохр: null
Нода 1 упала

Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Фаза: null
Блок: null
Сохр: null
Нода 1
Нода 2
Нода 3
Фаза: null
Блок: null
Сохр: null
Блок: 0x4CA7
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0x67A2
Сохр: null
Блок: 0xB23C
Сохр: null

Бесконечный автомат
• Сохраняем все состояния где мы были
• Число блоков бесконечно
• Содержимое блока не имеет значения!

Логи бесполезны!

Для отдельного узла

Думаете оно работает?

CAP теорема
• Только для дискретных величин
• Для любого A < 1 возможно A = 0
• Есть циклически переходы
• Для paxos и raft тоже
• Только если нарушается кворум

Цепь Маркова
Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
30%100%
30%
100% 50%

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
30%100%
50%
30%
100%
100%

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
30%100%*30%
50%100%
130%
30%
100%

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
30%
50%100%
15%
130%
30%
50%100%
100%*30%
50%*30%

Блок: 0x4CA7
Сохр: 0x4CA7
Блок: 0x4CA7
Сохр: null
Фаза: null
Блок: null
Сохр: null
Блок: 0xEF12
Сохр: null
Фаза: null
Блок: null
Сохр: 0x4CA7
30%
50%100%
19.5%
130%
30%
50%+15%100%
100%*30%
30%*50%
+15%*30%
50%*30%

• Есть граф
• Есть все переходы
• Присваиваем вероятности
• Суммируем возвратные состояния
Для нашей системы менее одного платежа в год.

Думаете теперь оно работает?

Изменение конфигурации опасно
• Падение – следствие изменения
• Изменение при попытке поднять

Blockchain наше все!
• Разрешить конфликт
• Обнаружить проблему после

Итог
• Алгоритм в виде конечного автомата
• Результат работы известен
• Поиск в ширину узлов графа
• Возможны возвратные состояния

Использование в криптовалюте
• Алгоритм
• Одноранговый
• Децентрализованный
• Блокчейн
• Уже есть
• Генерация центрального

Заключение
• Можно жить CAP теоремой
• Сделать свой консенсус не трудно
• Пакетная репликация
• Пишите алгоритм в виде конечного автомата
• Не забудьте протестировать на циклы

Всем спасибо
Алексей Бурылов

Распределенный отказоустойчивый сервис финансовых транзакций / Алексей Бурылов (Qiwi)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

More from Ontico

More from Ontico (20)

Распределенный отказоустойчивый сервис финансовых транзакций / Алексей Бурылов (Qiwi)

Editor's Notes