Контроль качества высоконагруженных систем / Андрей Дроздов (Avito)

Контроль качества
высоконагруженных
систем
Андрей Дроздов

Для чего проводить LT?
Дать информацию для принятия решений
Проверить то, что не попадает в predefined

Показатели
Емкость
Время отклика

Latency = transport + execution
15 минут 30 минут

Throughput = request / time
15 + 6*5 = 45 минут 30 + 5 = 35 минут

Стабильность
Доступность

Stability
● Смогут ли клиенты купить обед при поломке?
● Как быстро касса будет восстановлена?
● Насколько при этом замедлится обслуживание?
● Не потеряются ли в кассе деньги?
Метрики
● Отказоустойчивость
● Время перерегулирования
● Деградация
● Консистентность

Как долго магазин не обслуживает клиентов?

Масштабирование
Ограничения емкости

Scaling
● N обедов, если добавить еще кухню? (горизонтальное)
● N обедов, если установить более мощную плиту? (вертикальное)
● Один из компонентов обеда готовит только один повар
● Слишком мало касс (большие очереди, обедов много)
● Блюдо готовится медленно (высокий execution time)
Capacity blockers

Как искать?
● Fast run (1 минута) - понимание ситуации
● Common case - штатная проверка
● Longevity - поиск редких случаев
● Branch compare - деградация
● Per commit checking - контроль качества

Не получается выдать нагрузку
Проблема: hit-based выдает 10 krps вместо 30 krps
Предположение: Сервис тормозит

Визуально: разница между system time и user time
По-быстрому: pstack и подобные утилиты
По-серьезному: pprof

Анализ: Начинаем смотреть с уровня железа и сети (метрики)
Решение: Тюнинг буферов ядра, бонд из сетевых карт
Похожие ситуации: использование сценарных утилит в случае, где должны
использоваться hit-based
Вывод: Не продуманы ограничения инфраструктуры или модель
нагрузки

Построение требований
● Инфраструктура
○ Железо
● Модель нагрузки
○ Открытая
○ Закрытая

Синтетические тесты
Проблема: Нагрузочный тест не выявляет проблему
Предположение: Тестируем не все подсистемы

{
“first”: “John”,
“last”: “Doe”,
“params”: []
}

{
“first”: “John”,
“last”: “Doe”,
“params”: [
// lot of params
]
}

Анализ: Смотрим на разницу в данных тестов и production
Решение: Приводим тестовые данные к боевым
Вывод: Не продуманы “профили” данных

Корректность данных

○ Железо
● Данные
○ “Профиль” данных
○ Требования к консистентности *
○ Избыточность

Синтетические тесты и прогрев

○ Железо
○
○
○
● Данные

○ Железо
○
○
○ Допустимая деградация
● Данные

Синтетические тесты (2)
Проблема: Во время теста видим хорошие показатели, в
production через несколько дней теряются данные
Предположение: Настройки ttl в cold storage

Анализ: Тест длится 30 минут, в production проблемы начинаются через
сутки. Потери данных после перекладывания данных в cold storage
Решение: Делать longevity run, была найдена ошибка в настройках шардинга
Вывод: Не продуманы профили нагрузки с учетом специфики сервиса

○ Железо
○
○
● Данные

● Профили нагрузки
○ Постоянная
○ Пиковая
○ Особые случаи (domain-specific)
○ Железо
○
○
● Данные

Странные задержки VMWare
Проблема: CPU Freeze, спайки latency.
Предположение: Проблема в коде одной из подсистем.

Странные задержки на тестовом стенде
https://communities.vmware.com/thread/505923 - transparent_hugepage

Странные задержки на тестовом стенде
Анализ: Стали копать до уровня ОС: мониторинг, transparent hugepage
Решение 1: Уменьшить нагрузку/Поменять scale-unit
Решение 2: Отключить мониторинг VMWare и transparent_hugepage
Решение 3: Тестировать на реальном железе
Вывод: Не учтены особенности инфраструктуры

○ Пиковая
○ Железо
○
○
○
● Данные

○ Пиковая
● Метрики (CPU, memory, network, etc..)
○ Железо
○ Особенности инфраструктуры
○
○
● Данные

Полный ступор
Проблема: Из 10 млн транзакций не сходится 3
транзакции
Предположение: Ничего не понятно

https://github.com/jepsen-io/jepsen/blob/master/cockroachdb/src/jepsen/cockroach/bank.clj

Анализ: В каждой подсистеме ввели дополнительные метрики и начали
повторять тесты
Решение: Введена метрика “оставшихся” транзакций при обработке батча,
найдена ошибка в коде
Вывод: Не продуманы продуктовые метрики

○ Пиковая
● Продуктовые-метрики
○ Железо
○
○
● Данные

Проблема: Внутри ЦОД проблем нет, на уровне ЦОД есть.
Предположение: Проблема понятна, сложно воспроизвести
Отказ узлов в production

Анализ: Тестовый стенд эмулирует один ДЦ, ошибки между ДЦ не
проверяются
Решение: Сделать альтернативный тест с кластерами в 2 раза меньше,
уменьшить нагрузку вдвое и проверить отказ ДЦ
Вывод: Не продуманы точки отказа

○ Пиковая
○ Железо
○
○
● Данные
○ Задержка между ДЦ

○ Пиковая
● Возможные точки отказа
○ Внутри ДЦ
○ Между ДЦ
○ Железо
○
○ Время перерегулирования
● Данные

Kubernetes
Проблема: Latency меняется при каждой раскладке
Предположение: Возможно проблемы с базой

Kubernetes
Анализ: Развернули тестовый стенд отдельно, исключили проблемы в
сервисе и базе (сомнительно)
Решение: Подробно раскрывается в докладе М. Прокопчука
Быстрое решение: Внести контейнер в pod, если это возможно
Вывод: Не учтены ограничения инфраструктуры

○ Пиковая
○ Между ДЦ
○ Железо
○
● Данные

○ Пиковая
○ Между ДЦ
○ Железо
○ Ограничения доступности
● Данные

Проблема: Через неделю сильная деградация latency.
Предположение: Как с longevity test, но нет
Все продумали, а в production деградация

Анализ: Tcpdump на серверах приложений (> 1TB), понимание проблемы с
висящими сокетами
Анализ 2: Изучение внешних подсистем и их профилей нагрузки
Решение: Включить сервис в scale-unit и изучать проблему на тестовом
стенде
Вывод: Некорректно выбран scale-unit

○ Пиковая
○ Между ДЦ
○ Железо
○ Ограничения доступности
● Данные
● Scale-unit (!)

Требования к системе
Разные уровни тестов
Управление профилями нагрузки
Подключаемые нагрузочные утилиты
Сбор телеметрии и бизнес-метрик
Сравнения и per commit тесты
Автоматизация отключения узлов
Управление конфигурацией стенда
Сбор логов и данных
Конфигурируемый анализ результатов
Отчеты

Итоговая схема работы

Заключение
Чеклист выстрадан в production
Можно обойтись без тестировщика
Быстрые эксперименты
Этот подход помогает выигрывать технические тендеры
https://gist.github.com/Sulverus/b7b76a66fb13d1e8a1355694c28cf8ff

Контроль качества высоконагруженных систем / Андрей Дроздов (Avito)

Recommended

Recommended

More Related Content

Similar to Контроль качества высоконагруженных систем / Андрей Дроздов (Avito)

Similar to Контроль качества высоконагруженных систем / Андрей Дроздов (Avito) (20)

More from Ontico

More from Ontico (20)

Контроль качества высоконагруженных систем / Андрей Дроздов (Avito)