— Чем плохи ваши перцентили?
— Почему ничего не разглядеть на хитмапах?
— Правда ли гугл маркирует медленные сайты большой красной блямбой?
— Аномалии и галлюцинации?
— Почему вы плохо спите и что такое alert fatigue?
Не про то из чего собрать мониторинг, как настроить
графит или заббикс, какую выбрать вебморду для графичков или где взять правильных плагинов.
А про то какие проблемы идеологии, статистики и человеческого восприятия ждут вас в любой системе мониторинга.
15. План
1. Мониторинг симптомов важнее железа
2. Внешний мониторинг - почему это не тру
3. Тайминги и перцентили
4. Вопросы визуализации
16. Зачем тайминги?
- Оценить “Качество Сервиса” aka SLA - Service Level Agreement
Чтобы задать себе планку-цель и к ней идти
- Оперативно следить, что с SLA все впорядке
- Отследить долгосрочный тренд — деградацию или
результат планомерных оптимизаций
17. Почему перценитили?
Есть же avg! Среднее = сумма ресурса использованного
всеми запросами / количество запросов
aka “mean” aka “average”
Нужно для capacity planning: ожидаемое использование
ресурса = сумма / количество * ожидаемое количество
Не подходит для оценки SLA
18. Почему перценитили - 2 - Медиана
“50 перцентиль aka Медиана = 5 секунд” означает что 50%
ваших пользователей получат результат менее чем за 5сек
Подходит чтобы сравнить до/после релиза — “всё ли ок?”,
две версии кода — “cработала ли наша оптимизация?”
Не подходит для оценки SLA
Или ОК, если вас волнует только 50% ваших пользователей!
19. Зачем перценитили - 2 - Медиана
“50 перцентиль aka Медиана = 5 секунд” означает что 50%
ваших пользователей получат результат менее чем за 5сек
Подходит чтобы сравнить до/после релиза — “всё ли ок?”,
две версии кода — “cработала ли наша оптимизация?”
Не подходит для оценки SLA
Или ОК, если вас волнует только 50% ваших пользователей!