Илья Аблеев – Zabbix в Badoo: реагируем быстро и качественно

Zabbix в Badoo
Илья Аблеев
реагируем быстро и качественно

Badoo
2девел-площадки
~3Kсерверов
4
дата-центра
2релиза в день
>200
разработчиков
2
офиса
>300Mпользователей
в цифрах
(копия продакшена)

Ведь можно настроить один раз и включить автоматику!
Главная задача отдела:
уведомить быстро о проблеме, проанализировав и найдя
корреляции или даже её причины
Зачем нужен отдел мониторинга?

“Так исторически сложилось” ©
Выполняет основные задачи системы мониторинга:
• проверить что-то (айтемы)
• отобразить статус (триггеры)
• отправить уведомления (алерты/экшены/нотификации)
Зачем нужен Zabbix?

Zabbix для нас – просто платформа
все проверки пишем сами – запуск через system.run
кастомный дашборд – отдельное приложение
дополнительные инструменты
Не Zabbix’ом единым

удобно деплоить скрипты (независимо от агента)
можно быстро и просто подебажить проблемы
проверки может написать любой (админ / программист)
Почему system.run?

Удобная визуализация:
• группировка хостов по названию триггеров
• сортировка по времени и критичности одновременно
Удобная функциональность:
• комментарии к триггерам
• акнолиджи на сутки/неделю/месяц/навсегда
• позвонить + связать звонок с инцидентом
• завести тикет в Jira
• быстро перейти в другие системы – SSH, MySQL, Grafana, …
Зачем свой дашборд?

Нет, не покажем, сильно заточен под нас
Зачем свой дашборд?

Три вида критичности:
• очень критичное – позвонить, разбудить, рассказать что чинить
• важное – уведомить как можно скорее, но может подождать
• минорное – может подождать рабочего времени
Короче:
• звонок / голос
• sms / мессенджер
• письмо / тикет
Как не пропустить важное?

можно кастомизировать иконки и действия по нажатию (зависит от ОС)
Шлём триггеры на десктоп
данные отправляются по
UDP кому угодно (в офисе)
ничего не сохраняется и
не трэкается
уведомление ни к чему не обязывает

SMS – тут всё понятно
Минусы:
• идёт долго и дорого
• агрегатор блокирует большое кол-во сообщений
• мало информации в одном сообщении
Плюсы:
• работает без интернета
SMS?

новый / модный, быстро развивается
быстрая и бесплатная отправка
нет ограничений по количеству сообщений
можно писать кучу текста и форматировать его
Telegram?
https://github.com/ableev/Zabbix-in-Telegram

Zabbix in Telegram

Zabbix in Telegram
В планах:
• минимальное обратное взаимодействие
• и ваши идеи :)
Времени нет :(

Как проверить, что всё ок?
Позвонили, сообщений накидали, людей заняли делом.
Как проверить, что всё починилось?
Можно спросить мониторинг – но очень много вопросов.
Можно пустить в заббикс – но очень много объяснять.

Как проверить, что всё ок?
Все, кто чинит проблемы – пользуется консолью (Linux).
Можно отобразить проблемы прямо в консоли.
(Додумались, конечно, не сразу, но додумались).

Триггеры в консоли

Триггеры в консоли
• видно сразу список проблем при входе
• цветном показана критичность
• формула для проверки
• комменты от команды мониторинга
Надеюсь, что выложим в open source…

False positives?
Триггеров в данный момент – 800 тысяч
Потенциально – каждый может загореться
Ложные срабатывания:
• “замываливают” глаз – вероятность пропустить реальную проблему
• генерируют много ручной работы по проверке “всё ли ок?”

False positives?
Нужен анализ триггеров:
• которые срабатывают часто (может косяк в системе?)
• загорающихся на короткий промежуток времени (отвлекающих)
• срабатывающие периодически (раз в неделю)
• …

False positives?
История триггеров = логи
Вывод: можно использовать анализатор логов / поисковый движок
Splunk, ELK (Elastic Stack)

Надеюсь, что-нибудь выложим в открытый доступ

Вопросы?
ableev@corp.badoo.com
https://t.me/ableev
https://habrahabr.ru/company/badoo/

Илья Аблеев – Zabbix в Badoo: реагируем быстро и качественно

More Related Content

What's hot

Similar to Илья Аблеев – Zabbix в Badoo: реагируем быстро и качественно

More from Badoo Development

Илья Аблеев – Zabbix в Badoo: реагируем быстро и качественно