Zabbix в Badoo
Илья Аблеев
реагируем быстро и качественно
Badoo
2девел-площадки
~3Kсерверов
4
дата-центра
2релиза в день
>200
разработчиков
2
офиса
>300Mпользователей
в цифрах
(копия продакшена)
Ведь можно настроить один раз и включить автоматику!
Главная задача отдела:
уведомить быстро о проблеме, проанализировав и найдя
корреляции или даже её причины
Зачем нужен отдел мониторинга?
“Так исторически сложилось” ©
Выполняет основные задачи системы мониторинга:
• проверить что-то (айтемы)
• отобразить статус (триггеры)
• отправить уведомления (алерты/экшены/нотификации)
Зачем нужен Zabbix?
Zabbix для нас – просто платформа
все проверки пишем сами – запуск через system.run
кастомный дашборд – отдельное приложение
дополнительные инструменты
Не Zabbix’ом единым
удобно деплоить скрипты (независимо от агента)
можно быстро и просто подебажить проблемы
проверки может написать любой (админ / программист)
Почему system.run?
Удобная визуализация:
• группировка хостов по названию триггеров
• сортировка по времени и критичности одновременно
Удобная функциональность:
• комментарии к триггерам
• акнолиджи на сутки/неделю/месяц/навсегда
• позвонить + связать звонок с инцидентом
• завести тикет в Jira
• быстро перейти в другие системы – SSH, MySQL, Grafana, …
Зачем свой дашборд?
Нет, не покажем, сильно заточен под нас
Зачем свой дашборд?
Три вида критичности:
• очень критичное – позвонить, разбудить, рассказать что чинить
• важное – уведомить как можно скорее, но может подождать
• минорное – может подождать рабочего времени
Короче:
• звонок / голос
• sms / мессенджер
• письмо / тикет
Как не пропустить важное?
можно кастомизировать иконки и действия по нажатию (зависит от ОС)
Шлём триггеры на десктоп
данные отправляются по
UDP кому угодно (в офисе)
ничего не сохраняется и
не трэкается
уведомление ни к чему не обязывает
SMS – тут всё понятно
Минусы:
• идёт долго и дорого
• агрегатор блокирует большое кол-во сообщений
• мало информации в одном сообщении
Плюсы:
• работает без интернета
SMS?
новый / модный, быстро развивается
быстрая и бесплатная отправка
нет ограничений по количеству сообщений
можно писать кучу текста и форматировать его
Telegram?
https://github.com/ableev/Zabbix-in-Telegram
Zabbix in Telegram
https://github.com/ableev/Zabbix-in-Telegram
Zabbix in Telegram
https://github.com/ableev/Zabbix-in-Telegram
В планах:
• минимальное обратное взаимодействие
• и ваши идеи :)
Времени нет :(
Как проверить, что всё ок?
Позвонили, сообщений накидали, людей заняли делом.
Как проверить, что всё починилось?
Можно спросить мониторинг – но очень много вопросов.
Можно пустить в заббикс – но очень много объяснять.
Как проверить, что всё ок?
Все, кто чинит проблемы – пользуется консолью (Linux).
Можно отобразить проблемы прямо в консоли.
(Додумались, конечно, не сразу, но додумались).
Триггеры в консоли
Триггеры в консоли
• видно сразу список проблем при входе
• цветном показана критичность
• формула для проверки
• комменты от команды мониторинга
Надеюсь, что выложим в open source…
False positives?
Триггеров в данный момент – 800 тысяч
Потенциально – каждый может загореться
Ложные срабатывания:
• “замываливают” глаз – вероятность пропустить реальную проблему
• генерируют много ручной работы по проверке “всё ли ок?”
False positives?
Нужен анализ триггеров:
• которые срабатывают часто (может косяк в системе?)
• загорающихся на короткий промежуток времени (отвлекающих)
• срабатывающие периодически (раз в неделю)
• …
False positives?
История триггеров = логи
Вывод: можно использовать анализатор логов / поисковый движок
Splunk, ELK (Elastic Stack)
False positives?
False positives?
Надеюсь, что-нибудь выложим в открытый доступ
Вопросы?
ableev@corp.badoo.com
https://t.me/ableev
https://habrahabr.ru/company/badoo/

Илья Аблеев – Zabbix в Badoo: реагируем быстро и качественно

  • 1.
    Zabbix в Badoo ИльяАблеев реагируем быстро и качественно
  • 2.
  • 4.
    Ведь можно настроитьодин раз и включить автоматику! Главная задача отдела: уведомить быстро о проблеме, проанализировав и найдя корреляции или даже её причины Зачем нужен отдел мониторинга?
  • 5.
    “Так исторически сложилось”© Выполняет основные задачи системы мониторинга: • проверить что-то (айтемы) • отобразить статус (триггеры) • отправить уведомления (алерты/экшены/нотификации) Зачем нужен Zabbix?
  • 6.
    Zabbix для нас– просто платформа все проверки пишем сами – запуск через system.run кастомный дашборд – отдельное приложение дополнительные инструменты Не Zabbix’ом единым
  • 7.
    удобно деплоить скрипты(независимо от агента) можно быстро и просто подебажить проблемы проверки может написать любой (админ / программист) Почему system.run?
  • 8.
    Удобная визуализация: • группировкахостов по названию триггеров • сортировка по времени и критичности одновременно Удобная функциональность: • комментарии к триггерам • акнолиджи на сутки/неделю/месяц/навсегда • позвонить + связать звонок с инцидентом • завести тикет в Jira • быстро перейти в другие системы – SSH, MySQL, Grafana, … Зачем свой дашборд?
  • 9.
    Нет, не покажем,сильно заточен под нас Зачем свой дашборд?
  • 10.
    Три вида критичности: •очень критичное – позвонить, разбудить, рассказать что чинить • важное – уведомить как можно скорее, но может подождать • минорное – может подождать рабочего времени Короче: • звонок / голос • sms / мессенджер • письмо / тикет Как не пропустить важное?
  • 11.
    можно кастомизировать иконкии действия по нажатию (зависит от ОС) Шлём триггеры на десктоп данные отправляются по UDP кому угодно (в офисе) ничего не сохраняется и не трэкается уведомление ни к чему не обязывает
  • 12.
    SMS – тутвсё понятно Минусы: • идёт долго и дорого • агрегатор блокирует большое кол-во сообщений • мало информации в одном сообщении Плюсы: • работает без интернета SMS?
  • 13.
    новый / модный,быстро развивается быстрая и бесплатная отправка нет ограничений по количеству сообщений можно писать кучу текста и форматировать его Telegram? https://github.com/ableev/Zabbix-in-Telegram
  • 14.
  • 15.
    Zabbix in Telegram https://github.com/ableev/Zabbix-in-Telegram Впланах: • минимальное обратное взаимодействие • и ваши идеи :) Времени нет :(
  • 16.
    Как проверить, чтовсё ок? Позвонили, сообщений накидали, людей заняли делом. Как проверить, что всё починилось? Можно спросить мониторинг – но очень много вопросов. Можно пустить в заббикс – но очень много объяснять.
  • 17.
    Как проверить, чтовсё ок? Все, кто чинит проблемы – пользуется консолью (Linux). Можно отобразить проблемы прямо в консоли. (Додумались, конечно, не сразу, но додумались).
  • 18.
  • 19.
    Триггеры в консоли •видно сразу список проблем при входе • цветном показана критичность • формула для проверки • комменты от команды мониторинга Надеюсь, что выложим в open source…
  • 20.
    False positives? Триггеров вданный момент – 800 тысяч Потенциально – каждый может загореться Ложные срабатывания: • “замываливают” глаз – вероятность пропустить реальную проблему • генерируют много ручной работы по проверке “всё ли ок?”
  • 21.
    False positives? Нужен анализтриггеров: • которые срабатывают часто (может косяк в системе?) • загорающихся на короткий промежуток времени (отвлекающих) • срабатывающие периодически (раз в неделю) • …
  • 22.
    False positives? История триггеров= логи Вывод: можно использовать анализатор логов / поисковый движок Splunk, ELK (Elastic Stack)
  • 23.
  • 24.
  • 25.
  • 26.