4. системные ошибки (кончилось место, завис хост, …)
софтверные ошибки (выложили плохой демон / код / патч)
false positives проверок мониторинга
С какими проблемами сталкиваемся?
5. админы:
ночной и дневной дежурный, круглосуточная связь
разработчики:
1 ответственный на проблему + запасной на экстренный случай
эскалация лиду
всем:
общая рассылка и групповые чаты
Как уведомляем?
8. мониторинг точно знает, с чего начать, это у него “в крови”
всегда начеку
может проанализировать, как часто случаются подобного рода проблемы
всегда знает, кому и как эскалировать
Голова?
9. Наши основные требования к софту:
• показать список проблем – ✅
• отправить уведомления – ✅
софт, который вы используете в работе – почти не влияет на
результат
P.S. https://www.meetup.com/Zabbix-Moscow-Meetup/
Zabbix ?
10. Нет, не покажем, сильно заточен под нас
Зачем свой? Нужно отображать список проблем так, как нам и удобно
И удобно с ними работать
Требования (наши):
• комментарии к алертам
• скрыть проблему на сутки/неделю/месяц/навсегда
• позвонить + связать звонок с инцидентом
• завести тикет
• быстро перейти в другие системы – ssh, grafana, …
Инструменты: дашборд?
13. три типа смен: 9-16, 16-23, 23-9
учитываем пожелания ребят
можно меняться
в 1 день - 1 смена
на “посту” всегда кто-то есть
Смены / график / расписание?
14. раньше: 5 человек в смены, без дневного дежурного
осознание 1: нужно 6 человек
безболезненная ротация
осознание 2: днём нужны дополнительные руки / глаза
в дневной смене 2, в ночной 1
Болезни / отпуска?
15. с 11 до 20 – очень много изменений на продакшене
один человек может не справиться
ночью всё тихо / спокойно (никто ничего не ломает)
Дневной / ночной дежурный?