Когда вы узнаете, что ваш сервис не работает, вы идете в мониторинг, видите много алертов про CPU/load average/diskIO/и т.д., пускаете слезу и идете читать логи. Сначала на фронтенды, потом дальше по стеку. У многих уже есть grafana и подобные дашборды, но почти всегда там есть только метрики про приложение и пользователей, но нет ничего про сеть, базу и другие подсистемы, от которых зависит работа сервиса. Мониторинг должен помочь быстро понять, в каком сервисе проблема, а, может, даже показать причину проблемы. Я расскажу и покажу на примере hh.ru, как покрыть мониторингом все слои инфраструктуры: - client-side метрики; - метрики с фронтендов (логи nginx); - сеть (что можно добыть из TCP); - приложение (логи); - метрики базы данных (postgresql в нашем случае); - операционная система (cpu usage тоже может пригодиться:).