О чем доклад: - Как в нашем проекте устроен Zabbix, применяемые нами способы автоматизации, собственные методы "дискавери" серверов и сервисов. Плюс как правильно держать Zabbix под высокой нагрузкой и не упираться в ресурсы серверов. - Для чего мы используем Pinba, какие именно метрики помогают нам узнать о реальных проблемах пользователей. - Как мы храним графики в RRD. Мониторинг этих графиков: User activity monitoring. - Zabbix -> RRD => Capacity Planning. Как быстро найти слабые места среди кластеров в десятки и сотни нод.