Доклад Ильи Аблеева на DevOps Meetup "Мониторинг высоконагруженного проекта".

Мониторинг
высоконагруженного проекта
Наш опыт использования Zabbix, Pinba, RRD.

Илья Аблеев

Что мы используем?
● Zabbix
○ Zabbix 1
○ Zabbix 2
● Pinba
● RRD
● User Activity Monitoring

Zabbix
●
●
●
●
●

3 датацентра
2.500 реальных хостов и алиасов
230.000 метрик
290.000 триггеров
Примерно 1.000 метрик в секунду

Zabbix 1
● Только обнаружение проблем, минимум
графиков
● Храним историю 1 день
● Не храним тренды
● Не храним ивенты (отдельная статистика)

Zabbix
Discovery, автоматизация
●

DNS. A-запись = один реальный хост
○

“чистый” DNS

○

Доменные имена для сервисов - CNAME
■

●

дополнительная логика обнаружений сервисов

Новые хосты - новый тикет в мониторинг
○

ручная “премодерация”, добавление и удаление в
полуавтоматическом режиме

RRD framework
● Собственный фреймворк
● Быстрое и удобное добавление графиков
● Масштабируемость
● Получение данных с помощью API

Pinba
● “Лёгкий” мониторинг Nginx, PHP, etc (over UDP)
● Статистика (avg, percentiles) по запросам и user defined
timer внутри них
● Хранилище, интерфейс - MySQL
● Real-time отчёты
○ by hostname, by script, by status, etc

Больше - на http://pinba.org

RRD framework
Очень много метрик и графиков: ~ 2 млн.
Как определять проблемы?

Старый вариант – Zabbix
+ Уже используем, не увеличиваем зоопарк
+ Алерты “из коробки”
– MySQL загнется от объема данных
– Ручное управление лимитами метрик

Новый вариант – UAM
Самописная утилита – User Activity Monitoring
+ Гибкая расширяемая система анализа
данных
+ Экспорт данных (REST API)
– Нужно писать код

User Activity Monitoring
● Тесная итеграция с нашим RRD фреймворком
● Простой интерфейс добавления метрик для
мониторинга
● Поддержка нескольких алгоритмов обработки
данных
○ анализ относительных значений
○ анализ абсолютных значений
● Импорт алертов в заббикс (лампочки)

Zabbix 2
● Использование дополнительного Zabbix’а для сбора
данных о системе
● Отсутствие триггеров и уведомлений
● Хранение истории за несколько лет
● Синхронизация хостов с Zabbix 1

Zabbix 2
● Встроенные механизмы агрегации данных
в Zabbix неудобны и ресурсоёмки
● Нельзя получить одну метрику по всем
серверам на едином графике “из коробки”

Zabbix 2 + RRD
Позволяет:
● сортировать кластеры по загруженности
● искать неоптимально загруженные
машины в кластере

Zabbix 2 + RRD
● amean - среднее арифметическое
● median - среднее (сортируем, выбираем среднее
значение)
● range - разница между max и min значением
● percentile 95% - для 95% машин метрика не выше
указанного значения

Вопросы?
ableev@corp.badoo.com
Habr: http://habrahabr.ru/company/badoo/
Twitter: @BadooDev

Доклад Ильи Аблеева на DevOps Meetup "Мониторинг высоконагруженного проекта".

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (15)

Similar to Доклад Ильи Аблеева на DevOps Meetup "Мониторинг высоконагруженного проекта".

Similar to Доклад Ильи Аблеева на DevOps Meetup "Мониторинг высоконагруженного проекта". (20)

More from Badoo Development

More from Badoo Development (20)

Доклад Ильи Аблеева на DevOps Meetup "Мониторинг высоконагруженного проекта".