Поддержка высоконагруженного проекта: мониторинг, резервирование, обслуживание / Евгений Потапов (ITSumma)

Поддержка
высоконагруженного
проекта
Евгений Потапов

генеральный директор
компании ITSumma
Круглоcуточное удаленное
администрирование
серверов и техническая
поддержка сайтов
100 миллионов уникальных
посетителей в сутки
Штат – 50 человек
Более тысячи серверов на
поддержке

Содержание
• Мониторинг и его специфика
в высоконагруженном проекте
• Организация резервирования и
резервного копирования
• Организация обслуживания и
поддержки.

Цели
мониторинга
• Мониторинг как система оповещения
• Мониторинг как средство анализа
• Мониторинг как система принятия решений

Мониторинг как
система
оповещения
• Оповещение о проблемах на сервере
• Оповещение о проблемах, связанных с логикой
приложения
• Оповещение о проблемах, связанных с бизнес-
показателями

система
Требования к системе оповещения:
1. независимость от самого проекта (если он упадет
система должна продолжать работать)
2. максимально быстрое оповещение о достижении
критических показателей
3. надежность оповещений о достижении
критических показателей

система
Три уровня оповещений:
1. Проблемы на сервере (проблемы на серверном
железе/серверном ПО)
2. Проблемы на уровне приложения
(производительность подсистем, число
обращений к подсистемам)
3. Проблемы на уровне бизнес-логики (метрики
бизнеса)

Оповещения о
проблемах на
сервере
Проблемы на сервере
1. Статистика по нагрузке на CPU
(Оповещения на рост Load Average>числа
ядер, CPU idle ниже определенного порога)
2. Статистика по нагрузке на дисковую
подсистему
(увеличение времени avio, рост дисковых
операций iops, рост «busy» диска)
3. Использование оперативной памяти/swap
(снижение cached+buffers+free ниже порога,
рост использования swap (swap in / swap out)

сервере
4. Статистика по серверному софту
(падение / всплески числа запросов на веб-
сервер, статистика сервера БД, итд)
5. Внешний мониторинг ответа сервисов (время
ответа страниц, код ответа страниц, размер
ответа страниц, ошибки рендеринга в CasperJS,
время рендеринга)

сервере
Проблемы на уровне приложения
1. Число ошибок уровня приложения
(Рост числа ошибок больше заданного,
рост/падение числа событий в целом)
2. Число обращений к подсистемам/ «узлам»
(Рост/падение таких обращение)
3. Время взаимодействия приложения с
внешними сервисами
(рост времени запроса к внешним сервисам,
корректность ответов внешних сервисов на
уровне приложения)

сервере
Проблемы на уровне бизнес-логики
1. Бизнес данные на «последней миле»
технологического стека
(Bablo per minute, время с последних действий
пользователей, падение числа пользователей)
2. Эмуляция пользовательской логики
(оповещения не невозможность выполнить
пользовательские действия, оповещения на
увеличение времени ответа пользовательских
действий)

сервере
Устанавливать оповещения следует не на фатальные
состояния (не осталось места на диске, CPU загружен
на 95%), а на «контрольные точки» проекта.
1. На запуске – проект не загружен. После
первоначального «шторма», рост будет плавный.
2. Ключевая метрика роста/проблем - достижение
контрольных точек (исчерпали 25% ресурсов,
исчерпали 50% ресурсов итд).
3. В сложных решениях нужно иметь запас времени
для действий связанных с оптимизацией или
масштабированием.

система анализа
Цель – понять причину происходящих проблем
Требования:
1. возможность хранить максимально возможное
количество данных в максимально возможной
детализации
2. возможность быстро выбрать эти данные за
нужный период
3. возможность быстро отобразить выбранные
данные и детально их изучить

Необходимая функциональность:
1. Сравнение однотипных данных по разным
серверам (на каком сервере происходят
отклонения от нормы)
2. Сравнение текущих данных с историческими
данными (день назад, неделя назад, месяц
назад)
(насколько текущие показатели отклоняются от
нормы)
3. Быстрая выборка большого диапазона
исторических данных (изменение данных в

Дополнительно:
Сложная агрегация метрик (скользящая средняя,
перцентиль, группировка по минимуму, максимум
итд).

система принятия
решений
Организационный подход:
1. Данные в мониторинге следует использовать не
только для анализа причин текущих аварий, но и
для понимания что делать дальше
2. Регулярный обзор всех ключевых метрик с целью
анализа новых «контрольных точек» («через 6
месяцев мы съедим половину ресурсов»)
3. Данные в мониторинге, как средство избежать
повторяющихся ошибок

Мониторинг
Доступные решения:
1. Новый проект на старте: SaaS (Serverdensity,
NewRelic, DataDog)
2. Сложный сбор данных, развитие семейство
Graphite
3. Извращение и много ресурсов: свои системы

Резервное
копирование
Ключевые проблемы:
1. Процесс снятия резервной копии (нагрузка на
сервер)
2. Регулярность снятия резервной копии (объем
данных, время, необходимое на резервирование)
3. Время восстановления из резервной копии

Резервное
Процесс снятия резервной копии:
1. Сам по себе процесс снятия резервной копии –
тяжелая процедура
2. Резервные копии - создавать с резервных машин
3. Понимание того, что нужно резервировать: UGC
– база легкая, а статика может весить гигабайты.
База без картинок людям не нужна.
4. Бэкап без регулярной процедуры восстановления
– не бэкап.

Резервное
Резервные копии - БД:
1. Slave-сервер, как резервная копия на случай
аварии (защита от аварий с железом но не от
человеческого фактора)
2. Slave-сервер с искусственной задержкой, как
резервная копия на случай человеческого
фактора
3. Hot-backup-службы – для регулярного внешнего
резервного копирования.

Резервное
Резервные копии – БД – хранение:
1. Минимум одна копия – в пределах внутреннего
канала площадки (оперативное восстановление
при повреждении данных)
2. Минимум одна копия – на внешней площадке
(восстановление при глобальной аварии).

Резервное
Резервная копия - контент:
1. Снэпшоты/Rsync (при небольшом количестве
изменяемых данных в пределах интервала
резервного копирования).
2. Дублирование статики на резервный сервер
непосредственно сервером.

Резервное
Резервная копия - конфигурация:
1. Конфиги надо бэкапить! 

Резервное
Резервные копии – процедуры
Регулярная регламентированная процедура
восстановления проекта из резервной копии
Ключевые показатели:
1. Оценка времени, занятого на восстановление из
резервной копии
2. Оценка «отката во времени» на проекте, после
восстановление из резервной копии
3. Оценка целостности восстановленной резервной
копии

Резервирование
Ключевые вопросы:
1. Выбор площадки для резервирования
2. Мощности для резервирования и бюджеты
3. Процедуры переключения на резерв

Выбор площадки для резервирования
1. Резервная площадка не должна быть связана с
текущим датацентром (часто видим резервные
сервера в той же стойке даже на крупных
проектах)
2. Существует риск того, что резервная площадка
после переключения останется основной надолго –
она не должна быть слишком плохой по качеству
или слишком дорогой по стоимости.

Мощности для резервирования
На запуске проекта – простаивающие мощности –
лишние затраты.
1. Проект можно разделить на два ДЦ, и переходить
на один в случае аварии (тогда возможны
тормоза)
2. Гибридное облако – резерв находится в
минимальной конфигурации в облаках,
достаточной только для того чтобы принимать
репликацию. В случае аварии – масштабирование
и переключение.

Резервирование – процедуры
Регулярная регламентированная процедура
переключения на резерв (все ненавидят)
1. Оценка времени, занятого на переключение
2. Оценка целостности данных после
переключения на резерв
3. Очень не любит бизнес – риск простоя (но еще
больший риск – если не делать)

Резервирование и
резервное
1. Slave – это не бэкап
2. Бэкап в том же ДЦ – это не бэкап
3. Резерв в том же ДЦ – это не резерв
4. Бэкап, который не восстанавливали – это не
бэкап
5. Бэкап без статики – это не бэкап
6. Если не хватает места – это не отмазка
7. Резерв без переключения – это почти не резерв
8. «Я решу про бэкап на днях» – первый (из двух)
шагов к потерянным данным.

Поддержка
Все это – не работает без команды
1. Понимание внутренностей продукта, способность
локализовать проблему
2. Вовлеченность в команду (ночные алерты - это боль)
3. Стрессоустойчивость (ночные алерты – это боль)
4. Чаще всего – на старте – разработчики с задатками
админа.
5. Должны быть экстраверты (по крайней мере – те
кто будут объяснять бизнесу что случилось)

Поддержка
Все это – не работает без организации
1. Исправленная авария, шаги по исправлению
которой не документированы - не исправлена
2. Любой инцидент без алертов может случится
один раз. Это должен быть единственный раз.
3. Любые повторяющиеся процедуры,
повторяющиеся алерты должны быть описаны
4. Минимум бюрократии на этапе борьбы с
аварией, формализация – на этапе postmortem-а.

Поддержка
Режим работы
1. Старт – SMS-ки ключевым людям, телефонные
звонки
2. Дежурства: двое через двое по 12 часов –
отсутствует жизнь.
3. Категорически не должно быть одного человека
на sms-ках. Минимум двое (лучше трое)
4. У каждого из людей on-call должно быть
минимум 3 телефона критических людей для

Поддержка
Дополнительные метрики
1. Alerts per hour – для общего понимания
увеличения беды.
2. Время проведенное на серверах (рост времени –
рост проблем).
3. Запись SSH-сессий как способ просто
восстановить сделанные во время аварий
операции.
4. У каждого из людей on-call должно быть
минимум 3 телефона критических людей для

Поддержка
Еще про работу
1. Bus factor – если несколько ключевых людей
летят на одном рейсе – серверы обязательно
упадут
2. On-call с SMS-ками – всегда минимум два
способа связи при себе.
3. Идеально: редирект на другого on-call человека
при недоступности мобильного телефона.
4. Жизнь on-call людей тяжела – любите и цените
их 

Вместо выводов
1. Просто сделать и запустить – не работает
(человек тоже болеет)
2. Замониторить и больше никогда не упадет – не
работает (диспансеризация – тот же мониторинг)
3. Зарезервировать и не проверять – не работает
(каждый второй – не проверяет, 9 из 10 не
проверяет полноценно)
4. Зарезервировать, замониторить но не
организовать службу поддержки – не работает
(программисты будут смотреть как «все упало» и
не знать что делать)

http://itsumma.ru
eapotapov@itsumma.ru
http://facebook.com/eapotapov

Поддержка высоконагруженного проекта: мониторинг, резервирование, обслуживание / Евгений Потапов (ITSumma)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (14)

Similar to Поддержка высоконагруженного проекта: мониторинг, резервирование, обслуживание / Евгений Потапов (ITSumma)

Similar to Поддержка высоконагруженного проекта: мониторинг, резервирование, обслуживание / Евгений Потапов (ITSumma) (20)

More from Ontico

More from Ontico (20)

Поддержка высоконагруженного проекта: мониторинг, резервирование, обслуживание / Евгений Потапов (ITSumma)