Webzilla - новые сервисы и наш опыт достижения идеального аптайма
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осиповым
1. На пути к
100% uptime
или что следует делать для
достижения 100% uptime
Игорь Мызгин
Станислав Осипов
2015
2. Докладчики
Игорь Мызгин
• XBT / Webzilla
• 15+ лет в IT, опыт
работы как со
стороны поставщика
услуг, так и со
стороны потребителя.
• Последние 10 лет -
вопросы создания,
развития и продаж
дата-центров и услуг
на их базе.
Станислав Осипов
• Системный
администратор
R&D департамента
CityADS
• 15+ лет в IT
• Более 10 лет -
специализация на
развертывании,
эксплуатации и
развитии IT-
инфраструктур.
3. Профиль CityADS
• Холдинг из нескольких компаний,
специализирующийся на интернет-
рекламе.
• 1+ млрд рублей оборота.
• Две независимые рекламные платформы.
• Присутствие
– офисной инфраструктуры в 10 странах
– серверной инфраструктуры в 6 локациях: RU,
NL, BR, HK, CN, US
• Чувствительны к задержкам, потерям,
полосе и профессиональности саппорта
4. 3 вида настоящих проблем
• На стороне хостера
• Связность промежуточных сетей
• На стороне потребителя услуг
5. Причины сбоев связи
2
5
6
6
7
10
12
16
22
31
34
40
57
61
72
100
117
Faulty hardware change / update
Denial of Service attack
Cooling outage
Malware and viruses
Software bug
Power surges
Overload
Cable theft
Policy / procedural flaw
Flood
Power cut
Cable cut
Hardware failure
Fire
Heavy wind
Heavy snow / ice
Faulty software change / update
ENISA Annual Incident Report 2014
7. Меняем хостера на
качественного
+ OpEx на хостинг (фиксированная и предсказуемая сумма)
- OpEx сбоев (уменьшаем риск и непредсказуемые расходы)
98.9
Стало
Сбои связи
Сбои хостера
Оверхед от сбоев
хостера и связи
Сбои на стороне
клиента
10
10
2060
Было
0.10.9
0.1
8. Что нужно, чтобы научиться
различать типы сбоев?
1. Навести порядок в инфраструктуре: SysOps
2. Навести порядок в мониторинге: SysOps, DevOps
3. Навести порядок в конфигурациях: SysOps,
DevOps
4. Навести порядок в правах доступа людей к
системам: SysOps, Managers
5. Навести порядок в процессах тестирования и
развертывания: DevOps, QA, Managers
6. Навести порядок в обработке инцидентов и
решении проблем: SysOps, Managers
7. Навести порядок в коде: R&D, DevOps, Managers
"Ordnung muss sein!"
9. Мониторинг
• Инвестиции времени в
мониторинг - лучший способ
избежать настоящих убытков.
• Чем больше видим у себя, тем
больше различаем свое и чужое.
• Больше одной системы
внутреннего мониторинга и
больше одной - внешнего.
• Внешняя система не должна
позволять стирать инциденты.
10. Чем мы пользуемся
Внешний мониторинг:
– NR Synthetics, Monit-it, Pingdom
– NR Browser, Grabzit
Внутренний мониторинг:
– Zabbix, NR APM
– собственные скрипты
Бизнес мониторинг:
– SimilarWeb, сервис собственной
статистики трафика с
менеджерскими интерфейсами
22. HR аспект
Почему так?
Люди двух типов:
• Умеют скрывать проблемы
– мало мотивации решать проблемы.
• Не умеют скрывать проблемы
– не задержатся при наличии негативных
механизмов.
Рекомендация:
Фиксированный бонус (от 80 до 100%
оклада) за каждый календарный месяц
uptime выше 99.98%
23. Мы все исправили!
Что теперь?
• Может выясниться, что хостера менять
не нужно!
• Выстраивайте отношения по
интересующим вас услугам и уровню
сервиса.
• Имя и контакты Account Manager?
• Делегируйте заботу поддержания
контакта тому, кто умеет.
• Открывайте новые возможности без
дополнительной проблемы в виде
переезда.
25. Как правильно начать
• NDA – не надо так!
• Невнятное поведение, путаница в
требованиях?
• Специфические технологии?
• Законодательные ограничения?
• Сложный процесс отбора?
Решение: RFP (request for proposal)
Переписка и общение:
Будьте тем, кто вы есть.
26. Про маркетинг
«SLA» 100.00% uptime?
Public offer / legal documents на сайте.
«Мелкий шрифт» и «звездочки» (сноски) в договорах,
условиях и КП.
Имя владельца/оператора физической площадки?
Хостер занимается всем подряд?
Разведка через социальные сети (LinkedIn и т.п.):
– Сколько у них инженеров?
– Сколько R&D?
– Кто ключевые технари?
– Давно ли они в компании?
– Чем раньше занимались?
28. Что поможет получить самые
вкусные условия от хостера?
Прозрачность политики выбора.
Долгосрочные отношения.
Открытость и честность.
Деловая культура:
– Посвящать критериям и процессу отбора
отдельный раздел в RFP.
– Уведомлять о статусе процесса отбора на
этапе до конечного принятия решения с
корректным пояснением причин отсева.
30. Что учитывать? Часть 1 - DC
• Класс датацентра по TIA-942 (все и в частности -
защита от блэкаутов?).
• Удобство и скорость связи с:
– техподдержкой
– эккаунт менеджером
• SLA (соглашение об уровне сервиса).
• Физическое расположение площадки/площадок,
регламенты доступа, склады для клиентоского
ЗиПа?
• Наличие услуги аренды места для бэкапа
– скорость предоставления
– максимальный объем бэкапа
– его стоимость
– максимальный объем должен быть не меньше самого
31. Что учитывать? Часть 2 - telco
• Опорный телеком хостера
– Каналы: тип, суммарная емкость,
текущая загрузка.
– Dedicated или shared полоса. Ее
возможный максимум. Цена полосы и
превышения.
– IP адреса (если у вас нет AS) и
связность (пиры) телекома.
– SLA телекома по отношению к вам и
хостеру.
– Механизмы защиты сети (в т. ч. Anti-
DDoS)
– География сети.
• Список доступных альтернативных
34. Downtime и SLA в числах,
в пересчете за месяц
• Tier-4 ЦОД: 99.995% - до 2 мин 14 сек
• Tier-3 ЦОД: 99.982% - до 8 мин 03 сек
• Telecom: 99.95% - до 22 мин 20 сек
Tier-3 + Telecom: - до 30 мин 23 сек
Какова для вас цена часа простоя?
35. Пример SLA доступности и
ответственности хостера
Availability 99.99% or higher: ok
99.98% - 99.90%: 5% credit
99.89% - 95.00%: 25% credit
94.99% - 90.00%: 50% credit
89.99% or below: 100% credit
36. Хостеры любят
traceroute и mtr
• За минуту может происходить несколько
перемаршрутизаций.
• Делайте traceroute в обе стороны в момент
наблюдения проблемы.
• Сразу добавляйте вывод traceroute в тикет.
Пример того, как иногда выглядит изменение
маршрута во время поиска проблемы:
37. Примеры.
Бразилия.
• SLA и класс по TIA 942? Нет,
не слышали.
• 16 часов? Бывало и хуже!
• AntiDDoS? Привет от Arbor.
• Tier1 апстрим – победа?
• BR-IX: связность по-
бразильски ;-)
38. Примеры.
Европа и США.
• Облако - 12 часов, Карл!!
• 6 часов у Tier-2 оператора…
• 7 часов у Tier-1 оператора…
Но как!?
39. Выводы
• Чужие проблемы – всегда часть ваших проблем!
• Сначала – увидеть, изучить и решить свои
проблемы.
• Вклад хостинга в uptime - фундаментален.
• Выбирать следует системно и без спешки.
И главное:
• Вы – один из участников рынка независимо от того,
поставщик вы или потребитель.
• Обратная связь от вас необходима всегда.
• Высокий uptime – результат совместной и
непрерывной работы.