Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
На пути к
100% uptime
или что следует делать для
достижения 100% uptime
Игорь Мызгин
Станислав Осипов
2015
Докладчики
Игорь Мызгин
• XBT / Webzilla
• 15+ лет в IT, опыт
работы как со
стороны поставщика
услуг, так и со
стороны пот...
Профиль CityADS
• Холдинг из нескольких компаний,
специализирующийся на интернет-
рекламе.
• 1+ млрд рублей оборота.
• Две...
3 вида настоящих проблем
• На стороне хостера
• Связность промежуточных сетей
• На стороне потребителя услуг
Причины сбоев связи
2
5
6
6
7
10
12
16
22
31
34
40
57
61
72
100
117
Faulty hardware change / update
Denial of Service atta...
Типичное распределение
проблем
10
10
2060
На самом деле
10
70
10
10
Как это выглядит для компании
Сбои связи
Сбои хостера
...
Меняем хостера на
качественного
+ OpEx на хостинг (фиксированная и предсказуемая сумма)
- OpEx сбоев (уменьшаем риск и неп...
Что нужно, чтобы научиться
различать типы сбоев?
1. Навести порядок в инфраструктуре: SysOps
2. Навести порядок в монитори...
Мониторинг
• Инвестиции времени в
мониторинг - лучший способ
избежать настоящих убытков.
• Чем больше видим у себя, тем
бо...
Чем мы пользуемся
Внешний мониторинг:
– NR Synthetics, Monit-it, Pingdom
– NR Browser, Grabzit
Внутренний мониторинг:
– Za...
Pingdom
NewRelic Synthetics
Работа с инцидентами
Работа со статистикой
инцидентов
Работа со статистикой
инцидентов
NR APM: общий вид
NR APM: пример обнаруженной
ошибки
Тестирование и развертывание:
Continuous integration - карта
HR аспект
Путь не туда:
• штрафы
• психологическое давление
• игнорирование фактов и аргументов
#ненуачо
Рассказать послед...
HR аспект
Uptime 146%
HR аспект
Почему так?
Люди двух типов:
• Умеют скрывать проблемы
– мало мотивации решать проблемы.
• Не умеют скрывать про...
Мы все исправили!
Что теперь?
• Может выясниться, что хостера менять
не нужно!
• Выстраивайте отношения по
интересующим ва...
Взгляд со стороны
хостера
Игорь Мызгин
Как правильно начать
• NDA – не надо так!
• Невнятное поведение, путаница в
требованиях?
• Специфические технологии?
• Зак...
Про маркетинг
«SLA» 100.00% uptime?
Public offer / legal documents на сайте.
«Мелкий шрифт» и «звездочки» (сноски) в догов...
Адекватность запроса
Не x86-64?
>$1M?
Надо было
еще вчера?
Ежа с ужом?
Что поможет получить самые
вкусные условия от хостера?
Прозрачность политики выбора.
Долгосрочные отношения.
Открытость и ...
Как выбрать новый
хостинг
чтобы потом
не болела голова
Что учитывать? Часть 1 - DC
• Класс датацентра по TIA-942 (все и в частности -
защита от блэкаутов?).
• Удобство и скорост...
Что учитывать? Часть 2 - telco
• Опорный телеком хостера
– Каналы: тип, суммарная емкость,
текущая загрузка.
– Dedicated и...
Что учитывать?
Способность хостера признавать свои
сбои.
У ВАС НЕТ ПОЛУГОДА-ГОДА НА
РИТУАЛЬНЫЕ ТАНЦЫ!
Отношения с хостером
и другие приключения
uptime
Downtime и SLA в числах,
в пересчете за месяц
• Tier-4 ЦОД: 99.995% - до 2 мин 14 сек
• Tier-3 ЦОД: 99.982% - до 8 мин 03 ...
Пример SLA доступности и
ответственности хостера
Availability 99.99% or higher: ok
99.98% - 99.90%: 5% credit
99.89% - 95....
Хостеры любят
traceroute и mtr
• За минуту может происходить несколько
перемаршрутизаций.
• Делайте traceroute в обе сторо...
Примеры.
Бразилия.
• SLA и класс по TIA 942? Нет,
не слышали.
• 16 часов? Бывало и хуже!
• AntiDDoS? Привет от Arbor.
• Ti...
Примеры.
Европа и США.
• Облако - 12 часов, Карл!!
• 6 часов у Tier-2 оператора…
• 7 часов у Tier-1 оператора…
Но как!?
Выводы
• Чужие проблемы – всегда часть ваших проблем!
• Сначала – увидеть, изучить и решить свои
проблемы.
• Вклад хостинг...
Вопросы?
http://bit.ly/1k0yGQU
http://bit.ly/1NgK0nf
Станислав Осипов:
Игорь Мызгин:
Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)
Upcoming SlideShare
Loading in …5
×

Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

516 views

Published on

Для любого крупного проекта работа над uptime сервиса должна быть постоянной, непрерывной и многовекторной.

Каждый инцидент с доступностью проще всего “свалить” на поставщика услуг хостинга и провайдера. Однако, начиная с определенного уровня масштаба сервиса, такой подход уже начинает стоить бизнесу слишком много.

Данный доклад — это обзор работы над проблемами доступности на пути от клиента до хостера, проведенной с целью достижения доступности сервисов клиента выше 99,99% на примере интернет-компании с оборотом выше 1 млрд рублей.

Ключевая особенность доклада в том, что он максимально объективен в силу того, что каждый докладчик представляет свою сторону "баррикад".

В докладе будут рассмотрены вопросы:
+ Почему хостер — наименьшая из проблем?
+ Какие бывают источники проблем?
+ Как научиться видеть проблемы и построить необходимый базис для своевременного их обнаружения и решения?
+ Третий не лишний — почти всегда между хостером и вами есть еще один источник проблем.
+ Что учитывать в современных реалиях при выборе dedicated / colocation услуг?
+ Чем различаются хостеры, как их сравнить, что от них стоит ждать?

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Опыт совместной работы хостера (Webzilla) и клиента (CityADS) над достижением uptime выше 99.99% / Мызгин И.(XBT / Webzilla)

  1. 1. На пути к 100% uptime или что следует делать для достижения 100% uptime Игорь Мызгин Станислав Осипов 2015
  2. 2. Докладчики Игорь Мызгин • XBT / Webzilla • 15+ лет в IT, опыт работы как со стороны поставщика услуг, так и со стороны потребителя. • Последние 10 лет - вопросы создания, развития и продаж дата-центров и услуг на их базе. Станислав Осипов • Системный администратор R&D департамента CityADS • 15+ лет в IT • Более 10 лет - специализация на развертывании, эксплуатации и развитии IT- инфраструктур.
  3. 3. Профиль CityADS • Холдинг из нескольких компаний, специализирующийся на интернет- рекламе. • 1+ млрд рублей оборота. • Две независимые рекламные платформы. • Присутствие – офисной инфраструктуры в 10 странах – серверной инфраструктуры в 6 локациях: RU, NL, BR, HK, CN, US • Чувствительны к задержкам, потерям, полосе и профессиональности саппорта
  4. 4. 3 вида настоящих проблем • На стороне хостера • Связность промежуточных сетей • На стороне потребителя услуг
  5. 5. Причины сбоев связи 2 5 6 6 7 10 12 16 22 31 34 40 57 61 72 100 117 Faulty hardware change / update Denial of Service attack Cooling outage Malware and viruses Software bug Power surges Overload Cable theft Policy / procedural flaw Flood Power cut Cable cut Hardware failure Fire Heavy wind Heavy snow / ice Faulty software change / update ENISA Annual Incident Report 2014
  6. 6. Типичное распределение проблем 10 10 2060 На самом деле 10 70 10 10 Как это выглядит для компании Сбои связи Сбои хостера Оверхед от сбоев хостера и связи Сбои на стороне клиента
  7. 7. Меняем хостера на качественного + OpEx на хостинг (фиксированная и предсказуемая сумма) - OpEx сбоев (уменьшаем риск и непредсказуемые расходы) 98.9 Стало Сбои связи Сбои хостера Оверхед от сбоев хостера и связи Сбои на стороне клиента 10 10 2060 Было 0.10.9 0.1
  8. 8. Что нужно, чтобы научиться различать типы сбоев? 1. Навести порядок в инфраструктуре: SysOps 2. Навести порядок в мониторинге: SysOps, DevOps 3. Навести порядок в конфигурациях: SysOps, DevOps 4. Навести порядок в правах доступа людей к системам: SysOps, Managers 5. Навести порядок в процессах тестирования и развертывания: DevOps, QA, Managers 6. Навести порядок в обработке инцидентов и решении проблем: SysOps, Managers 7. Навести порядок в коде: R&D, DevOps, Managers "Ordnung muss sein!"
  9. 9. Мониторинг • Инвестиции времени в мониторинг - лучший способ избежать настоящих убытков. • Чем больше видим у себя, тем больше различаем свое и чужое. • Больше одной системы внутреннего мониторинга и больше одной - внешнего. • Внешняя система не должна позволять стирать инциденты.
  10. 10. Чем мы пользуемся Внешний мониторинг: – NR Synthetics, Monit-it, Pingdom – NR Browser, Grabzit Внутренний мониторинг: – Zabbix, NR APM – собственные скрипты Бизнес мониторинг: – SimilarWeb, сервис собственной статистики трафика с менеджерскими интерфейсами
  11. 11. Pingdom
  12. 12. NewRelic Synthetics
  13. 13. Работа с инцидентами
  14. 14. Работа со статистикой инцидентов
  15. 15. Работа со статистикой инцидентов
  16. 16. NR APM: общий вид
  17. 17. NR APM: пример обнаруженной ошибки
  18. 18. Тестирование и развертывание: Continuous integration - карта
  19. 19. HR аспект Путь не туда: • штрафы • психологическое давление • игнорирование фактов и аргументов #ненуачо Рассказать последствия такой политики?
  20. 20. HR аспект Uptime 146%
  21. 21. HR аспект Почему так? Люди двух типов: • Умеют скрывать проблемы – мало мотивации решать проблемы. • Не умеют скрывать проблемы – не задержатся при наличии негативных механизмов. Рекомендация: Фиксированный бонус (от 80 до 100% оклада) за каждый календарный месяц uptime выше 99.98%
  22. 22. Мы все исправили! Что теперь? • Может выясниться, что хостера менять не нужно! • Выстраивайте отношения по интересующим вас услугам и уровню сервиса. • Имя и контакты Account Manager? • Делегируйте заботу поддержания контакта тому, кто умеет. • Открывайте новые возможности без дополнительной проблемы в виде переезда.
  23. 23. Взгляд со стороны хостера Игорь Мызгин
  24. 24. Как правильно начать • NDA – не надо так! • Невнятное поведение, путаница в требованиях? • Специфические технологии? • Законодательные ограничения? • Сложный процесс отбора? Решение: RFP (request for proposal) Переписка и общение: Будьте тем, кто вы есть.
  25. 25. Про маркетинг «SLA» 100.00% uptime? Public offer / legal documents на сайте. «Мелкий шрифт» и «звездочки» (сноски) в договорах, условиях и КП. Имя владельца/оператора физической площадки? Хостер занимается всем подряд? Разведка через социальные сети (LinkedIn и т.п.): – Сколько у них инженеров? – Сколько R&D? – Кто ключевые технари? – Давно ли они в компании? – Чем раньше занимались?
  26. 26. Адекватность запроса Не x86-64? >$1M? Надо было еще вчера? Ежа с ужом?
  27. 27. Что поможет получить самые вкусные условия от хостера? Прозрачность политики выбора. Долгосрочные отношения. Открытость и честность. Деловая культура: – Посвящать критериям и процессу отбора отдельный раздел в RFP. – Уведомлять о статусе процесса отбора на этапе до конечного принятия решения с корректным пояснением причин отсева.
  28. 28. Как выбрать новый хостинг чтобы потом не болела голова
  29. 29. Что учитывать? Часть 1 - DC • Класс датацентра по TIA-942 (все и в частности - защита от блэкаутов?). • Удобство и скорость связи с: – техподдержкой – эккаунт менеджером • SLA (соглашение об уровне сервиса). • Физическое расположение площадки/площадок, регламенты доступа, склады для клиентоского ЗиПа? • Наличие услуги аренды места для бэкапа – скорость предоставления – максимальный объем бэкапа – его стоимость – максимальный объем должен быть не меньше самого
  30. 30. Что учитывать? Часть 2 - telco • Опорный телеком хостера – Каналы: тип, суммарная емкость, текущая загрузка. – Dedicated или shared полоса. Ее возможный максимум. Цена полосы и превышения. – IP адреса (если у вас нет AS) и связность (пиры) телекома. – SLA телекома по отношению к вам и хостеру. – Механизмы защиты сети (в т. ч. Anti- DDoS) – География сети. • Список доступных альтернативных
  31. 31. Что учитывать? Способность хостера признавать свои сбои. У ВАС НЕТ ПОЛУГОДА-ГОДА НА РИТУАЛЬНЫЕ ТАНЦЫ!
  32. 32. Отношения с хостером и другие приключения uptime
  33. 33. Downtime и SLA в числах, в пересчете за месяц • Tier-4 ЦОД: 99.995% - до 2 мин 14 сек • Tier-3 ЦОД: 99.982% - до 8 мин 03 сек • Telecom: 99.95% - до 22 мин 20 сек Tier-3 + Telecom: - до 30 мин 23 сек Какова для вас цена часа простоя?
  34. 34. Пример SLA доступности и ответственности хостера Availability 99.99% or higher: ok 99.98% - 99.90%: 5% credit 99.89% - 95.00%: 25% credit 94.99% - 90.00%: 50% credit 89.99% or below: 100% credit
  35. 35. Хостеры любят traceroute и mtr • За минуту может происходить несколько перемаршрутизаций. • Делайте traceroute в обе стороны в момент наблюдения проблемы. • Сразу добавляйте вывод traceroute в тикет. Пример того, как иногда выглядит изменение маршрута во время поиска проблемы:
  36. 36. Примеры. Бразилия. • SLA и класс по TIA 942? Нет, не слышали. • 16 часов? Бывало и хуже! • AntiDDoS? Привет от Arbor. • Tier1 апстрим – победа? • BR-IX: связность по- бразильски ;-)
  37. 37. Примеры. Европа и США. • Облако - 12 часов, Карл!! • 6 часов у Tier-2 оператора… • 7 часов у Tier-1 оператора… Но как!?
  38. 38. Выводы • Чужие проблемы – всегда часть ваших проблем! • Сначала – увидеть, изучить и решить свои проблемы. • Вклад хостинга в uptime - фундаментален. • Выбирать следует системно и без спешки. И главное: • Вы – один из участников рынка независимо от того, поставщик вы или потребитель. • Обратная связь от вас необходима всегда. • Высокий uptime – результат совместной и непрерывной работы.
  39. 39. Вопросы? http://bit.ly/1k0yGQU http://bit.ly/1NgK0nf Станислав Осипов: Игорь Мызгин:

×