SlideShare a Scribd company logo
1 of 40
Download to read offline
На пути к
100% uptime
или что следует делать для
достижения 100% uptime
Игорь Мызгин
Станислав Осипов
2015
Докладчики
Игорь Мызгин
• XBT / Webzilla
• 15+ лет в IT, опыт
работы как со
стороны поставщика
услуг, так и со
стороны потребителя.
• Последние 10 лет -
вопросы создания,
развития и продаж
дата-центров и услуг
на их базе.
Станислав Осипов
• Системный
администратор
R&D департамента
CityADS
• 15+ лет в IT
• Более 10 лет -
специализация на
развертывании,
эксплуатации и
развитии IT-
инфраструктур.
Профиль CityADS
• Холдинг из нескольких компаний,
специализирующийся на интернет-
рекламе.
• 1+ млрд рублей оборота.
• Две независимые рекламные платформы.
• Присутствие
– офисной инфраструктуры в 10 странах
– серверной инфраструктуры в 6 локациях: RU,
NL, BR, HK, CN, US
• Чувствительны к задержкам, потерям,
полосе и профессиональности саппорта
3 вида настоящих проблем
• На стороне хостера
• Связность промежуточных сетей
• На стороне потребителя услуг
Причины сбоев связи
2
5
6
6
7
10
12
16
22
31
34
40
57
61
72
100
117
Faulty hardware change / update
Denial of Service attack
Cooling outage
Malware and viruses
Software bug
Power surges
Overload
Cable theft
Policy / procedural flaw
Flood
Power cut
Cable cut
Hardware failure
Fire
Heavy wind
Heavy snow / ice
Faulty software change / update
ENISA Annual Incident Report 2014
Типичное распределение
проблем
10
10
2060
На самом деле
10
70
10
10
Как это выглядит для компании
Сбои связи
Сбои хостера
Оверхед от сбоев
хостера и связи
Сбои на стороне
клиента
Меняем хостера на
качественного
+ OpEx на хостинг (фиксированная и предсказуемая сумма)
- OpEx сбоев (уменьшаем риск и непредсказуемые расходы)
98.9
Стало
Сбои связи
Сбои хостера
Оверхед от сбоев
хостера и связи
Сбои на стороне
клиента
10
10
2060
Было
0.10.9
0.1
Что нужно, чтобы научиться
различать типы сбоев?
1. Навести порядок в инфраструктуре: SysOps
2. Навести порядок в мониторинге: SysOps, DevOps
3. Навести порядок в конфигурациях: SysOps,
DevOps
4. Навести порядок в правах доступа людей к
системам: SysOps, Managers
5. Навести порядок в процессах тестирования и
развертывания: DevOps, QA, Managers
6. Навести порядок в обработке инцидентов и
решении проблем: SysOps, Managers
7. Навести порядок в коде: R&D, DevOps, Managers
"Ordnung muss sein!"
Мониторинг
• Инвестиции времени в
мониторинг - лучший способ
избежать настоящих убытков.
• Чем больше видим у себя, тем
больше различаем свое и чужое.
• Больше одной системы
внутреннего мониторинга и
больше одной - внешнего.
• Внешняя система не должна
позволять стирать инциденты.
Чем мы пользуемся
Внешний мониторинг:
– NR Synthetics, Monit-it, Pingdom
– NR Browser, Grabzit
Внутренний мониторинг:
– Zabbix, NR APM
– собственные скрипты
Бизнес мониторинг:
– SimilarWeb, сервис собственной
статистики трафика с
менеджерскими интерфейсами
Pingdom
NewRelic Synthetics
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осиповым
Работа с инцидентами
Работа со статистикой
инцидентов
Работа со статистикой
инцидентов
NR APM: общий вид
NR APM: пример обнаруженной
ошибки
Тестирование и развертывание:
Continuous integration - карта
HR аспект
Путь не туда:
• штрафы
• психологическое давление
• игнорирование фактов и аргументов
#ненуачо
Рассказать последствия такой политики?
HR аспект
Uptime 146%
HR аспект
Почему так?
Люди двух типов:
• Умеют скрывать проблемы
– мало мотивации решать проблемы.
• Не умеют скрывать проблемы
– не задержатся при наличии негативных
механизмов.
Рекомендация:
Фиксированный бонус (от 80 до 100%
оклада) за каждый календарный месяц
uptime выше 99.98%
Мы все исправили!
Что теперь?
• Может выясниться, что хостера менять
не нужно!
• Выстраивайте отношения по
интересующим вас услугам и уровню
сервиса.
• Имя и контакты Account Manager?
• Делегируйте заботу поддержания
контакта тому, кто умеет.
• Открывайте новые возможности без
дополнительной проблемы в виде
переезда.
Взгляд со стороны
хостера
Игорь Мызгин
Как правильно начать
• NDA – не надо так!
• Невнятное поведение, путаница в
требованиях?
• Специфические технологии?
• Законодательные ограничения?
• Сложный процесс отбора?
Решение: RFP (request for proposal)
Переписка и общение:
Будьте тем, кто вы есть.
Про маркетинг
«SLA» 100.00% uptime?
Public offer / legal documents на сайте.
«Мелкий шрифт» и «звездочки» (сноски) в договорах,
условиях и КП.
Имя владельца/оператора физической площадки?
Хостер занимается всем подряд?
Разведка через социальные сети (LinkedIn и т.п.):
– Сколько у них инженеров?
– Сколько R&D?
– Кто ключевые технари?
– Давно ли они в компании?
– Чем раньше занимались?
Адекватность запроса
Не x86-64?
>$1M?
Надо было
еще вчера?
Ежа с ужом?
Что поможет получить самые
вкусные условия от хостера?
Прозрачность политики выбора.
Долгосрочные отношения.
Открытость и честность.
Деловая культура:
– Посвящать критериям и процессу отбора
отдельный раздел в RFP.
– Уведомлять о статусе процесса отбора на
этапе до конечного принятия решения с
корректным пояснением причин отсева.
Как выбрать новый
хостинг
чтобы потом
не болела голова
Что учитывать? Часть 1 - DC
• Класс датацентра по TIA-942 (все и в частности -
защита от блэкаутов?).
• Удобство и скорость связи с:
– техподдержкой
– эккаунт менеджером
• SLA (соглашение об уровне сервиса).
• Физическое расположение площадки/площадок,
регламенты доступа, склады для клиентоского
ЗиПа?
• Наличие услуги аренды места для бэкапа
– скорость предоставления
– максимальный объем бэкапа
– его стоимость
– максимальный объем должен быть не меньше самого
Что учитывать? Часть 2 - telco
• Опорный телеком хостера
– Каналы: тип, суммарная емкость,
текущая загрузка.
– Dedicated или shared полоса. Ее
возможный максимум. Цена полосы и
превышения.
– IP адреса (если у вас нет AS) и
связность (пиры) телекома.
– SLA телекома по отношению к вам и
хостеру.
– Механизмы защиты сети (в т. ч. Anti-
DDoS)
– География сети.
• Список доступных альтернативных
Что учитывать?
Способность хостера признавать свои
сбои.
У ВАС НЕТ ПОЛУГОДА-ГОДА НА
РИТУАЛЬНЫЕ ТАНЦЫ!
Отношения с хостером
и другие приключения
uptime
Downtime и SLA в числах,
в пересчете за месяц
• Tier-4 ЦОД: 99.995% - до 2 мин 14 сек
• Tier-3 ЦОД: 99.982% - до 8 мин 03 сек
• Telecom: 99.95% - до 22 мин 20 сек
Tier-3 + Telecom: - до 30 мин 23 сек
Какова для вас цена часа простоя?
Пример SLA доступности и
ответственности хостера
Availability 99.99% or higher: ok
99.98% - 99.90%: 5% credit
99.89% - 95.00%: 25% credit
94.99% - 90.00%: 50% credit
89.99% or below: 100% credit
Хостеры любят
traceroute и mtr
• За минуту может происходить несколько
перемаршрутизаций.
• Делайте traceroute в обе стороны в момент
наблюдения проблемы.
• Сразу добавляйте вывод traceroute в тикет.
Пример того, как иногда выглядит изменение
маршрута во время поиска проблемы:
Примеры.
Бразилия.
• SLA и класс по TIA 942? Нет,
не слышали.
• 16 часов? Бывало и хуже!
• AntiDDoS? Привет от Arbor.
• Tier1 апстрим – победа?
• BR-IX: связность по-
бразильски ;-)
Примеры.
Европа и США.
• Облако - 12 часов, Карл!!
• 6 часов у Tier-2 оператора…
• 7 часов у Tier-1 оператора…
Но как!?
Выводы
• Чужие проблемы – всегда часть ваших проблем!
• Сначала – увидеть, изучить и решить свои
проблемы.
• Вклад хостинга в uptime - фундаментален.
• Выбирать следует системно и без спешки.
И главное:
• Вы – один из участников рынка независимо от того,
поставщик вы или потребитель.
• Обратная связь от вас необходима всегда.
• Высокий uptime – результат совместной и
непрерывной работы.
Вопросы?
http://bit.ly/1k0yGQU
http://bit.ly/1NgK0nf
Станислав Осипов:
Игорь Мызгин:

More Related Content

Viewers also liked

Agile Coaching Exchange - Colin Bird 'Maximising Value' Presentation
Agile Coaching Exchange - Colin Bird 'Maximising Value' PresentationAgile Coaching Exchange - Colin Bird 'Maximising Value' Presentation
Agile Coaching Exchange - Colin Bird 'Maximising Value' PresentationHelen Meek
 
Opti̇mi̇zi̇ng Data Access
Opti̇mi̇zi̇ng Data AccessOpti̇mi̇zi̇ng Data Access
Opti̇mi̇zi̇ng Data AccessEmrah METE
 
Рефакторинг монолита в микросервисы на Go
Рефакторинг монолита в микросервисы на GoРефакторинг монолита в микросервисы на Go
Рефакторинг монолита в микросервисы на GoAndrew Minkin
 
как строить архитектуру для отказоустойчивой службы такси
как строить архитектуру для отказоустойчивой службы таксикак строить архитектуру для отказоустойчивой службы такси
как строить архитектуру для отказоустойчивой службы таксиAndrew Minkin
 
Veri Ambarları için Oracle'ın Analitik SQL Desteği
Veri Ambarları için Oracle'ın Analitik SQL DesteğiVeri Ambarları için Oracle'ın Analitik SQL Desteği
Veri Ambarları için Oracle'ın Analitik SQL DesteğiEmrah METE
 
My talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPConMy talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPConAlex Chistyakov
 
My talk at Linux Piter 2015
My talk at Linux Piter 2015My talk at Linux Piter 2015
My talk at Linux Piter 2015Alex Chistyakov
 
Автоматизация тестирования базы на примере PostgreSQL
Автоматизация тестирования базы на примере PostgreSQLАвтоматизация тестирования базы на примере PostgreSQL
Автоматизация тестирования базы на примере PostgreSQLSQALab
 
Put Risk Based Testing in place right now!
Put Risk Based Testing in place right now!Put Risk Based Testing in place right now!
Put Risk Based Testing in place right now!SQALab
 
Отряд тест-аналитиков
Отряд тест-аналитиковОтряд тест-аналитиков
Отряд тест-аналитиковSQALab
 
Как протестировать тим-лидера
Как протестировать тим-лидераКак протестировать тим-лидера
Как протестировать тим-лидераSQALab
 
Drugi svetski rat (prezentacija)
Drugi svetski rat (prezentacija)Drugi svetski rat (prezentacija)
Drugi svetski rat (prezentacija)Sormaz
 

Viewers also liked (15)

Heavy Load_Home Link
Heavy Load_Home LinkHeavy Load_Home Link
Heavy Load_Home Link
 
Agile Coaching Exchange - Colin Bird 'Maximising Value' Presentation
Agile Coaching Exchange - Colin Bird 'Maximising Value' PresentationAgile Coaching Exchange - Colin Bird 'Maximising Value' Presentation
Agile Coaching Exchange - Colin Bird 'Maximising Value' Presentation
 
Maps for devs
Maps for devsMaps for devs
Maps for devs
 
Opti̇mi̇zi̇ng Data Access
Opti̇mi̇zi̇ng Data AccessOpti̇mi̇zi̇ng Data Access
Opti̇mi̇zi̇ng Data Access
 
Рефакторинг монолита в микросервисы на Go
Рефакторинг монолита в микросервисы на GoРефакторинг монолита в микросервисы на Go
Рефакторинг монолита в микросервисы на Go
 
как строить архитектуру для отказоустойчивой службы такси
как строить архитектуру для отказоустойчивой службы таксикак строить архитектуру для отказоустойчивой службы такси
как строить архитектуру для отказоустойчивой службы такси
 
Veri Ambarları için Oracle'ın Analitik SQL Desteği
Veri Ambarları için Oracle'ın Analitik SQL DesteğiVeri Ambarları için Oracle'ın Analitik SQL Desteği
Veri Ambarları için Oracle'ın Analitik SQL Desteği
 
My talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPConMy talk on Hadoop stack operations engineering at OSPCon
My talk on Hadoop stack operations engineering at OSPCon
 
My talk at Linux Piter 2015
My talk at Linux Piter 2015My talk at Linux Piter 2015
My talk at Linux Piter 2015
 
Автоматизация тестирования базы на примере PostgreSQL
Автоматизация тестирования базы на примере PostgreSQLАвтоматизация тестирования базы на примере PostgreSQL
Автоматизация тестирования базы на примере PostgreSQL
 
Put Risk Based Testing in place right now!
Put Risk Based Testing in place right now!Put Risk Based Testing in place right now!
Put Risk Based Testing in place right now!
 
Отряд тест-аналитиков
Отряд тест-аналитиковОтряд тест-аналитиков
Отряд тест-аналитиков
 
Как протестировать тим-лидера
Как протестировать тим-лидераКак протестировать тим-лидера
Как протестировать тим-лидера
 
Drugi svetski rat (prezentacija)
Drugi svetski rat (prezentacija)Drugi svetski rat (prezentacija)
Drugi svetski rat (prezentacija)
 
Portes obertes13 14
Portes obertes13 14Portes obertes13 14
Portes obertes13 14
 

Similar to на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осиповым

Презентация "Веб-аналитика как услуга".
Презентация "Веб-аналитика как услуга".Презентация "Веб-аналитика как услуга".
Презентация "Веб-аналитика как услуга".Дмитрий Колотов
 
"Контактный центр по запросу" от CTI, Платон Бегун
"Контактный центр по запросу" от CTI, Платон Бегун"Контактный центр по запросу" от CTI, Платон Бегун
"Контактный центр по запросу" от CTI, Платон БегунYulia Sedova
 
Универсальные коммуникации в облаке. Т.Савлаев.
Универсальные коммуникации в облаке. Т.Савлаев.Универсальные коммуникации в облаке. Т.Савлаев.
Универсальные коммуникации в облаке. Т.Савлаев.Clouds NN
 
Рынок облачных сервисов. Маркетинг SaaS-решений.
Рынок облачных сервисов. Маркетинг SaaS-решений.Рынок облачных сервисов. Маркетинг SaaS-решений.
Рынок облачных сервисов. Маркетинг SaaS-решений.Andrey Terekhov
 
Чеклист по безопасности облачного провайдера
Чеклист по безопасности облачного провайдераЧеклист по безопасности облачного провайдера
Чеклист по безопасности облачного провайдераAleksey Lukatskiy
 
Clouds Monitoring
Clouds MonitoringClouds Monitoring
Clouds MonitoringIgor Panov
 
Квантовые эффекты в Архитектуре предприятия.pdf
Квантовые эффекты в Архитектуре предприятия.pdfКвантовые эффекты в Архитектуре предприятия.pdf
Квантовые эффекты в Архитектуре предприятия.pdfSerge Dobridnjuk
 
Как автоматизировать торговлю в облаке
Как автоматизировать торговлю в облакеКак автоматизировать торговлю в облаке
Как автоматизировать торговлю в облакеMoySklad
 
Три кита в обслуживании телекоммуникационных систем
Три кита в обслуживании телекоммуникационных системТри кита в обслуживании телекоммуникационных систем
Три кита в обслуживании телекоммуникационных системКРОК
 
Новые инструменты для работы в торговле
Новые инструменты для работы в торговлеНовые инструменты для работы в торговле
Новые инструменты для работы в торговлеMoySklad
 
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...borovoystudio
 
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...Тимур Сабаев
 
«Облака» под контролем: как эффективно оценить производительность облачных т...
«Облака» под контролем:  как эффективно оценить производительность облачных т...«Облака» под контролем:  как эффективно оценить производительность облачных т...
«Облака» под контролем: как эффективно оценить производительность облачных т...СвязьКомплект
 
В.Денисенков Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков   Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...В.Денисенков   Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...borovoystudio
 
#itSMFru2014 - Патрик Болджер в секции Мирный Космос
#itSMFru2014 - Патрик Болджер в секции Мирный Космос#itSMFru2014 - Патрик Болджер в секции Мирный Космос
#itSMFru2014 - Патрик Болджер в секции Мирный КосмосCleverics
 
Parallels - как зарабатывать на Облаках
Parallels - как зарабатывать на ОблакахParallels - как зарабатывать на Облаках
Parallels - как зарабатывать на Облакахifedorus
 

Similar to на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осиповым (20)

Марушев В.В. - аутсорсинг услуг
Марушев В.В. - аутсорсинг услугМарушев В.В. - аутсорсинг услуг
Марушев В.В. - аутсорсинг услуг
 
Презентация "Веб-аналитика как услуга".
Презентация "Веб-аналитика как услуга".Презентация "Веб-аналитика как услуга".
Презентация "Веб-аналитика как услуга".
 
"Контактный центр по запросу" от CTI, Платон Бегун
"Контактный центр по запросу" от CTI, Платон Бегун"Контактный центр по запросу" от CTI, Платон Бегун
"Контактный центр по запросу" от CTI, Платон Бегун
 
Универсальные коммуникации в облаке. Т.Савлаев.
Универсальные коммуникации в облаке. Т.Савлаев.Универсальные коммуникации в облаке. Т.Савлаев.
Универсальные коммуникации в облаке. Т.Савлаев.
 
Рынок облачных сервисов. Маркетинг SaaS-решений.
Рынок облачных сервисов. Маркетинг SaaS-решений.Рынок облачных сервисов. Маркетинг SaaS-решений.
Рынок облачных сервисов. Маркетинг SaaS-решений.
 
Чеклист по безопасности облачного провайдера
Чеклист по безопасности облачного провайдераЧеклист по безопасности облачного провайдера
Чеклист по безопасности облачного провайдера
 
CTI_CC on demand
CTI_CC on demandCTI_CC on demand
CTI_CC on demand
 
Clouds Monitoring
Clouds MonitoringClouds Monitoring
Clouds Monitoring
 
Квантовые эффекты в Архитектуре предприятия.pdf
Квантовые эффекты в Архитектуре предприятия.pdfКвантовые эффекты в Архитектуре предприятия.pdf
Квантовые эффекты в Архитектуре предприятия.pdf
 
Как автоматизировать торговлю в облаке
Как автоматизировать торговлю в облакеКак автоматизировать торговлю в облаке
Как автоматизировать торговлю в облаке
 
Три кита в обслуживании телекоммуникационных систем
Три кита в обслуживании телекоммуникационных системТри кита в обслуживании телекоммуникационных систем
Три кита в обслуживании телекоммуникационных систем
 
Новые инструменты для работы в торговле
Новые инструменты для работы в торговлеНовые инструменты для работы в торговле
Новые инструменты для работы в торговле
 
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков - Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
 
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...
Проблематика совместного подсчёта необходимых облачных сервисов и проиобретён...
 
«Облака» под контролем: как эффективно оценить производительность облачных т...
«Облака» под контролем:  как эффективно оценить производительность облачных т...«Облака» под контролем:  как эффективно оценить производительность облачных т...
«Облака» под контролем: как эффективно оценить производительность облачных т...
 
Lev yakupov
Lev yakupovLev yakupov
Lev yakupov
 
В.Денисенков Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков   Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...В.Денисенков   Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
В.Денисенков Семь раз отмерь. Все что надо знать о выборе подрядчиков, прог...
 
#itSMFru2014 - Патрик Болджер в секции Мирный Космос
#itSMFru2014 - Патрик Болджер в секции Мирный Космос#itSMFru2014 - Патрик Болджер в секции Мирный Космос
#itSMFru2014 - Патрик Болджер в секции Мирный Космос
 
Bitrix ap final
Bitrix  ap finalBitrix  ap final
Bitrix ap final
 
Parallels - как зарабатывать на Облаках
Parallels - как зарабатывать на ОблакахParallels - как зарабатывать на Облаках
Parallels - как зарабатывать на Облаках
 

More from Игорь Мызгин

HLJ Типовые ошибки клиентов хостинга или как соломки подстелить
HLJ Типовые ошибки клиентов хостинга или как соломки подстелить HLJ Типовые ошибки клиентов хостинга или как соломки подстелить
HLJ Типовые ошибки клиентов хостинга или как соломки подстелить Игорь Мызгин
 
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдера
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдераHighLoad Junior '16 Как сравнить и выбрать хостинг-провайдера
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдераИгорь Мызгин
 
HighLoad Junior - Как выбирать и как выбрать ДЦ
HighLoad Junior - Как выбирать и как выбрать ДЦHighLoad Junior - Как выбирать и как выбрать ДЦ
HighLoad Junior - Как выбирать и как выбрать ДЦИгорь Мызгин
 
Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21
 Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21 Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21
Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21Игорь Мызгин
 
20141030 webzilla про_елку_и_законы_
20141030 webzilla про_елку_и_законы_20141030 webzilla про_елку_и_законы_
20141030 webzilla про_елку_и_законы_Игорь Мызгин
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Игорь Мызгин
 
Webzilla - новые сервисы и наш опыт достижения идеального аптайма
Webzilla - новые сервисы и наш опыт достижения идеального аптаймаWebzilla - новые сервисы и наш опыт достижения идеального аптайма
Webzilla - новые сервисы и наш опыт достижения идеального аптаймаИгорь Мызгин
 

More from Игорь Мызгин (8)

HLJ Типовые ошибки клиентов хостинга или как соломки подстелить
HLJ Типовые ошибки клиентов хостинга или как соломки подстелить HLJ Типовые ошибки клиентов хостинга или как соломки подстелить
HLJ Типовые ошибки клиентов хостинга или как соломки подстелить
 
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдера
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдераHighLoad Junior '16 Как сравнить и выбрать хостинг-провайдера
HighLoad Junior '16 Как сравнить и выбрать хостинг-провайдера
 
HighLoad Junior - Как выбирать и как выбрать ДЦ
HighLoad Junior - Как выбирать и как выбрать ДЦHighLoad Junior - Как выбирать и как выбрать ДЦ
HighLoad Junior - Как выбирать и как выбрать ДЦ
 
XBT corporate presentation
XBT corporate presentationXBT corporate presentation
XBT corporate presentation
 
Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21
 Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21 Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21
Datacenter as Fort Knox 2.0 - Webzilla @ Ecom21
 
20141030 webzilla про_елку_и_законы_
20141030 webzilla про_елку_и_законы_20141030 webzilla про_елку_и_законы_
20141030 webzilla про_елку_и_законы_
 
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
 
Webzilla - новые сервисы и наш опыт достижения идеального аптайма
Webzilla - новые сервисы и наш опыт достижения идеального аптаймаWebzilla - новые сервисы и наш опыт достижения идеального аптайма
Webzilla - новые сервисы и наш опыт достижения идеального аптайма
 

на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осиповым

  • 1. На пути к 100% uptime или что следует делать для достижения 100% uptime Игорь Мызгин Станислав Осипов 2015
  • 2. Докладчики Игорь Мызгин • XBT / Webzilla • 15+ лет в IT, опыт работы как со стороны поставщика услуг, так и со стороны потребителя. • Последние 10 лет - вопросы создания, развития и продаж дата-центров и услуг на их базе. Станислав Осипов • Системный администратор R&D департамента CityADS • 15+ лет в IT • Более 10 лет - специализация на развертывании, эксплуатации и развитии IT- инфраструктур.
  • 3. Профиль CityADS • Холдинг из нескольких компаний, специализирующийся на интернет- рекламе. • 1+ млрд рублей оборота. • Две независимые рекламные платформы. • Присутствие – офисной инфраструктуры в 10 странах – серверной инфраструктуры в 6 локациях: RU, NL, BR, HK, CN, US • Чувствительны к задержкам, потерям, полосе и профессиональности саппорта
  • 4. 3 вида настоящих проблем • На стороне хостера • Связность промежуточных сетей • На стороне потребителя услуг
  • 5. Причины сбоев связи 2 5 6 6 7 10 12 16 22 31 34 40 57 61 72 100 117 Faulty hardware change / update Denial of Service attack Cooling outage Malware and viruses Software bug Power surges Overload Cable theft Policy / procedural flaw Flood Power cut Cable cut Hardware failure Fire Heavy wind Heavy snow / ice Faulty software change / update ENISA Annual Incident Report 2014
  • 6. Типичное распределение проблем 10 10 2060 На самом деле 10 70 10 10 Как это выглядит для компании Сбои связи Сбои хостера Оверхед от сбоев хостера и связи Сбои на стороне клиента
  • 7. Меняем хостера на качественного + OpEx на хостинг (фиксированная и предсказуемая сумма) - OpEx сбоев (уменьшаем риск и непредсказуемые расходы) 98.9 Стало Сбои связи Сбои хостера Оверхед от сбоев хостера и связи Сбои на стороне клиента 10 10 2060 Было 0.10.9 0.1
  • 8. Что нужно, чтобы научиться различать типы сбоев? 1. Навести порядок в инфраструктуре: SysOps 2. Навести порядок в мониторинге: SysOps, DevOps 3. Навести порядок в конфигурациях: SysOps, DevOps 4. Навести порядок в правах доступа людей к системам: SysOps, Managers 5. Навести порядок в процессах тестирования и развертывания: DevOps, QA, Managers 6. Навести порядок в обработке инцидентов и решении проблем: SysOps, Managers 7. Навести порядок в коде: R&D, DevOps, Managers "Ordnung muss sein!"
  • 9. Мониторинг • Инвестиции времени в мониторинг - лучший способ избежать настоящих убытков. • Чем больше видим у себя, тем больше различаем свое и чужое. • Больше одной системы внутреннего мониторинга и больше одной - внешнего. • Внешняя система не должна позволять стирать инциденты.
  • 10. Чем мы пользуемся Внешний мониторинг: – NR Synthetics, Monit-it, Pingdom – NR Browser, Grabzit Внутренний мониторинг: – Zabbix, NR APM – собственные скрипты Бизнес мониторинг: – SimilarWeb, сервис собственной статистики трафика с менеджерскими интерфейсами
  • 18. NR APM: пример обнаруженной ошибки
  • 20. HR аспект Путь не туда: • штрафы • психологическое давление • игнорирование фактов и аргументов #ненуачо Рассказать последствия такой политики?
  • 22. HR аспект Почему так? Люди двух типов: • Умеют скрывать проблемы – мало мотивации решать проблемы. • Не умеют скрывать проблемы – не задержатся при наличии негативных механизмов. Рекомендация: Фиксированный бонус (от 80 до 100% оклада) за каждый календарный месяц uptime выше 99.98%
  • 23. Мы все исправили! Что теперь? • Может выясниться, что хостера менять не нужно! • Выстраивайте отношения по интересующим вас услугам и уровню сервиса. • Имя и контакты Account Manager? • Делегируйте заботу поддержания контакта тому, кто умеет. • Открывайте новые возможности без дополнительной проблемы в виде переезда.
  • 25. Как правильно начать • NDA – не надо так! • Невнятное поведение, путаница в требованиях? • Специфические технологии? • Законодательные ограничения? • Сложный процесс отбора? Решение: RFP (request for proposal) Переписка и общение: Будьте тем, кто вы есть.
  • 26. Про маркетинг «SLA» 100.00% uptime? Public offer / legal documents на сайте. «Мелкий шрифт» и «звездочки» (сноски) в договорах, условиях и КП. Имя владельца/оператора физической площадки? Хостер занимается всем подряд? Разведка через социальные сети (LinkedIn и т.п.): – Сколько у них инженеров? – Сколько R&D? – Кто ключевые технари? – Давно ли они в компании? – Чем раньше занимались?
  • 27. Адекватность запроса Не x86-64? >$1M? Надо было еще вчера? Ежа с ужом?
  • 28. Что поможет получить самые вкусные условия от хостера? Прозрачность политики выбора. Долгосрочные отношения. Открытость и честность. Деловая культура: – Посвящать критериям и процессу отбора отдельный раздел в RFP. – Уведомлять о статусе процесса отбора на этапе до конечного принятия решения с корректным пояснением причин отсева.
  • 29. Как выбрать новый хостинг чтобы потом не болела голова
  • 30. Что учитывать? Часть 1 - DC • Класс датацентра по TIA-942 (все и в частности - защита от блэкаутов?). • Удобство и скорость связи с: – техподдержкой – эккаунт менеджером • SLA (соглашение об уровне сервиса). • Физическое расположение площадки/площадок, регламенты доступа, склады для клиентоского ЗиПа? • Наличие услуги аренды места для бэкапа – скорость предоставления – максимальный объем бэкапа – его стоимость – максимальный объем должен быть не меньше самого
  • 31. Что учитывать? Часть 2 - telco • Опорный телеком хостера – Каналы: тип, суммарная емкость, текущая загрузка. – Dedicated или shared полоса. Ее возможный максимум. Цена полосы и превышения. – IP адреса (если у вас нет AS) и связность (пиры) телекома. – SLA телекома по отношению к вам и хостеру. – Механизмы защиты сети (в т. ч. Anti- DDoS) – География сети. • Список доступных альтернативных
  • 32. Что учитывать? Способность хостера признавать свои сбои. У ВАС НЕТ ПОЛУГОДА-ГОДА НА РИТУАЛЬНЫЕ ТАНЦЫ!
  • 33. Отношения с хостером и другие приключения uptime
  • 34. Downtime и SLA в числах, в пересчете за месяц • Tier-4 ЦОД: 99.995% - до 2 мин 14 сек • Tier-3 ЦОД: 99.982% - до 8 мин 03 сек • Telecom: 99.95% - до 22 мин 20 сек Tier-3 + Telecom: - до 30 мин 23 сек Какова для вас цена часа простоя?
  • 35. Пример SLA доступности и ответственности хостера Availability 99.99% or higher: ok 99.98% - 99.90%: 5% credit 99.89% - 95.00%: 25% credit 94.99% - 90.00%: 50% credit 89.99% or below: 100% credit
  • 36. Хостеры любят traceroute и mtr • За минуту может происходить несколько перемаршрутизаций. • Делайте traceroute в обе стороны в момент наблюдения проблемы. • Сразу добавляйте вывод traceroute в тикет. Пример того, как иногда выглядит изменение маршрута во время поиска проблемы:
  • 37. Примеры. Бразилия. • SLA и класс по TIA 942? Нет, не слышали. • 16 часов? Бывало и хуже! • AntiDDoS? Привет от Arbor. • Tier1 апстрим – победа? • BR-IX: связность по- бразильски ;-)
  • 38. Примеры. Европа и США. • Облако - 12 часов, Карл!! • 6 часов у Tier-2 оператора… • 7 часов у Tier-1 оператора… Но как!?
  • 39. Выводы • Чужие проблемы – всегда часть ваших проблем! • Сначала – увидеть, изучить и решить свои проблемы. • Вклад хостинга в uptime - фундаментален. • Выбирать следует системно и без спешки. И главное: • Вы – один из участников рынка независимо от того, поставщик вы или потребитель. • Обратная связь от вас необходима всегда. • Высокий uptime – результат совместной и непрерывной работы.