Евгений Потапов / ITSumma — Менеджмент инцидентов и исследование жизненного цикла аварии
1. Евгений Потапов / ITSumma
Новое не значит лучшее.
Преждевеременное
внедрение технологий
2. 350+ компаний на поддержке
75 сотрудников, офисы в
Иркутске, Москве, Санкт-
Петербурге и Сан-Франциско
6000+ серверов на поддержке
SLA 15 минут
О компании
25. 1-2 апреля 2016 года - спасение
• 1 апреля, 18:00-18:30 – mysql упал и не
запускается
• 1 апреля, 18:30 – зануленный file handler был
ibdata процесса mysql
• 1 апреля, 19:00 – остался скопированный
нагорячую ibdata в куске xtrabackup дампа
26. 1-2 апреля 2016 года - спасение
• 1 апреля, 18:00-18:30 – mysql упал и не
запускается
• 1 апреля, 18:30 – зануленный file handler был
ibdata процесса mysql
• 1 апреля, 19:00 – остался скопированный
нагорячую ibdata в куске xtrabackup дампа
• 1 апреля, 20:00 – компания data recovery mysql
отказывается работать в такой ситуации
27. 1-2 апреля 2016 года - спасение
• 1 апреля, 18:00-18:30 – mysql упал и не
запускается
• 1 апреля, 18:30 – зануленный file handler был
ibdata процесса mysql
• 1 апреля, 19:00 – остался скопированный
нагорячую ibdata в куске xtrabackup дампа
• 1 апреля, 20:00 – компания data recovery mysql
отказывается работать в такой ситуации
• 1 апреля, 21:00 – блогпост о восстановлении
через gdb
28. 1-2 апреля 2016 года - спасение
• 1 апреля, 18:00-18:30 – mysql упал и не запускается
• 1 апреля, 18:30 – зануленный file handler был ibdata
процесса mysql
• 1 апреля, 19:00 – остался скопированный нагорячую
ibdata в куске xtrabackup дампа
• 1 апреля, 20:00 – компания data recovery mysql
отказывается работать в такой ситуации
• 1 апреля, 21:00 – блогпост о восстановлении через
gdb
• 1 апреля, 21:00 - 2 апреля, 03:00 – попытки запуска,
успешный запуск в recovery mode
29. 1-2 апреля 2016 года - спасение
• 1 апреля, 18:00-18:30 – mysql упал и не запускается
• 1 апреля, 18:30 – зануленный file handler был ibdata
процесса mysql
• 1 апреля, 19:00 – остался скопированный нагорячую
ibdata в куске xtrabackup дампа
• 1 апреля, 20:00 – компания data recovery mysql
отказывается работать в такой ситуации
• 1 апреля, 21:00 – блогпост о восстановлении через
gdb
• 1 апреля, 21:00 - 2 апреля, 03:00 – попытки запуска,
успешный запуск в recovery mode
• 2 апреля, 03:00 – 3 апреля, 06:00 - mysqldump
35. Январь 2017 - жизнь
• Для подготовки к кибервторнику утром и днем
на production-серверах проводится нагрузочное
тестирование на разладку.
• Дежурный администратор отмечает в заметках
«проблемы с открытием страниц на проекте ABC
- ОК»
36. Январь 2017 - жизнь
• Для подготовки к кибервторнику утром и днем
на production-серверах проводится нагрузочное
тестирование на разладку.
• Дежурный администратор отмечает в заметках
«проблемы с открытием страниц на проекте ABC
- ОК»
• В момент рассылки кэш страницы акции
отключен, сайт периодически недоступен весь
вечер и ночь