SlideShare a Scribd company logo
1 of 41
Download to read offline
Инцидент-
менеджмент в Badoo
Илья Аблеев
О чём доклад?
✓Плановые работы
✓Инциденты
✓Информирование/оповещение
✓Постмортемы
Плановые работы
события или изменения, которые могут повлиять на что-то
или на кого-то
На случай важных переговоров
✓Можно сделать быстро, никто не заметит!
✓А заметит — я тут не в игрушки играю!
✓Не совершает ошибок тот, кто ничего не делает!
Плановые работы
✓Без них никак — нужно делать прод лучше
✓Плановые работы должны быть запланированы
✓Планировать время (дольше — лучше)
✓Если затянулось — предупредить
Зачем вообще сообщать?
✓Люди будут знать, что сервис может не работать
✓Можно предотвратить негатив (как технически, так и…)
✓Ответственнее подойдёте к процессу
ИНЦИДЕНТ
Незапланированные плановые работы — это
Инциденты
события, которые точно несут негативный эффект
На случай важных переговоров
✓Быстро починю, никто и не заметит!
✓Ну ладно вам, всего час не работало, зато до этого
год всё было окей!
✓Быстро поднятый сервер не считается упавшим!
Инциденты
✓Без них никак (обычно)
✓Портят жизнь и нервы коллегам
✓Могут портить жизнь пользователям – что-то не работает
✓Несут убытки бизнесу
Зачем о них-то сообщать?
✓Сгладить негатив
✓Признать вину: +100500 к доверию
✓Держать в курсе событий: ещё +100500
✓Вести учёт факапов — анализ в будущем
✓Уменьшать даунтайм похожих проблем
Уведомления
На случай важных переговоров
✓Бюрократы!
✓Есть вопросы? Пусть меня спросят, я им всё объясню!
✓Никогда такого не было, и вот опять…
✓Не волнуйтесь, такого больше не повторится.
Способы уведомлений
✓Письма — у всех есть корпоративная почта
✓Веб-интерфейс/API
✓SMS/мессенджеры
✓Календарь
✓Почтовые голуби? 🐦
Как уведомлять?
✓Чем раньше сообщить, тем лучше
✓Примерное время восстановления
✓ Публично — это обещание
✓ Приватно — это прогноз
✓Не успеваете починить – сообщите заранее
Да кто их читает?
✓Сначала — никто
✓Надо приучать людей читать
✓Приучать к тому, где им больше нравится видеть
информацию
✓Собирать фидбек — повышать качество оповещений
Уведомления – не отписка
✓Должно быть понятно
✓Технари должны объяснить нетехнарям
✓Нетехнари должны понять технарей
✓Можно описать технические детали
Уведомления – не отписка
✓Должно быть понятно? Карта сервисов
Сервис Функциональность Уровень критичности
Authorizer Процесс авторизации на сайте Высокий
UDB Самая главная база данных о
пользователях, недоступна –
не работает регистрация,
логин и тд
Высочайший
Queue processor Фоновый обработчик
очередей, напрямую на
пользователей не влияет, но
при длительной пролёжке у
пользователей могут
перестать обновляться важные
данные
Низкий
Как было у нас?
✓Простые письма в почту
✓Прикрутили календарь
✓Из календаря — SMS оповещения (точечно)
✓Устали писать руками: интерфейс на коленке
Как сейчас?
✓Интерфейс + API
✓Заводим инциденты автоматически из мониторинга
✓Разделяем несколько уровней деградации
✓Подсвечиваем все работы и проблемы на графиках
Постмортемы
работа над ошибками, описание и разбор случившихся
инцидентов
Как выглядит?
✓Пример: GitLab Postmortem of database outage Jan 31
✓Нафакапили, “сознались”, указали последствия,
разобрали технические детали
Цели постмортема?
✓публичное порицание ни в коем случае :)
✓Найти критичные проблемы и устранить их
✓Не повторять аналогичных ошибок в будущем
✓Повысить уровень ответственности среди сотрудников
Что до публикации?
✓Оценить негативные последствия или убытки
✓Восстановить таймлайн событий
✓Найти источник проблемы
✓Разобраться в технических деталях (от и до)
✓Подвести итоги: lessons learned
Залог успешного постмортема
✓Не доводить до абсурда (не писать на любой чих)
✓Таймлайн
✓Не винить конкретных людей / отделы
✓Сухие факты, меньше эмоций
✓Начинать писать сразу, пока свежи воспоминания
✓Писать должен непосредственный участник
Как постмортем выглядит у нас?
✓Что было, как выглядело для юзера?
✓Когда и в течение какого времени?
✓Как много пользователей затронуло?
✓Причины, техническое описание
✓Что делать, чтобы больше не повторилось?
Что было, как выглядело для юзера?
✓Простым и понятным языком
✓TODO: примеры
Когда и в течение какого времени?
✓Время всегда в единой таймзоне — UTC
✓И в едином формате: 2017-11-08 12:00
✓Нужно указать время начала и исправления
✓Можно — время полного восстановления
Как много пользователей затронуло?
✓Метрика, по которой оцениваем инциденты
✓Должна быть возможность быстро посчитать
✓Зачастую — очень размытая оценка
✓Либо что-то ломается совсем
✓Либо что-то деградирует частично
Причины, техническое описание
✓Организационные причины сюда же
✓Писать так, чтобы другие технари тоже поняли
✓Не лить воду
✓Нет “я”, есть “мы”, или "оно само" — обезличиваем
✓Коллеги и заинтересованные проверяют и дополняют
Таймлайн
✓Поймём, на что больше всего тратили времени
✓Как это время можно сократить?
✓Долгое оповещение или ресёрч — тоже часть
проблемы
Что делать, чтобы больше не повторилось?
✓Думать головой :)
✓Больше конкретики — список задач + дедлайны
✓Документация — это хорошо, но техническая
“защита от дурака” — лучше
Ещё немного успеха
✓Визуализация: графики или сломанный интерфейс
✓Вовлечь людей после публикации
✓Время публикации — важно (дедлайн 2 дня)
✓Коллаборация! (у нас Google Docs)
✓Ревью, публикация — Postmortem Manager
Нормально делай — нормально будет
✓Уведомляйте о плановых работах
✓Сообщайте об инцидентах
✓Не забывайте о качестве информирования
✓Пишите постмортемы
Вопросы?
ableev
[Telegram, Twitter, GitHub, Facebook]
Badoo Tech
https://badootech.badoo.com/
Badoo на Хабре
https://habrahabr.ru/company/badoo/

More Related Content

Viewers also liked

Искусство предсказания: как давать более точные оценки времени проекта / Андр...
Искусство предсказания: как давать более точные оценки времени проекта / Андр...Искусство предсказания: как давать более точные оценки времени проекта / Андр...
Искусство предсказания: как давать более точные оценки времени проекта / Андр...Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)Ontico
 
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)Ontico
 
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...Ontico
 
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)Ontico
 
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)Ontico
 
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...Ontico
 
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)Ontico
 

Viewers also liked (9)

Искусство предсказания: как давать более точные оценки времени проекта / Андр...
Искусство предсказания: как давать более точные оценки времени проекта / Андр...Искусство предсказания: как давать более точные оценки времени проекта / Андр...
Искусство предсказания: как давать более точные оценки времени проекта / Андр...
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)
Лучшие практики CI/CD с Kubernetes и GitLab / Дмитрий Столяров (Флант)
 
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)
DevOps-трансформация Альфа-Банка / Антон Исанин (Альфа-Банк)
 
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...
ElasticSearch и Heka: как мы учились просеивать слона через сито / Адель Сачк...
 
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)
Переосмысливая подход к инфраструктурному коду / Евгений Пивень (IPONWEB)
 
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)
Эксплуатация container-based-инфраструктур / Николай Сивко (okmeter.io)
 
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...
Мониторинг облачной CI-системы на примере Jenkins / Александр Акбашев (HERE T...
 
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)
Как мы поддерживаем 100 разных версий клиентов в Badoo / Ярослав Голуб (Badoo)
 

Similar to Инцидент-менеджмент в Badoo / Илья Аблеев (Badoo)

Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)
Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)
Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)Ontico
 
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...Alexander Gornik
 
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?Жизнь в стиле стартап в корпоративной среде: Agile в помощь?
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?ScrumTrek
 
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...Lviv Startup Club
 
Консалтинг высоконагруженных web систем
Консалтинг высоконагруженных web системКонсалтинг высоконагруженных web систем
Консалтинг высоконагруженных web системMedia Gorod
 
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникаций
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникацийАлексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникаций
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникацийScrumTrek
 
Знать все о своих клиентах - бесценно. И бесплатно
Знать все о своих клиентах - бесценно. И бесплатноЗнать все о своих клиентах - бесценно. И бесплатно
Знать все о своих клиентах - бесценно. И бесплатноAstra Media Group, Russia
 
Human computer interfaces v8
Human computer interfaces v8Human computer interfaces v8
Human computer interfaces v8Yuri Ammosov
 
Антикризисные инструменты руководителя. Как помочь бизнесу расти
Антикризисные инструменты руководителя. Как помочь бизнесу растиАнтикризисные инструменты руководителя. Как помочь бизнесу расти
Антикризисные инструменты руководителя. Как помочь бизнесу растиavt-center
 
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...Sigma Software
 
Битрикс24 - обзор функционала
Битрикс24 - обзор функционалаБитрикс24 - обзор функционала
Битрикс24 - обзор функционала1С-Битрикс
 
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...SECON
 
Андрій Уманський “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...
Андрій Уманський  “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...Андрій Уманський  “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...
Андрій Уманський “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...Lviv Startup Club
 
Принципы Getting real (часть 1).Мегамозг
Принципы Getting real (часть 1).МегамозгПринципы Getting real (часть 1).Мегамозг
Принципы Getting real (часть 1).Мегамозгwisedarkness
 
Считаем клиентов и делаем персонал своими союзниками.
Считаем клиентов  и делаем персонал своими союзниками.Считаем клиентов  и делаем персонал своими союзниками.
Считаем клиентов и делаем персонал своими союзниками.Интернет-агентство Легион
 
12 10 11_!shareрoint
12 10 11_!shareрoint12 10 11_!shareрoint
12 10 11_!shareрointITMsupport
 
Джентльменский набор сисадмина / Антон Турецкий (Badoo)
Джентльменский набор сисадмина / Антон Турецкий (Badoo)Джентльменский набор сисадмина / Антон Турецкий (Badoo)
Джентльменский набор сисадмина / Антон Турецкий (Badoo)Ontico
 
Разработчик всегда прав
Разработчик всегда правРазработчик всегда прав
Разработчик всегда правCEE-SEC(R)
 

Similar to Инцидент-менеджмент в Badoo / Илья Аблеев (Badoo) (20)

LanDocs Business Suite
LanDocs Business SuiteLanDocs Business Suite
LanDocs Business Suite
 
Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)
Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)
Илья Космодемьянский (PostgreSQL-Consulting.com), Роман Друзягин (404 Group)
 
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...
Когда проектов больше чем людей - процесс разработки в маленькой, но амбициоз...
 
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?Жизнь в стиле стартап в корпоративной среде: Agile в помощь?
Жизнь в стиле стартап в корпоративной среде: Agile в помощь?
 
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...
Дмитро Суслов. Соціальний інтранет - новий формат внутрішньо корпоративних ко...
 
Александр Башкиров. Как бизнес приходит к тому, что нужно системно управлять ...
Александр Башкиров. Как бизнес приходит к тому, что нужно системно управлять ...Александр Башкиров. Как бизнес приходит к тому, что нужно системно управлять ...
Александр Башкиров. Как бизнес приходит к тому, что нужно системно управлять ...
 
Консалтинг высоконагруженных web систем
Консалтинг высоконагруженных web системКонсалтинг высоконагруженных web систем
Консалтинг высоконагруженных web систем
 
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникаций
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникацийАлексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникаций
Алексей Трошин. Менеджер не нужен: быстрые шаблоны правильных коммуникаций
 
Знать все о своих клиентах - бесценно. И бесплатно
Знать все о своих клиентах - бесценно. И бесплатноЗнать все о своих клиентах - бесценно. И бесплатно
Знать все о своих клиентах - бесценно. И бесплатно
 
Human computer interfaces v8
Human computer interfaces v8Human computer interfaces v8
Human computer interfaces v8
 
Антикризисные инструменты руководителя. Как помочь бизнесу расти
Антикризисные инструменты руководителя. Как помочь бизнесу растиАнтикризисные инструменты руководителя. Как помочь бизнесу расти
Антикризисные инструменты руководителя. Как помочь бизнесу расти
 
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...
Как сделать так, чтобы ваша команда полюбила работать с тикетами, Павел Антон...
 
Битрикс24 - обзор функционала
Битрикс24 - обзор функционалаБитрикс24 - обзор функционала
Битрикс24 - обзор функционала
 
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...
SECON'2017, Трошин Алексей, Выжить без менеджера: шаблоны правильных коммуник...
 
Андрій Уманський “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...
Андрій Уманський  “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...Андрій Уманський  “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...
Андрій Уманський “Зустрічі 1 на 1 – головний інструмент мотивації команди пр...
 
Принципы Getting real (часть 1).Мегамозг
Принципы Getting real (часть 1).МегамозгПринципы Getting real (часть 1).Мегамозг
Принципы Getting real (часть 1).Мегамозг
 
Считаем клиентов и делаем персонал своими союзниками.
Считаем клиентов  и делаем персонал своими союзниками.Считаем клиентов  и делаем персонал своими союзниками.
Считаем клиентов и делаем персонал своими союзниками.
 
12 10 11_!shareрoint
12 10 11_!shareрoint12 10 11_!shareрoint
12 10 11_!shareрoint
 
Джентльменский набор сисадмина / Антон Турецкий (Badoo)
Джентльменский набор сисадмина / Антон Турецкий (Badoo)Джентльменский набор сисадмина / Антон Турецкий (Badoo)
Джентльменский набор сисадмина / Антон Турецкий (Badoo)
 
Разработчик всегда прав
Разработчик всегда правРазработчик всегда прав
Разработчик всегда прав
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
 

Инцидент-менеджмент в Badoo / Илья Аблеев (Badoo)

  • 2. О чём доклад? ✓Плановые работы ✓Инциденты ✓Информирование/оповещение ✓Постмортемы
  • 3. Плановые работы события или изменения, которые могут повлиять на что-то или на кого-то
  • 4. На случай важных переговоров ✓Можно сделать быстро, никто не заметит! ✓А заметит — я тут не в игрушки играю! ✓Не совершает ошибок тот, кто ничего не делает!
  • 5. Плановые работы ✓Без них никак — нужно делать прод лучше ✓Плановые работы должны быть запланированы ✓Планировать время (дольше — лучше) ✓Если затянулось — предупредить
  • 6. Зачем вообще сообщать? ✓Люди будут знать, что сервис может не работать ✓Можно предотвратить негатив (как технически, так и…) ✓Ответственнее подойдёте к процессу
  • 8. Инциденты события, которые точно несут негативный эффект
  • 9. На случай важных переговоров ✓Быстро починю, никто и не заметит! ✓Ну ладно вам, всего час не работало, зато до этого год всё было окей! ✓Быстро поднятый сервер не считается упавшим!
  • 10. Инциденты ✓Без них никак (обычно) ✓Портят жизнь и нервы коллегам ✓Могут портить жизнь пользователям – что-то не работает ✓Несут убытки бизнесу
  • 11. Зачем о них-то сообщать? ✓Сгладить негатив ✓Признать вину: +100500 к доверию ✓Держать в курсе событий: ещё +100500 ✓Вести учёт факапов — анализ в будущем ✓Уменьшать даунтайм похожих проблем
  • 13. На случай важных переговоров ✓Бюрократы! ✓Есть вопросы? Пусть меня спросят, я им всё объясню! ✓Никогда такого не было, и вот опять… ✓Не волнуйтесь, такого больше не повторится.
  • 14. Способы уведомлений ✓Письма — у всех есть корпоративная почта ✓Веб-интерфейс/API ✓SMS/мессенджеры ✓Календарь ✓Почтовые голуби? 🐦
  • 15. Как уведомлять? ✓Чем раньше сообщить, тем лучше ✓Примерное время восстановления ✓ Публично — это обещание ✓ Приватно — это прогноз ✓Не успеваете починить – сообщите заранее
  • 16. Да кто их читает? ✓Сначала — никто ✓Надо приучать людей читать ✓Приучать к тому, где им больше нравится видеть информацию ✓Собирать фидбек — повышать качество оповещений
  • 17. Уведомления – не отписка ✓Должно быть понятно ✓Технари должны объяснить нетехнарям ✓Нетехнари должны понять технарей ✓Можно описать технические детали
  • 18. Уведомления – не отписка ✓Должно быть понятно? Карта сервисов Сервис Функциональность Уровень критичности Authorizer Процесс авторизации на сайте Высокий UDB Самая главная база данных о пользователях, недоступна – не работает регистрация, логин и тд Высочайший Queue processor Фоновый обработчик очередей, напрямую на пользователей не влияет, но при длительной пролёжке у пользователей могут перестать обновляться важные данные Низкий
  • 19. Как было у нас? ✓Простые письма в почту ✓Прикрутили календарь ✓Из календаря — SMS оповещения (точечно) ✓Устали писать руками: интерфейс на коленке
  • 20. Как сейчас? ✓Интерфейс + API ✓Заводим инциденты автоматически из мониторинга ✓Разделяем несколько уровней деградации ✓Подсвечиваем все работы и проблемы на графиках
  • 21. Постмортемы работа над ошибками, описание и разбор случившихся инцидентов
  • 22. Как выглядит? ✓Пример: GitLab Postmortem of database outage Jan 31 ✓Нафакапили, “сознались”, указали последствия, разобрали технические детали
  • 23. Цели постмортема? ✓публичное порицание ни в коем случае :) ✓Найти критичные проблемы и устранить их ✓Не повторять аналогичных ошибок в будущем ✓Повысить уровень ответственности среди сотрудников
  • 24. Что до публикации? ✓Оценить негативные последствия или убытки ✓Восстановить таймлайн событий ✓Найти источник проблемы ✓Разобраться в технических деталях (от и до) ✓Подвести итоги: lessons learned
  • 25. Залог успешного постмортема ✓Не доводить до абсурда (не писать на любой чих) ✓Таймлайн ✓Не винить конкретных людей / отделы ✓Сухие факты, меньше эмоций ✓Начинать писать сразу, пока свежи воспоминания ✓Писать должен непосредственный участник
  • 26. Как постмортем выглядит у нас? ✓Что было, как выглядело для юзера? ✓Когда и в течение какого времени? ✓Как много пользователей затронуло? ✓Причины, техническое описание ✓Что делать, чтобы больше не повторилось?
  • 27. Что было, как выглядело для юзера? ✓Простым и понятным языком ✓TODO: примеры
  • 28.
  • 29. Когда и в течение какого времени? ✓Время всегда в единой таймзоне — UTC ✓И в едином формате: 2017-11-08 12:00 ✓Нужно указать время начала и исправления ✓Можно — время полного восстановления
  • 30.
  • 31. Как много пользователей затронуло? ✓Метрика, по которой оцениваем инциденты ✓Должна быть возможность быстро посчитать ✓Зачастую — очень размытая оценка ✓Либо что-то ломается совсем ✓Либо что-то деградирует частично
  • 32.
  • 33. Причины, техническое описание ✓Организационные причины сюда же ✓Писать так, чтобы другие технари тоже поняли ✓Не лить воду ✓Нет “я”, есть “мы”, или "оно само" — обезличиваем ✓Коллеги и заинтересованные проверяют и дополняют
  • 34. Таймлайн ✓Поймём, на что больше всего тратили времени ✓Как это время можно сократить? ✓Долгое оповещение или ресёрч — тоже часть проблемы
  • 35.
  • 36. Что делать, чтобы больше не повторилось? ✓Думать головой :) ✓Больше конкретики — список задач + дедлайны ✓Документация — это хорошо, но техническая “защита от дурака” — лучше
  • 37.
  • 38. Ещё немного успеха ✓Визуализация: графики или сломанный интерфейс ✓Вовлечь людей после публикации ✓Время публикации — важно (дедлайн 2 дня) ✓Коллаборация! (у нас Google Docs) ✓Ревью, публикация — Postmortem Manager
  • 39.
  • 40. Нормально делай — нормально будет ✓Уведомляйте о плановых работах ✓Сообщайте об инцидентах ✓Не забывайте о качестве информирования ✓Пишите постмортемы
  • 41. Вопросы? ableev [Telegram, Twitter, GitHub, Facebook] Badoo Tech https://badootech.badoo.com/ Badoo на Хабре https://habrahabr.ru/company/badoo/