Системы ломаются. Люди ошибаются. Реагировать на это можно по-разному, но это неизбежно. Я расскажу о том как можно проделать детальную работу над ошибками, которая позволит выжать максимум из любого значимого инцидента. 45mins Talk
8. Шукати винуватих -
шкідливо
• Не помиляється лише той хто нічого
не робить
• Страх помилки паралізує
• Складні системи ламаються
• Помилки виникають тому що
поточний підхід їх допускає
11. Відповіді на питання
• Що було справжньою причиною?
• Чи дійсно виправили її, а не симптом?
• Як швидко виявили проблему? Автоматично чи користувачі?
• Як швидко взяли в роботу? Чи був пінг-понг?
• Як довго виправляли?
• Як запобігти? Якщо неможливо, як знизити втрати?
• Як мінімізувати час на виявлення, виправлення і т.д.
• Скільки зусиль на це потратити?
12. Постмортем
• Інструмент безперервного покращення і
навчання
• Дозволяє запобігти повторення проблем
• База знань
• Ділитися досвідом з іншими
• Прозорість
20. Шаг 3: Аналіз корінних
причин
• 5 чому
• Без звинувачень (blameless)
• Hindsight bias
21. 5 чому
• Задавайте питання “Чому?”, доки не
дійдете до суті.
• Часто 5 чому достатньо
• Вимагає практики
• З Toyota Production System
22. Без звинувачень
• Вася закомітив код с багом
• Вася закомітив код с багом тому що
він тупий
• Вася, гад такий, закомітив код с
багом в наш репозиторій
23. Шаг 4: Запобіжні заходи
• Як
• запобігти
• зреагувати скоріше
• зменшити збиток
• Зусилля <==> Збиток
• Фокус – на те, що можемо змінити самі
24. Спосіб подачі
• Оцінка збитку
• Реконструкція
• Аналіх корінних причин
• Запобіжні заходи
25. Спосіб подачі
• Запобіжні заходи
• Оцінка збитку
• Корінні причини
• Аналіз корінних причин
• Реконструкція
26. RCA
Impact
Analysis Mitigation
• As business value
• Direct, indirect, or potential
• Approx. estimation
• Ask business people!
• Key events with timestamps
• Who was involved
• How tried to fix
• How it was fixed
• To understand how quickly
reacted and fixed
Reconstruction • 5 Whys
• Beware of hindsight bias
• Blameless
• No finger-pointing
• How to
• … prevent
• … react faster
• … minimize impact
• Effort <==> Impact
POSTMORTEM ANALYSIS
• Blameless
• Reasonable
• Actionable
• Timely
WHY
• Continuous learning
• Share experience
• Knowledge base
by Yury Lytvynenko
yury-lytvynenko.com