2. Who am I
● SRE team lead @AnchorFree
● @onorua
● https://www.meetup.com/Kubernetes-Kyiv/
● Deal a lot with production
● Introduced Error Budgets @Anchorfree
Yaroslav Molochko
3. Anchorfree in numbers
● 650M customers
● Several thousands nodes
● 148 containers deal with user traffic
● 16M metrics
31. 60m 120m
1%
min
0.432 * 0.01 * 60 sec = 0.26sec per second
36h
43.2m
43.2min
166 m
180m
0.432 * 0.1 * 60 sec = 2.592 sec per second
43.2min
16 m
166 m
16 m 100m
ErrorBudgetremaining
33. What happens when Error Budget is fully utilized
● Your team switch to maintenance mode for the service
● Your team stop to onboard new services
● Nothing but tests and hotfix are allowed to get into
41. This will not work in our
unique case
Tell me that when you become Google
42. Sell this to your boss
1. Acknowledge responsibility for subsystem
2. Focus on user needs
3. Agree on what happens when Error Budget is beyond budget?
4. Get a sign-off from neighbor teams and management
63. Severity Long
Window
Short
Window
Burn rate Error
budget
consumed
Page 1 hour 5 minutes 14.4 2%
Page 6 hours 30 minutes 6 5%
Ticket 3 days 6 hours 1 10%
Site Reliability Workbook | Ways to Alert on Significant Events | page 85
64. Main alerting takeaways
● Short vs Long windows ratio is 1/12 (magic ratio)
● Don’t use extra FOR in alert manager
● Burn rate is not a magic number
● 2% leave you with 50 alerts per month within budget
65. Error budgets
● Rules (you know how to play, you know how to score)
● Self-Escalation
● Over commitment protection
● Put your users first!
Основная идея доклада: Бюджет ошибок необходим каждому у кого есть production.
3 Основных базиса почему это правда
3 Вывода которых можно сделать из основной мысли
Результирующая акция, действие которое аудитория должна предпринять
Один из этих сервисов - запуск баллистической ракеты
Второй - анимации в Slack
Третий - процессинг 3 миллионов долларов в секунду
Один из этих сервисов - запуск баллистической ракеты
Второй - анимации в Slack
Третий - процессинг 3 миллионов долларов в секунду
Что чинить первым?
Burnout - выгорание
Один из этих сервисов - запуск баллистической ракеты
Второй - анимации в Slack
Третий - процессинг 3 миллионов долларов в секунду
Что чинить первым?
боль
отрицание
злость
Может быть много сервис индикаторов, которые влияют на работу сервиса, но только несколько из них видны клиенту. Например низкая скорость чтения из БД может влиять на сервис, но в SLO должен быть success rate или request latency 0.95 percentile. Слишком много SLI в SLO приводит к бесполезной трате времени.