Kubernetes (Canary) Deployments

Kubernetes
(Canary)
Deployments

# whoami
Senior DevOps Engineer
damian.tykalowski@tsh.io
#d47zm3 (GitHub)

Deployment?
Czy chodzi o…
- apps/v1/Deployment
- ten przycisk w Jenkinsie
- to samo co Release
- impreza w piątek po 16
- proces wdrażania nowej wersji aplikacji wraz z jej zależnościami

CI/CD, a po co komu to potrzebne?
“Dostajemy .war’a mailem, logujemy się na FTP, wrzucamy go tam, restart
Tomcata i gotowe” - wdrożenie w dużej firmie kurierskiej, rok 2014

Utopia?
● build ➤ test ➤ release ➤ monitor
● build
○ zewnętrzne zależności?
○ zmiany w DB Schema?
● test
○ testy integracyjne, jednostkowe, smoke-testy, E2E?
○ security???
● release
○ rollback?
● monitor
○ SLA, SLO? Error Budget? p95, p99? Latency? APM?

Rodzaje Deploymentów
● re-create
● rolling update
● blue/green
● canary
● shadow

Limity
● “famous” https://github.com/kubernetes/kubernetes/issues/67577
○ CFS quotas can lead to unnecessary throttling
#67577
○ naprawiony w wersji 4.18 (Kernel) (luty 2019)
○ wciąż wskazywany przy wielu zgłoszeniach
○ brak limitów jako “workaround”? risky...
● wycieki pamięci, obciążenie wszystkich rdzeni, brak kredytów EC2…

Healthchecks
● https://github.com/kubernetes/kubernetes/issues/66230
● Prevent mass livenessProbe failures from taking down all pods in a
Deployment #66230 (OPEN - 2018)

Healthchecks
● livenessProbe != readinessProbe
○ czy serwis jest gotowy i nawiązał połączenie z zależnościami? (readiness)
○ czy serwis nadal działa i może odpowiadać (tylko sam z siebie?) (liveness)
● zbyt agresywne/skomplikowane healthchecki
● uzależnione od zewnętrznych serwisów
● “pętla zależności”
○ API ➤ AuthService ➤ Database ➤ Storage Provider?

Service Mesh (Istio)
● jak wygląda droga żądania przez nasz klaster? (tracing)
● co “zamula”?
● szyfrowanie ruchu pomiędzy serwisami (mTLS)
● limity połączeń między serwisami
● re-try/timeout
● blue/green, canary deployments

Service Mesh
“Cascading Failure”

Circuit Breaker Na Ratunek!
● max 1 połączenie TCP
● max 1 wiszące żądanie
● max 1 żądanie/połączenie
● odrzucaj nadmiarowe żądania
● wyrzuć endpoint z puli po 1 błędzie
● sprawdzaj czy endpoint jest gotowy na ponowne
sprawdzenie co 1 sekundę (czy
baseEjectionTime już minął)
● czekaj 3m zanim ponownie sprawdzisz czy
endpoint odpowiada
● wyrzuć do 100% błędnych endpointów z puli

Epic Fails
● https://k8s.af/
● 10 More Weird Ways to Blow Up Your Kubernetes - Airbnb - KubeCon NA 2020
○ involved: MutatingAdmissionWebhook, CPU Limits, OOMKill, kube2iam, HPA
○ impact: outages
● Why we switched from ﬂuent-bit to Fluentd in 2 hours - PrometheusKube - blog post 2020
○ involved: ﬂuent-bit, missing logs, Fluentd
○ impact: lost application logs in production
● Make your services faster by removing CPU limits - Buffer - blog post 2020
○ involved: kops, CPU Limit, CPU throttling
○ impact: high latency
● The case of the missing packet: An EKS migration tale - MindTickle - blog post 2020
○ involved: EKS, AWS CNI Plugin,
○ impact: frequent connection failures when talking to services outside the cluster
● Kubernetes Networking Problems Due to the Conntrack - loveholidays - blog post 2020
○ involved: GKE, conntrack, HAProxy
○ impact: high error rate on network-heavy services
● DNS issues in Kubernetes. Public postmortem #1 - Preply - blog post 2020
○ involved: conntrack, DNS, CoreDNS-autoscaler
○ impact: partial production outage
● How we failed to integrate Istio into our platform - Exponea - blog post 2019
○ involved: Istio, GKE, proxy injection
○ impact: stopped Istio rollout, developers' time spent

Canary Deployments
● RollingUpdate “na wypasie”
● powolne przekierowanie ruchu na nową wersję aplikacji, nieustannie
monitorując zachowanie nowej wersji pod kątem błędów, opóźnień, <insert
custom metric here> (Canary Analysis)
● definicja jak szybko, w jakich krokach ma postępować wdrożenie
● automatyczny rollback
● Argo Rollouts, Flagger (Flux v2), Istio, Kayenta (Spinnaker), NGINX Ingress...

A jak już wszystko zautomatyzujemy...

Kubernetes (Canary) Deployments

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Kubernetes (Canary) Deployments

Similar to Kubernetes (Canary) Deployments (20)

More from The Software House

More from The Software House (20)

Kubernetes (Canary) Deployments