Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

devops REX 2018 - Mise à l'échelle d'une équipe d'astreinte dans un contexte de forte croissance

110 views

Published on

Talk donné lors de devops REX 2018, la conférence devops 100% retours d'expériences - http://www.devopsrex.fr

Speaker : Damien Pacaud
Entreprise : Teads

Chez Teads comme ailleurs, tout incident de production a des répercussions importantes sur le revenu de l'entreprise.

Nous avons décidé de repenser l'organisation de notre équipe d'astreinte afin d'absorber la complexité grandissante de notre plateforme et d'en minimiser le downtime lors des incidents majeurs.

Ce talk est un retour d'expérience sur les choix que nous avons fait, leurs avantages et leurs inconvénients.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

devops REX 2018 - Mise à l'échelle d'une équipe d'astreinte dans un contexte de forte croissance

  1. 1. Damien Pacaud 16/10/2018 Mise à l’échelle d’une équipe d’astreinte
  2. 2. Qui suis-je ? ✔ Damien Pacaud ✔ Directeur Infrastructure ✔ 12 ans de Prod ✔ 10 ans d’Astreintes
  3. 3. ✔ Global Media Platform ✔ Entreprise AdTech Française ✔ “Clean Advertising” ✔ 1.2 Milliard VU / mois
  4. 4. Dev - ops ? ✔ Feature teams ✔ Equipe infra en support des devs ✔ You build it - You run it ✔ Astreinte pluridisciplinaire
  5. 5. Notre parcours
  6. 6. Décollage ✔ on_call_team := CTO ✔ Forte volatilité de la plateforme ✔ Haute fréquence d’incidents ✔ Besoin de trouver des relais
  7. 7. Encadrement Légal ✔ on_call_team += 2 ✔ Constitution d’une équipe ✔ Ajout d’un cadre légal ✔ Prime d’astreinte
  8. 8. Hyper-croissance ✔ on_call_team += 2 ✔ La plateforme se complexifie ✔ Recruter pour l’astreinte aussi ✔ L’un des membres souhaite arrêter
  9. 9. Notre solution
  10. 10. Documentation ? ✔ Zéro doc ✔ Zéro playbooks ✔ Tentative de construction de doc ✔ Arrêt après quelques semaines
  11. 11. Pair-Astreinte ✔ on_call_team += 8 ✔ 2 personnes d’astreintes ✔ Responsabilité / stress partagés ✔ Pas d’escalade
  12. 12. Faire confiance ✔ Un ingénieur résout des problèmes ✔ Nous ne pouvons pas tout savoir ✔ Nous ferons de notre mieux ✔ Nous acceptons l’erreur
  13. 13. Post-incident ✔ Systématisation des post-mortem ✔ Présence de toute l’équipe ✔ Recherche de cause racine ✔ Constitution de runbooks
  14. 14. Etat des lieux
  15. 15. Merci à tous!

×