Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

devops REX 2018 - Game Days chez Datadog : Échouer pour mieux réussir

150 views

Published on

Talk donné lors de devops REX 2018, la conférence devops 100% retours d'expériences - http://www.devopsrex.fr

Speaker : Léo Cavaillé
Entreprise : Datadog

Depuis notre pratique des « Game Days » chez Datadog, nous avons pu voir de véritables améliorations dans la résilience de notre infrastructure. Casser les systèmes intentionnellement a changé la vision que les développeurs ont de l'architecture de leurs services. Cela a un impact direct sur leur code et la façon de le tester, et aussi renforce la connaissance opérationnelle en les préparant à différents types d'incidents en production.
Pousser un service à ses limites dans des conditions réelles en apprend souvent beaucoup plus sur ce système aux ingénieurs (parfois des choses surprenantes) que n'importe quels tests en pré-production ou considération théorique.

Dans ce talk, Léo présentera certains "Game Days" ainsi que la démarche de leur mise en place chez Datadog pour en faire une "tradition".

Published in: Technology
  • Be the first to comment

devops REX 2018 - Game Days chez Datadog : Échouer pour mieux réussir

  1. 1. Échouer pour réussir
 Game Days 
 Léo Cavaillé
 SRE Lead @leoc892
  2. 2. Chaos (engineering)
  3. 3. Chaos (engineering) Tester la réponse d'un système face à des perturbations dans des conditions réelles
  4. 4. Chaos (engineering) Tester la réponse d'un système face à des perturbations dans des conditions réelles
  5. 5. "Game day"
  6. 6. Préparation d'un scénario de chaos pour un service 1 "Game day"
  7. 7. Préparation d'un scénario de chaos pour un service 1 2 Exécution du scénario "Game day"
  8. 8. Préparation d'un scénario de chaos pour un service 1 2 3 Exécution du scénario "Action items" "Game day"
  9. 9. Préparation d'un scénario de chaos pour un service 1 2 3 Exécution du scénario "Action items" "Game day" SRE(s) + Dev(s)
  10. 10. Où commencer?
  11. 11. Choix des scénarii
  12. 12. Il y a plus de 10000 requêtes en parallèle ce qui active un mécanisme pour rediriger du trafic vers d'autres instances en reconfigurant les clients par un service dynamique de métadonnées. Choix des scénarii
  13. 13. Il y a plus de 10000 requêtes en parallèle ce qui active un mécanisme pour rediriger du trafic vers d'autres instances en reconfigurant les clients par un service dynamique de métadonnées. Cloud instance Hors Service chez l'hébergeur Choix des scénarii
  14. 14. Préparation
  15. 15. Préparation
  16. 16. Préparation
  17. 17. Préparation
  18. 18. Préparation
  19. 19. Préparation
  20. 20. Préparation
  21. 21. Préparation
  22. 22. Exemple
  23. 23. Exemple
  24. 24. Exemple
  25. 25. Test Staging Production Choix de l'environnement
  26. 26. Test Ce que les devs veulent Staging Production Choix de l'environnement
  27. 27. Test Ce que les devs veulent Staging Le compromis Production Choix de l'environnement
  28. 28. Test Ce que les devs veulent Staging Le compromis Production Ce qu'il faudrait faire Choix de l'environnement
  29. 29. Simplicité
  30. 30. Créer une dynamique
  31. 31. Cadence
  32. 32. Réduire la barrière d'entrée Simple à organiser/réaliser: ~ 2h30 pour un game day ~ 2 personnes (1 dev, 1 SRE) Cadence
  33. 33. Réduire la barrière d'entrée Simple à organiser/réaliser: ~ 2h30 pour un game day ~ 2 personnes (1 dev, 1 SRE) Varier ● Services ● Équipes ● Niveaux Cadence
  34. 34. Niveaux De 0 à 5
  35. 35. Niveaux De 0 à 5 Idées pour augmenter la difficulté des game days. Permet aussi de classer vos services.
  36. 36. Niveaux De 0 à 5 Idées pour augmenter la difficulté des game days. Permet aussi de classer vos services. Donner aux équipes l'envie de passer au niveau suivant.
  37. 37. 84 game days en 2018 Cadence
  38. 38. Documentation
  39. 39. Automatiser
  40. 40. Automatiser
  41. 41. Automatiser
  42. 42. Culture
  43. 43. Célébrer
  44. 44. Célébrer Les échecs
  45. 45. Célébrer Les échecs Les succès
  46. 46. You build it You run it You own it
  47. 47. Connaissance opérationnelle MonitoringDocumentationExpérience
  48. 48. Outil utilisable sans l'aide des SREs
  49. 49. Outil utilisable sans l'aide des SREs
  50. 50. Outil utilisable sans l'aide des SREs
  51. 51. – ~10 SREs vs. 300 développeurs
 – Renforcer la confiance d'une équipe dans ses livrables Outil utilisable sans l'aide des SREs
  52. 52. Hope is not a strategy
  53. 53. Merci (we're hiring)

×