Le monitoring à l'heure de DevOps et Big Data

3,043 views
2,981 views

Published on

Présentation donnée au Breizhcamp le 23 juin 2014

Le monitoring d'applications ... pas vraiment hype comme sujet. Et pourtant c'est un domaine en mutation parce que le déploiement continu et la démarche DevOps modifient les échanges d'informations avec la production et aussi parce qu'il est maintenant possible stocker massivement les informations collectées. Je vous propose d'explorer ces sujets autour de quelques exemples.

Published in: Data & Analytics
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,043
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
39
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Le monitoring à l'heure de DevOps et Big Data

  1. 1. @cfalguiere#breizhcamp Le monitoring à l’heure de DevOps et BigData Claude Falguière BreizhCamp 2014 1
  2. 2. @cfalguiere#breizhcamp monitoring monitor Surveiller Anticiper Améliorer Information 2
  3. 3. @cfalguiere#breizhcamp Claude Falguière coach devops performances applicatives, Java Paris JUG et comité de programme Devoxx Devoxx4Kids France 3
  4. 4. @cfalguiere#breizhcamp dédicace de la mesure de la vitesse des galaxie à la découverte de la matière noire savoir remettre en cause nos modèles mentaux mesurer correctement 4
  5. 5. @cfalguiere#breizhcamp monitoring ? 5
  6. 6. @cfalguiere#breizhcamp monitoring ? A - Qu’est ce que c’est ? B - C’est le problème de la production C - Mais c’est quoi ces logs de merde ! D - Oh non ! ça va tuer les perfs E - Je veux en faire quand je serai grand F - Lean Startup 6
  7. 7. @cfalguiere#breizhcamp devops surveillance alerte audit 7
  8. 8. @cfalguiere#breizhcamp lean startup build measure learn continuous improvement 8
  9. 9. @cfalguiere#breizhcamp big data user experience -> performance catégorisation, segmentation tests d’hypothèse, A/B testing 9
  10. 10. @cfalguiere#breizhcamp measure everything décider sur la base de faits et de mesure 10
  11. 11. @cfalguiere#breizhcamp user stories surveiller alerter auditer anticiper améliorer 11
  12. 12. @cfalguiere#breizhcamp SLA, exigences techniques quelles sont les contraintes quels sont les risques critère de succès = indicateur 12
  13. 13. @cfalguiere#breizhcamp du relevé à l’information nombre mesure métrique indicateur information compréhension + unité + contexte + range + description + lecteur 13
  14. 14. @cfalguiere#breizhcamp on s’y met 14
  15. 15. @cfalguiere#breizhcamp quoi Surveiller Alerter Auditer Prévoir Améliorer la présence l’usage les ressources qui peuvent être une limite physique : CPU, mémoire, disque, réseau... configurable : pools, queues, caches les autres les erreurs 15
  16. 16. @cfalguiere#breizhcamp quoi ce qui améliore la compréhension du processus répartition du temps masses et répétitions parcours utilisateur contexte écouter les utilisateurs, les ops, les devs écouter les données Surveiller Alerter Auditer Prévoir Améliorer 16
  17. 17. @cfalguiere#breizhcamp anticiper warnings seuils trends et capacity planning baseling CEP (complex event processing) 17
  18. 18. @cfalguiere#breizhcamp proactivité design for failure auto-adaptation resilience 18
  19. 19. @cfalguiere#breizhcamp flexibilité collecte unique restitutions multiples la production le dev le business 19
  20. 20. @cfalguiere#breizhcamp sous quelle forme taux / valeur relatif / absolu unité à quel endroit périodicité 20
  21. 21. @cfalguiere#breizhcamp échantillonnage perte d’informations à la prise de mesure agregation / compactage à la restitution 21
  22. 22. @cfalguiere#breizhcamp dashboard activité et destinataire niveau de synthèse rapprochement prochaine action 22
  23. 23. @cfalguiere#breizhcamp validation du monitoring représentativité fiabilité et cohérence compréhension par le destinataire réponse adaptée 23
  24. 24. @cfalguiere#breizhcamp les outils 24
  25. 25. @cfalguiere#breizhcamp les logs framework (Log4j, ...) non bloquants compréhensibles par le destinataire 25
  26. 26. @cfalguiere#breizhcamp comment irriter un Ops ? 1 Go de logs par jour plusieurs formats dans le même fichier et ça : 2013-12-17 05:53:16,208 INFO [org.jboss.mail.MailService] (main) Mail Service bound to java:/Mail 2013-12-17 05:53:16,247 ERROR [org.jboss.kernel.plugins.dependency.AbstractKernelController] (main) Error installing to Real: name=vfsfile:/opt/jboss/jbepp-51/profiles/fr-si-ba-a/custom-deploy/oneweb-fr-bas/oneweb-fr-ear-service.xml state=PreReal mode=Manual requiredState=Real org.jboss.deployers.spi.DeploymentException: Error deploying: jboss:type=Service,name=OneWebSystemProperties at org.jboss.deployers.spi.DeploymentException.rethrowAsDeploymentException(DeploymentException.java:49) at org.jboss.system.deployers.ServiceDeployer.deploy(ServiceDeployer.java:118) at org.jboss.system.deployers.ServiceDeployer.deploy(ServiceDeployer.java:46) at org.jboss.deployers.spi.deployer.helpers.AbstractSimpleRealDeployer.internalDeploy(AbstractSimpleRealDeployer.java:62) at org.jboss.deployers.spi.deployer.helpers.AbstractRealDeployer.deploy(AbstractRealDeployer.java:55) at org.jboss.deployers.plugins.deployers.DeployerWrapper.deploy(DeployerWrapper.java:179) 26
  27. 27. @cfalguiere#breizhcamp les sondes périodicité contentions accidentelles continuité 27
  28. 28. @cfalguiere#breizhcamp fonctionnement App Alerting Logs Analyseur de logs Opérateur Sonde 28
  29. 29. @cfalguiere#breizhcamp alerting Nagios, Zabbix, Patrol, ... Agrégration d’alertes Diffusion sur différent médias Escalades 29
  30. 30. @cfalguiere#breizhcamp gestion de logs Syslog-ng Apache Flume Logstash (Elastic Search) Splunk 30
  31. 31. @cfalguiere#breizhcamp fonctionnement App Alerting Logs Analyseur de logs Opérateur Collecte Historisation Sonde 31
  32. 32. @cfalguiere#breizhcamp historisation / graphing RRD Tools Whisper et Graphite Elastic Search et Kibana Datomic 32
  33. 33. @cfalguiere#breizhcamp profilage et diagnostic Sondes spécifiques VisualVM JAMon, Java Melody Introscope, New Relic AppDynamics ... 33
  34. 34. @cfalguiere#breizhcamp vers le BI et au delà suivi de la qualité, de l’usine logicielle, de l’expérience utilisateur, du time to market du projet utilisation des mêmes outils statistiques ou de reporting 34
  35. 35. @cfalguiere#breizhcamp conclusion design for failure identifiez les user stories de monitoring confrontez vos mesures à la réalité 35

×