Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Postmortem & Zabbix

128 views

Published on

Um Overview sobre o novo termo dos SREs e como esse termo pode ser aplicado ao mundo Zabbix

Published in: Internet
  • Be the first to comment

  • Be the first to like this

Postmortem & Zabbix

  1. 1. Postmortem & Zabbix “THE COST OF FAILURE IS EDUCATION.” DEVIN CARRAWAY
  2. 2.  Luiz Sales  Owner at ServiceMonit  Infrastructure Analyst  Intelligence Of Things  Zabbix Specialist and Professional Eu
  3. 3. O que é? É de comer?  O conceito postmortem é bem conhecido na indústria de tecnologia. Um postmortem é um registro escrito de um incidente, seu impacto, as ações tomadas para mitigá-lo ou resolvê-lo, a causa raiz e as ações de acompanhamento para evitar que o incidente se repita.
  4. 4. Objetivos  Os principais objetivos de escrever um postmortem são garantir que o incidente seja documentado, que todas as causas básicas sejam bem compreendidas e, especialmente, que ações preventivas efetivas sejam postas em prática para reduzir a probabilidade e / ou o impacto da recorrência. Escrever um post-mortem não é punição - é uma oportunidade de aprendizado para toda a empresa.
  5. 5. Gatilhos  Degradação de acessso do usuario.  Perda de dados de qualquer tipo  Intervençao do Analista Senior, realizando qualquer atividade  Resolução fora do tempo estabelecido  A Monitoração fallhou (ou foi descoberto que não tinha monitoração ou não estava bem definida)
  6. 6. ZABBIX
  7. 7. TOP 100 TRIGGERS
  8. 8. Como compartilhar o Postmortem  Wiki  Knowledge base
  9. 9. EXAMPLE POSTMORTEM  Date:  Authors: Luiz Sales  Status: Complete.  Summary: history syncer muito alto causando lentidão no ambiente e performance deteriorada  Impact:Lentidão na interface web e monitoração de itens. Acesso a solução deteriorada, Clientes reclmando que nao acesssam o portal.  Root Causes: Lentidão em cascata quando ocorria o problema, com alto volume de incidentes represados, ocasionado alta fila e lentidão nos seviços  Trigger: History syncer is very high > 95%  Resolution: Aumento de pollers padrões no Zabbix, ajustes de configuração no banco de dados. , melhorias no sistemas opercaional, prioridade de processos.
  10. 10. Referencias  https://landing.google.com/sre/sre-book/chapters/postmortem/
  11. 11.  Luiz Sales  +55 (11) 9 8832 5874  luiz.sales@servicemonit.com.br  https://www.linkedin.com/in/lsa1es/  https://github.com/lsa1es Contatos

×