Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

Postmortem & Zabbix

Download to read offline

Um Overview sobre o novo termo dos SREs e como esse termo pode ser aplicado ao mundo Zabbix

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Postmortem & Zabbix

  1. 1. Postmortem & Zabbix “THE COST OF FAILURE IS EDUCATION.” DEVIN CARRAWAY
  2. 2.  Luiz Sales  Owner at ServiceMonit  Infrastructure Analyst  Intelligence Of Things  Zabbix Specialist and Professional Eu
  3. 3. O que é? É de comer?  O conceito postmortem é bem conhecido na indústria de tecnologia. Um postmortem é um registro escrito de um incidente, seu impacto, as ações tomadas para mitigá-lo ou resolvê-lo, a causa raiz e as ações de acompanhamento para evitar que o incidente se repita.
  4. 4. Objetivos  Os principais objetivos de escrever um postmortem são garantir que o incidente seja documentado, que todas as causas básicas sejam bem compreendidas e, especialmente, que ações preventivas efetivas sejam postas em prática para reduzir a probabilidade e / ou o impacto da recorrência. Escrever um post-mortem não é punição - é uma oportunidade de aprendizado para toda a empresa.
  5. 5. Gatilhos  Degradação de acessso do usuario.  Perda de dados de qualquer tipo  Intervençao do Analista Senior, realizando qualquer atividade  Resolução fora do tempo estabelecido  A Monitoração fallhou (ou foi descoberto que não tinha monitoração ou não estava bem definida)
  6. 6. ZABBIX
  7. 7. TOP 100 TRIGGERS
  8. 8. Como compartilhar o Postmortem  Wiki  Knowledge base
  9. 9. EXAMPLE POSTMORTEM  Date:  Authors: Luiz Sales  Status: Complete.  Summary: history syncer muito alto causando lentidão no ambiente e performance deteriorada  Impact:Lentidão na interface web e monitoração de itens. Acesso a solução deteriorada, Clientes reclmando que nao acesssam o portal.  Root Causes: Lentidão em cascata quando ocorria o problema, com alto volume de incidentes represados, ocasionado alta fila e lentidão nos seviços  Trigger: History syncer is very high > 95%  Resolution: Aumento de pollers padrões no Zabbix, ajustes de configuração no banco de dados. , melhorias no sistemas opercaional, prioridade de processos.
  10. 10. Referencias  https://landing.google.com/sre/sre-book/chapters/postmortem/
  11. 11.  Luiz Sales  +55 (11) 9 8832 5874  luiz.sales@servicemonit.com.br  https://www.linkedin.com/in/lsa1es/  https://github.com/lsa1es Contatos

Um Overview sobre o novo termo dos SREs e como esse termo pode ser aplicado ao mundo Zabbix

Views

Total views

208

On Slideshare

0

From embeds

0

Number of embeds

0

Actions

Downloads

3

Shares

0

Comments

0

Likes

0

×