🌱 [Gestão de Incidentes] Postmortem - aprendendo com os próprios erros
May 26, 2022•450 words
Uma abordagem sugerida para *postmortem *e gestão de incidentes (SRE at Google).
RASCUNHO
O que é e como aplicar postmortem.
- Registro por escrito de um incidente, o impacto, a resolução e as causas raízes
Diretiva Primária
"Independentemente do que descobrimos, nós entendemos e acreditamos de verdade que todos fizeram o melhor trabalho que podiam, dado o que se sabia na época, suas habilidades e aptidões, os recursos disponíveis e a situação em questão."
Premissas
Focar em uma reunião produtiva e construtiva, sem apontar dedos ou culpados
O objetivo é compartilhar conhecimento e melhoria contínua
Sugestões
Fazer uma publicação assíncrona (newsletter) mensal resumindo os postmortems
Registrar o postmortem na ferramenta de gerenciamento, junto com os incidentes
Modelo
# [#1234] Postmortem: Falha na geração automática do relatório XYZ
**Síntese:**
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
- Atualizado em: 2022-03-16
- Autores: @Myreli, @Alguem, @Pessoa
- Anexos: [Dashboard](http://link.to/dashboard), [Relatos](http://link.to/relatos)
## Impacto
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris.
## Causa Raíz
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut
labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris
nisi ut aliquip ex ea commodo consequat.
## Resolução
Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium,
totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae
dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit,
sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt.
## Detecção
Consectetur adipiscing elit.
## Aprendizados
**O que foi bem**
- Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit
- Quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt
**O que precisa melhorar**
- At vero eos et accusamus et iusto odio dignissimos ducimus
- Nam libero tempore, cum soluta nobis est eligendi optio cumque
## Planos de Ação
- [Sed ut perspiciatis unde omnis](https://link.to/#4567)
- [Nemo enim ipsam](https://link.to/#8901)
## Linha do Tempo
- 2022-03-14 14:30 `REPORTADO`: Incidente reportado pelo usuário XYZ
- 2022-03-14 16:30 Investigando causa do problema (atualização automática 2h)
- 2022-03-14 17:03 `IDENTIFICADO`: Componente problemático identificado
- 2022-03-14 18:20 `MITIGADO`: Correção temporária liberada
- 2022-03-14 20:40 `REPRODUZIDO`: Problema reproduzido em ambiente de teste
- 2022-03-14 22:40 Investigando soluções
- 2022-03-15 09:00 `RESOLVIDO`: Solução definitiva liberada
Referências:
📚 Building Secure & Reliable Systems [Book]
📚 The Site Reliability Workbook [Book]
📚 Site Reliability Engineering [Book]
📚 Anatomy of an Incident [Book]
🌱 *Seedlings** são ideias que recém tive e precisam de cultivo, não foram revisadas ou refinadas. Saiba mais.*