Seu site em produção acabou de cair. Como você lida com isso?

Question

Accepted Answer

A primeira prioridade é **restaurar o serviço, depois encontrar a causa** — a mitigação vem antes do diagnóstico. Eu declararia um incident, atribuiria papéis claros e conduziria rumo à recuperação segura mais rápida, comunicando o tempo todo.

## Estabilizar primeiro

- **Declarar um incident** e abrir um único canal (war room / thread no Slack) para que a coordenação não fique dispersa.
- **Atribuir papéis**: um **Incident Commander** para tomar decisões, um **responsável pela comunicação** para atualizar os stakeholders e **responders** para investigar. Como Tech Lead, frequentemente assumo o papel de IC para que os engenheiros possam focar no problema.
- **Buscar a correção reversível mais rápida.** Se um deploy se correlaciona com a queda, **faça rollback** primeiro e pergunte depois — restaurar os usuários vale mais do que estar certo.

## Diagnosticar em paralelo

- Verificar os **sinais óbvios**: dashboards, taxas de erro, deploys recentes, mudanças de infra, picos de tráfego, certificados expirados.
- Formular uma hipótese, testar a mais barata primeiro e **evitar mudar cinco coisas de uma vez** — você não saberá o que funcionou.

## Comunicar continuamente

O silêncio gera pânico. Envio atualizações em cadência constante, mesmo quando não há novidades:

```
[14:05] Investigando — o checkout está fora do ar, ~40% dos usuários afetados. Próxima atualização às 14:20.
[14:20] Identificado: deploy ruim. Fazendo rollback agora. ETA 10 min.
[14:35] Serviço restaurado. Monitorando. Postmortem a seguir.
```

## Após a recuperação

- Confirmar a recuperação total, não apenas "parece melhor".
- Conduzir um **postmortem blameless** em poucos dias: linha do tempo, causa raiz, o que tornou a detecção/correção lenta e **itens de ação concretos com responsáveis**.
- O resultado é melhoria sistêmica (melhores alertas, guardrails, automação de rollback) — não um nome para culpar.

## Armadilhas

- **Depurar antes de mitigar** enquanto os usuários sofrem.
- **Nenhum tomador de decisão único**, então cinco pessoas adivinham em paralelo.
- **Sumir** com os stakeholders.
- **Culpar indivíduos**, o que mata a honestidade da qual os incidents futuros dependem.

## Por que isso importa

Quedas são inevitáveis; como você as conduz define a confiança do time e a confiança do cliente. Coordenação calma, baseada em papéis, somada a um acompanhamento blameless transforma um dia ruim em um sistema mais forte — e sinaliza aos seus engenheiros que é seguro se mover rápido porque a falha é tratada como um processo, não como uma caça às bruxas.