A primeira prioridade é restaurar o serviço, depois encontrar a causa — a mitigação vem antes do diagnóstico. Eu declararia um incident, atribuiria papéis claros e conduziria rumo à recuperação segura mais rápida, comunicando o tempo todo.
A primeira prioridade é restaurar o serviço, depois encontrar a causa — a mitigação vem antes do diagnóstico. Eu declararia um incident, atribuiria papéis claros e conduziria rumo à recuperação segura mais rápida, comunicando o tempo todo.
O silêncio gera pânico. Envio atualizações em cadência constante, mesmo quando não há novidades:
[14:05] Investigando — o checkout está fora do ar, ~40% dos usuários afetados. Próxima atualização às 14:20.
[14:20] Identificado: deploy ruim. Fazendo rollback agora. ETA 10 min.
[14:35] Serviço restaurado. Monitorando. Postmortem a seguir.
Quedas são inevitáveis; como você as conduz define a confiança do time e a confiança do cliente. Coordenação calma, baseada em papéis, somada a um acompanhamento blameless transforma um dia ruim em um sistema mais forte — e sinaliza aos seus engenheiros que é seguro se mover rápido porque a falha é tratada como um processo, não como uma caça às bruxas.