Første prioritet er å gjenopprette tjenesten, deretter finne årsaken — mitigering kommer før diagnose. Jeg ville erklært en incident, tildelt klare roller, og drevet mot raskest mulige trygge gjenoppretting, mens jeg kommuniserer hele veien.
Første prioritet er å gjenopprette tjenesten, deretter finne årsaken — mitigering kommer før diagnose. Jeg ville erklært en incident, tildelt klare roller, og drevet mot raskest mulige trygge gjenoppretting, mens jeg kommuniserer hele veien.
Stillhet skaper panikk. Jeg sender oppdateringer i en jevn rytme selv når det ikke er noe nytt:
[14:05] Undersøker — checkout er nede, ~40% av brukerne berørt. Neste oppdatering 14:20.
[14:20] Identifisert: dårlig deploy. Ruller tilbake nå. ETA 10 min.
[14:35] Tjenesten gjenopprettet. Overvåker. Postmortem følger.
Utfall er uunngåelige; hvordan du håndterer dem definerer teamets tillit og kundenes selvtillit. Rolig, rollebasert koordinering pluss blameless oppfølging gjør en dårlig dag til et sterkere system — og signaliserer til ingeniørene dine at det er trygt å bevege seg raskt fordi feil håndteres som en prosess, ikke en heksejakt.