Første prioritet er at genoprette servicen og derefter finde årsagen — afhjælpning kommer før diagnose. Jeg ville erklære en incident, tildele klare roller og styre mod den hurtigste sikre genopretning, mens jeg kommunikerer hele vejen.
Første prioritet er at genoprette servicen og derefter finde årsagen — afhjælpning kommer før diagnose. Jeg ville erklære en incident, tildele klare roller og styre mod den hurtigste sikre genopretning, mens jeg kommunikerer hele vejen.
Stilhed avler panik. Jeg sender opdateringer i en jævn kadence, selv når der ikke er nyt:
[14:05] Undersøger — checkout er nede, ~40% af brugerne berørt. Næste opdatering 14:20.
[14:20] Identificeret: dårligt deploy. Ruller tilbage nu. ETA 10 min.
[14:35] Service genoprettet. Overvåger. Postmortem følger.
Nedbrud er uundgåelige; hvordan du håndterer dem definerer teamets tillid og kundernes tiltro. Rolig, rollebaseret koordinering plus blameless opfølgning forvandler en dårlig dag til et stærkere system — og signalerer til dine ingeniører, at det er sikkert at bevæge sig hurtigt, fordi fejl håndteres som en proces, ikke en heksejagt.