Första prioriteten är att återställa tjänsten, sedan hitta orsaken — åtgärd kommer före diagnos. Jag skulle deklarera en incident, fördela tydliga roller och driva mot den snabbaste säkra återställningen, med kommunikation hela vägen.
Första prioriteten är att återställa tjänsten, sedan hitta orsaken — åtgärd kommer före diagnos. Jag skulle deklarera en incident, fördela tydliga roller och driva mot den snabbaste säkra återställningen, med kommunikation hela vägen.
Tystnad föder panik. Jag skickar uppdateringar i en jämn kadens även när det inte finns några nyheter:
[14:05] Undersöker — checkout är nere, ~40% av användarna påverkade. Nästa uppdatering 14:20.
[14:20] Identifierat: dålig deploy. Gör rollback nu. ETA 10 min.
[14:35] Tjänsten återställd. Övervakar. Postmortem följer.
Avbrott är oundvikliga; hur du hanterar dem definierar teamets förtroende och kundernas tillit. Lugn, rollbaserad koordinering plus blameless uppföljning förvandlar en dålig dag till ett starkare system — och signalerar till dina ingenjörer att det är tryggt att röra sig snabbt, eftersom misslyckanden hanteras som en process, inte en häxjakt.