Dit produktionswebsite gik lige ned. Hvordan håndterer du det?

Question

Accepted Answer

Første prioritet er at **genoprette servicen og derefter finde årsagen** — afhjælpning kommer før diagnose. Jeg ville erklære en incident, tildele klare roller og styre mod den hurtigste sikre genopretning, mens jeg kommunikerer hele vejen.

## Stabilisér først

- **Erklær en incident** og åbn en enkelt kanal (war room / Slack-tråd), så koordineringen ikke bliver spredt.
- **Tildel roller**: en **Incident Commander** til at træffe beslutninger, en **comms-ejer** til at opdatere stakeholders, og **respondere** til at undersøge. Som Tech Lead tager jeg ofte IC-rollen, så ingeniørerne kan fokusere på problemet.
- **Grib til den hurtigste reversible løsning.** Hvis et deploy korrelerer med nedbruddet, så **roll back** først og stil spørgsmål senere — at genoprette for brugerne slår at have ret.

## Diagnosticér parallelt

- Tjek de **åbenlyse signaler**: dashboards, fejlrater, seneste deploys, infrastrukturændringer, trafikspidser, udløbne certifikater.
- Dan en hypotese, test den billigste først, og **undgå at ændre fem ting på én gang** — du ved ikke, hvad der virkede.

## Kommunikér løbende

Stilhed avler panik. Jeg sender opdateringer i en jævn kadence, selv når der ikke er nyt:

```
[14:05] Undersøger — checkout er nede, ~40% af brugerne berørt. Næste opdatering 14:20.
[14:20] Identificeret: dårligt deploy. Ruller tilbage nu. ETA 10 min.
[14:35] Service genoprettet. Overvåger. Postmortem følger.
```

## Efter genopretning

- Bekræft fuld genopretning, ikke kun "det ser bedre ud."
- Kør en **blameless postmortem** inden for få dage: tidslinje, root cause, hvad der gjorde det langsomt at opdage/fikse, og **konkrete action items med ejere**.
- Resultatet er systemisk forbedring (bedre alerts, guardrails, rollback-automatisering) — ikke et navn at give skylden.

## Faldgruber

- **At debugge før man afhjælper**, mens brugerne lider.
- **Ingen enkelt beslutningstager**, så fem personer gætter parallelt.
- **At gå i radiotavshed** over for stakeholders.
- **At give enkeltpersoner skylden**, hvilket dræber den ærlighed, fremtidige incidents afhænger af.

## Hvorfor det betyder noget

Nedbrud er uundgåelige; hvordan du håndterer dem definerer teamets tillid og kundernes tiltro. Rolig, rollebaseret koordinering plus blameless opfølgning forvandler en dårlig dag til et stærkere system — og signalerer til dine ingeniører, at det er sikkert at bevæge sig hurtigt, fordi fejl håndteres som en proces, ikke en heksejagt.