Produksjonsnettstedet ditt gikk nettopp ned. Hvordan håndterer du det?

Question

Accepted Answer

Første prioritet er å **gjenopprette tjenesten, deretter finne årsaken** — mitigering kommer før diagnose. Jeg ville erklært en incident, tildelt klare roller, og drevet mot raskest mulige trygge gjenoppretting, mens jeg kommuniserer hele veien.

## Stabiliser først

- **Erklær en incident** og åpne én enkelt kanal (war room / Slack-tråd) slik at koordineringen ikke blir spredt.
- **Tildel roller**: en **Incident Commander** som tar beslutninger, en **comms-ansvarlig** som oppdaterer stakeholdere, og **respondere** som undersøker. Som Tech Lead tar jeg ofte IC slik at ingeniørene kan fokusere på problemet.
- **Strekk deg etter den raskeste reverserbare fiksen.** Hvis et deploy korrelerer med utfallet, **rull tilbake** først og still spørsmål etterpå — å gjenopprette brukerne slår det å ha rett.

## Diagnostiser parallelt

- Sjekk de **åpenbare signalene**: dashboards, feilrater, nylige deploys, infra-endringer, trafikktopper, utløpte sertifikater.
- Form en hypotese, test den billigste først, og **unngå å endre fem ting samtidig** — du vil ikke vite hva som virket.

## Kommuniser kontinuerlig

Stillhet skaper panikk. Jeg sender oppdateringer i en jevn rytme selv når det ikke er noe nytt:

```
[14:05] Undersøker — checkout er nede, ~40% av brukerne berørt. Neste oppdatering 14:20.
[14:20] Identifisert: dårlig deploy. Ruller tilbake nå. ETA 10 min.
[14:35] Tjenesten gjenopprettet. Overvåker. Postmortem følger.
```

## Etter gjenoppretting

- Bekreft full gjenoppretting, ikke bare "det ser bedre ut."
- Kjør en **blameless postmortem** innen noen dager: tidslinje, rotårsak, hva som gjorde den treg å oppdage/fikse, og **konkrete action items med eiere**.
- Resultatet er systemisk forbedring (bedre alerts, sikkerhetsbarrierer, rollback-automatisering) — ikke et navn å klandre.

## Fallgruver

- **Å debugge før man mitigerer** mens brukerne lider.
- **Ingen enkelt beslutningstaker**, så fem personer gjetter parallelt.
- **Å gå i svart** overfor stakeholdere.
- **Å klandre enkeltpersoner**, noe som dreper ærligheten fremtidige incidents er avhengige av.

## Hvorfor det er viktig

Utfall er uunngåelige; hvordan du håndterer dem definerer teamets tillit og kundenes selvtillit. Rolig, rollebasert koordinering pluss blameless oppfølging gjør en dårlig dag til et sterkere system — og signaliserer til ingeniørene dine at det er trygt å bevege seg raskt fordi feil håndteres som en prosess, ikke en heksejakt.