Jouw productiewebsite is zojuist uitgevallen. Hoe pak je dit aan?

Question

Accepted Answer

De eerste prioriteit is **service herstellen, dan de oorzaak vinden** — mitigatie gaat vóór diagnose. Ik zou een incident afkondigen, duidelijke rollen toewijzen en sturen op het snelste veilige herstel, terwijl ik de hele tijd communiceer.

## Eerst stabiliseren

- **Kondig een incident af** en open één kanaal (war room / Slack-thread) zodat de coördinatie niet versnipperd raakt.
- **Wijs rollen toe**: een **Incident Commander** om beslissingen te nemen, een **comms owner** om stakeholders bij te praten, en **responders** om te onderzoeken. Als Tech Lead neem ik vaak de IC-rol zodat engineers zich op het probleem kunnen richten.
- **Grijp naar de snelste omkeerbare fix.** Als een deploy correleert met de outage, doe dan eerst een **rollback** en stel later vragen — gebruikers herstellen wint van gelijk hebben.

## Parallel diagnosticeren

- Controleer de **voor de hand liggende signalen**: dashboards, error rates, recente deploys, infra-wijzigingen, traffic spikes, verlopen certificaten.
- Vorm een hypothese, test eerst de goedkoopste, en **verander niet vijf dingen tegelijk** — dan weet je niet wat werkte.

## Continu communiceren

Stilte voedt paniek. Ik stuur updates in een gestaag ritme, zelfs als er geen nieuws is:

```
[14:05] Onderzoek loopt — checkout is down, ~40% van de gebruikers getroffen. Volgende update 14:20.
[14:20] Geïdentificeerd: slechte deploy. Rollback nu bezig. ETA 10 min.
[14:35] Service hersteld. Monitoring loopt. Postmortem volgt.
```

## Na herstel

- Bevestig volledig herstel, niet alleen "het ziet er beter uit."
- Voer binnen enkele dagen een **blameless postmortem** uit: tijdlijn, root cause, wat de detectie/fix traag maakte, en **concrete actiepunten met eigenaren**.
- De output is systemische verbetering (betere alerts, guardrails, rollback-automatisering) — geen naam om te beschuldigen.

## Valkuilen

- **Debuggen vóór mitigeren** terwijl gebruikers lijden.
- **Geen enkele beslisser**, waardoor vijf mensen parallel gokken.
- **Op zwart gaan** richting stakeholders.
- **Individuen beschuldigen**, wat de eerlijkheid doodt waar toekomstige incidents van afhangen.

## Waarom het belangrijk is

Outages zijn onvermijdelijk; hoe je ze afhandelt bepaalt het vertrouwen binnen het team en het vertrouwen van klanten. Kalme, rolgebaseerde coördinatie plus blameless follow-up verandert een slechte dag in een sterker systeem — en geeft je engineers het signaal dat het veilig is om snel te bewegen, omdat falen als een proces wordt afgehandeld, niet als een heksenjacht.