De eerste prioriteit is service herstellen, dan de oorzaak vinden — mitigatie gaat vóór diagnose. Ik zou een incident afkondigen, duidelijke rollen toewijzen en sturen op het snelste veilige herstel, terwijl ik de hele tijd communiceer.
De eerste prioriteit is service herstellen, dan de oorzaak vinden — mitigatie gaat vóór diagnose. Ik zou een incident afkondigen, duidelijke rollen toewijzen en sturen op het snelste veilige herstel, terwijl ik de hele tijd communiceer.
Stilte voedt paniek. Ik stuur updates in een gestaag ritme, zelfs als er geen nieuws is:
[14:05] Onderzoek loopt — checkout is down, ~40% van de gebruikers getroffen. Volgende update 14:20.
[14:20] Geïdentificeerd: slechte deploy. Rollback nu bezig. ETA 10 min.
[14:35] Service hersteld. Monitoring loopt. Postmortem volgt.
Outages zijn onvermijdelijk; hoe je ze afhandelt bepaalt het vertrouwen binnen het team en het vertrouwen van klanten. Kalme, rolgebaseerde coördinatie plus blameless follow-up verandert een slechte dag in een sterker systeem — en geeft je engineers het signaal dat het veilig is om snel te bewegen, omdat falen als een proces wordt afgehandeld, niet als een heksenjacht.