První prioritou je obnovit službu, pak hledat příčinu — mitigace předchází diagnostice. Vyhlásil bych incident, přidělil jasné role a směřoval k nejrychlejšímu bezpečnému zotavení, přičemž bych po celou dobu komunikoval.
První prioritou je obnovit službu, pak hledat příčinu — mitigace předchází diagnostice. Vyhlásil bych incident, přidělil jasné role a směřoval k nejrychlejšímu bezpečnému zotavení, přičemž bych po celou dobu komunikoval.
Ticho plodí paniku. Posílám aktualizace v ustálené kadenci, i když nejsou žádné novinky:
[14:05] Vyšetřujeme — checkout je dole, postiženo ~40 % uživatelů. Další update 14:20.
[14:20] Identifikováno: špatný deploy. Provádíme rollback. ETA 10 min.
[14:35] Služba obnovena. Monitorujeme. Postmortem bude následovat.
Výpadky jsou nevyhnutelné; to, jak je řídíte, definuje důvěru týmu a sebevědomí zákazníků. Klidná, na rolích založená koordinace plus blameless follow-up promění špatný den v silnější systém — a signalizuje vašim inženýrům, že je bezpečné pohybovat se rychle, protože selhání se řeší jako proces, ne jako hon na čarodějnice.