Prvi prioritet je vratiti uslugu, pa tek onda pronaći uzrok — ublažavanje dolazi prije dijagnoze. Proglasio bih incident, dodijelio jasne uloge i vodio prema najbržem sigurnom oporavku, uz komunikaciju cijelim putem.
Prvi prioritet je vratiti uslugu, pa tek onda pronaći uzrok — ublažavanje dolazi prije dijagnoze. Proglasio bih incident, dodijelio jasne uloge i vodio prema najbržem sigurnom oporavku, uz komunikaciju cijelim putem.
Tišina rađa paniku. Šaljem ažuriranja u stalnom ritmu čak i kada nema novosti:
[14:05] Istražujemo — checkout je pao, pogođeno ~40% korisnika. Sljedeće ažuriranje 14:20.
[14:20] Identificirano: loš deploy. Radimo rollback. ETA 10 min.
[14:35] Usluga vraćena. Pratimo. Slijedi postmortem.
Ispadi su neizbježni; način na koji ih vodite definira povjerenje tima i pouzdanje kupaca. Smirena koordinacija temeljena na ulogama uz blameless analizu pretvara loš dan u jači sustav — i signalizira vašim inženjerima da je sigurno kretati se brzo jer se neuspjeh tretira kao proces, a ne kao lov na vještice.