Prva prioriteta je obnoviti storitev, nato poiskati vzrok — ublažitev pride pred diagnozo. Razglasil bi incident, dodelil jasne vloge in gnal proti najhitrejši varni obnovitvi ter ves čas komuniciral.
Prva prioriteta je obnoviti storitev, nato poiskati vzrok — ublažitev pride pred diagnozo. Razglasil bi incident, dodelil jasne vloge in gnal proti najhitrejši varni obnovitvi ter ves čas komuniciral.
Tišina poraja paniko. Posodobitve pošiljam v stalnem ritmu, tudi ko ni novic:
[14:05] Preiskujem — checkout je padel, prizadetih ~40 % uporabnikov. Naslednja posodobitev 14:20.
[14:20] Ugotovljeno: slab deploy. Izvajam rollback. ETA 10 min.
[14:35] Storitev obnovljena. Spremljam. Sledi postmortem.
Izpadi so neizogibni; način, kako jih vodiš, opredeljuje zaupanje ekipe in zaupanje strank. Mirna, na vlogah temelječa koordinacija plus blameless nadaljevanje spremeni slab dan v močnejši sistem — in tvojim inženirjem sporoča, da se je varno hitro premikati, ker se neuspeh obravnava kot proces, ne kot lov na čarovnice.