Prioriteti i parë është rikthe shërbimin, pastaj gjej shkakun — zbutja vjen para diagnozës. Do të deklaroja një incident, do të caktoja role të qarta dhe do të drejtoja drejt rikthimit më të shpejtë të sigurt, duke komunikuar gjatë gjithë rrugës.
Prioriteti i parë është rikthe shërbimin, pastaj gjej shkakun — zbutja vjen para diagnozës. Do të deklaroja një incident, do të caktoja role të qarta dhe do të drejtoja drejt rikthimit më të shpejtë të sigurt, duke komunikuar gjatë gjithë rrugës.
Heshtja ushqen panikun. Dërgoj përditësime me një kadencë të qëndrueshme edhe kur nuk ka lajme:
[14:05] Po hetohet — checkout është jashtë funksionit, ~40% e përdoruesve të prekur. Përditësimi tjetër 14:20.
[14:20] Identifikuar: deploy i keq. Po bëhet rollback tani. ETA 10 min.
[14:35] Shërbimi u rikthye. Po monitorohet. Postmortem do të vijojë.
Outage-et janë të pashmangshme; mënyra si i menaxhoni përcakton besimin e ekipit dhe besimin e klientit. Koordinimi i qetë dhe i bazuar në role plus follow-up blameless e kthen një ditë të keqe në një sistem më të fortë — dhe u sinjalizon inxhinierëve tuaj se është e sigurt të lëvizet shpejt sepse dështimi trajtohet si proces, jo si gjueti shtrigash.