Ensimmäinen prioriteetti on palauttaa palvelu, sitten löytää syy — mitigointi tulee ennen diagnoosia. Julistaisin incidentin, määräisin selkeät roolit ja ajaisin kohti nopeinta turvallista palautumista, viestien koko ajan.
Ensimmäinen prioriteetti on palauttaa palvelu, sitten löytää syy — mitigointi tulee ennen diagnoosia. Julistaisin incidentin, määräisin selkeät roolit ja ajaisin kohti nopeinta turvallista palautumista, viestien koko ajan.
Hiljaisuus synnyttää paniikkia. Lähetän päivityksiä tasaisella rytmillä, vaikka uutta ei olisi:
[14:05] Tutkitaan — kassa on alhaalla, ~40 % käyttäjistä kärsii. Seuraava päivitys 14:20.
[14:20] Tunnistettu: huono deploy. Rollback käynnissä nyt. ETA 10 min.
[14:35] Palvelu palautettu. Seurataan. Postmortem seuraa.
Katkokset ovat väistämättömiä; se, miten niitä hoidat, määrittää tiimin luottamuksen ja asiakkaiden uskon. Rauhallinen, roolipohjainen koordinointi yhdistettynä syyllistämättömään jälkihoitoon muuttaa huonon päivän vahvemmaksi järjestelmäksi — ja viestii insinööreillesi, että on turvallista liikkua nopeasti, koska epäonnistuminen hoidetaan prosessina, ei noitavainona.