Az első prioritás a szolgáltatás helyreállítása, aztán az ok megkeresése — a mitigáció megelőzi a diagnózist. Deklarálnék egy incidentet, világos szerepeket osztanék ki, és a leggyorsabb biztonságos helyreállítás felé hajtanék, végig kommunikálva.
Az első prioritás a szolgáltatás helyreállítása, aztán az ok megkeresése — a mitigáció megelőzi a diagnózist. Deklarálnék egy incidentet, világos szerepeket osztanék ki, és a leggyorsabb biztonságos helyreállítás felé hajtanék, végig kommunikálva.
A csend pánikot szül. Egyenletes ütemben küldök frissítéseket, még akkor is, ha nincs hír:
[14:05] Vizsgáljuk — a checkout leállt, a felhasználók ~40%-a érintett. Következő frissítés 14:20.
[14:20] Azonosítva: rossz deploy. Most rollbackelünk. ETA 10 perc.
[14:35] Szolgáltatás helyreállt. Monitorozunk. Postmortem következik.
A kiesések elkerülhetetlenek; az, ahogyan kezeled őket, határozza meg a team bizalmát és az ügyfél magabiztosságát. A nyugodt, szerepalapú koordináció plusz a blameless utánkövetés egy rossz napot erősebb rendszerré alakít — és azt jelzi a mérnökeidnek, hogy biztonságos gyorsan haladni, mert a hibát folyamatként kezelitek, nem boszorkányüldözésként.