Priorytetem jest przywrócenie usługi, potem znalezienie przyczyny — mitygacja przed diagnozą. Zadeklarowałbym incident, przydzielił jasne role i dążył do najszybszego bezpiecznego odzyskania, komunikując przez cały czas.
Priorytetem jest przywrócenie usługi, potem znalezienie przyczyny — mitygacja przed diagnozą. Zadeklarowałbym incident, przydzielił jasne role i dążył do najszybszego bezpiecznego odzyskania, komunikując przez cały czas.
Cisza rodzi panikę. Wysyłam aktualizacje w stałej kadencji, nawet gdy nie ma nowości:
[14:05] Badamy — checkout jest niedostępny, dotknięte ~40% użytkowników. Następna aktualizacja 14:20.
[14:20] Zidentyfikowano: błędny deploy. Robimy rollback. ETA 10 min.
[14:35] Usługa przywrócona. Monitorujemy. Postmortem wkrótce.
Awarie są nieuniknione; to, jak nimi zarządzasz, definiuje zaufanie zespołu i pewność klientów. Spokojna, oparta na rolach koordynacja plus bezobwiniający follow-up zamieniają zły dzień w mocniejszy system — i sygnalizują Twoim inżynierom, że można działać szybko, bo awaria jest obsługiwana jako proces, a nie polowanie na czarownice.