Twoja produkcyjna strona właśnie padła. Jak sobie z tym radzisz?

Question

Accepted Answer

Priorytetem jest **przywrócenie usługi, potem znalezienie przyczyny** — mitygacja przed diagnozą. Zadeklarowałbym incident, przydzielił jasne role i dążył do najszybszego bezpiecznego odzyskania, komunikując przez cały czas.

## Najpierw ustabilizuj

- **Zadeklaruj incident** i otwórz jeden kanał (war room / wątek na Slacku), żeby koordynacja nie była rozproszona.
- **Przydziel role**: **Incident Commandera**, który podejmuje decyzje, **właściciela komunikacji**, który aktualizuje stakeholderów, oraz **responderów**, którzy badają problem. Jako Tech Lead często biorę rolę IC, żeby inżynierowie mogli skupić się na problemie.
- **Sięgnij po najszybszą odwracalną poprawkę.** Jeśli deploy koreluje z awarią, najpierw **zrób rollback**, a pytania zadaj później — przywrócenie użytkowników jest ważniejsze niż bycie w porządku.

## Diagnozuj równolegle

- Sprawdź **oczywiste sygnały**: dashboardy, error rate, ostatnie deploye, zmiany w infrastrukturze, skoki ruchu, wygasłe certyfikaty.
- Sformułuj hipotezę, przetestuj najtańszą najpierw i **unikaj zmieniania pięciu rzeczy naraz** — nie będziesz wiedzieć, co zadziałało.

## Komunikuj nieprzerwanie

Cisza rodzi panikę. Wysyłam aktualizacje w stałej kadencji, nawet gdy nie ma nowości:

```
[14:05] Badamy — checkout jest niedostępny, dotknięte ~40% użytkowników. Następna aktualizacja 14:20.
[14:20] Zidentyfikowano: błędny deploy. Robimy rollback. ETA 10 min.
[14:35] Usługa przywrócona. Monitorujemy. Postmortem wkrótce.
```

## Po odzyskaniu

- Potwierdź pełne odzyskanie, nie tylko „wygląda lepiej”.
- Przeprowadź **bezobwiniający postmortem** w ciągu kilku dni: oś czasu, root cause, co spowodowało powolne wykrycie/naprawę, oraz **konkretne action itemy z właścicielami**.
- Efektem jest systemowe usprawnienie (lepsze alerty, zabezpieczenia, automatyzacja rollbacku) — a nie znalezienie winnego.

## Pułapki

- **Debugowanie przed mitygacją**, podczas gdy użytkownicy cierpią.
- **Brak jednego decydenta**, więc pięć osób zgaduje równolegle.
- **Milczenie** wobec stakeholderów.
- **Obwinianie poszczególnych osób**, co zabija szczerość, na której opierają się przyszłe incidenty.

## Dlaczego to ważne

Awarie są nieuniknione; to, jak nimi zarządzasz, definiuje zaufanie zespołu i pewność klientów. Spokojna, oparta na rolach koordynacja plus bezobwiniający follow-up zamieniają zły dzień w mocniejszy system — i sygnalizują Twoim inżynierom, że można działać szybko, bo awaria jest obsługiwana jako proces, a nie polowanie na czarownice.