Vaše produkční webová stránka právě spadla. Jak to zvládnete?

Question

Accepted Answer

První prioritou je **obnovit službu, pak hledat příčinu** — mitigace předchází diagnostice. Vyhlásil bych incident, přidělil jasné role a směřoval k nejrychlejšímu bezpečnému zotavení, přičemž bych po celou dobu komunikoval.

## Nejdřív stabilizuj

- **Vyhlas incident** a otevři jediný kanál (war room / Slack thread), aby koordinace nebyla roztříštěná.
- **Přiděl role**: **Incident Commander** k rozhodování, **comms owner** k informování stakeholderů a **responders** k vyšetřování. Jako Tech Lead často beru IC, aby se inženýři mohli soustředit na problém.
- **Sáhni po nejrychlejší vratné opravě.** Pokud deploy koreluje s výpadkem, nejdřív **rollback** a otázky až potom — obnovit uživatele je lepší než mít pravdu.

## Diagnostikuj paralelně

- Zkontroluj **zjevné signály**: dashboardy, chybovost, nedávné deploye, změny infry, špičky provozu, expirované certy.
- Vytvoř hypotézu, otestuj nejlevnější jako první a **neměň pět věcí najednou** — nebudeš vědět, co zabralo.

## Komunikuj nepřetržitě

Ticho plodí paniku. Posílám aktualizace v ustálené kadenci, i když nejsou žádné novinky:

```
[14:05] Vyšetřujeme — checkout je dole, postiženo ~40 % uživatelů. Další update 14:20.
[14:20] Identifikováno: špatný deploy. Provádíme rollback. ETA 10 min.
[14:35] Služba obnovena. Monitorujeme. Postmortem bude následovat.
```

## Po zotavení

- Potvrď úplné zotavení, ne jen „vypadá to líp".
- Do několika dní proveď **blameless postmortem**: časovou osu, root cause, co zpomalilo detekci/opravu a **konkrétní akční položky s vlastníky**.
- Výstupem je systémové zlepšení (lepší alerty, guardraily, automatizace rollbacku) — ne jméno, které lze obvinit.

## Úskalí

- **Ladění před mitigací**, zatímco uživatelé trpí.
- **Žádný jediný rozhodovatel**, takže pět lidí paralelně hádá.
- **Mlčení** vůči stakeholderům.
- **Obviňování jednotlivců**, což zabíjí upřímnost, na které závisí budoucí incidenty.

## Proč je to důležité

Výpadky jsou nevyhnutelné; to, jak je řídíte, definuje důvěru týmu a sebevědomí zákazníků. Klidná, na rolích založená koordinace plus blameless follow-up promění špatný den v silnější systém — a signalizuje vašim inženýrům, že je bezpečné pohybovat se rychle, protože selhání se řeší jako proces, ne jako hon na čarodějnice.