Il tuo sito web in produzione è appena andato giù. Come lo gestisci?

Question

Accepted Answer

La prima priorità è **ripristinare il servizio, poi trovare la causa** — la mitigazione viene prima della diagnosi. Dichiarerei un incident, assegnerei ruoli chiari e spingerei verso il recupero sicuro più rapido, comunicando per tutto il percorso.

## Stabilizzare prima

- **Dichiarare un incident** e aprire un singolo canale (war room / thread Slack) così che il coordinamento non sia disperso.
- **Assegnare i ruoli**: un **Incident Commander** che prende le decisioni, un **responsabile della comunicazione** che aggiorna gli stakeholder e dei **responder** che indagano. Come Tech Lead spesso assumo il ruolo di IC così che gli ingegneri possano concentrarsi sul problema.
- **Ricorrere alla correzione reversibile più rapida.** Se un deploy è correlato all'outage, fai prima il **rollback** e fai le domande dopo — ripristinare gli utenti batte avere ragione.

## Diagnosticare in parallelo

- Controllare i **segnali ovvi**: dashboard, tassi di errore, deploy recenti, cambiamenti infrastrutturali, picchi di traffico, certificati scaduti.
- Formulare un'ipotesi, testare prima quella più economica ed **evitare di cambiare cinque cose in una volta** — non saprai cosa ha funzionato.

## Comunicare continuamente

Il silenzio genera panico. Invio aggiornamenti con una cadenza costante anche quando non ci sono novità:

```
[14:05] In indagine — il checkout è giù, ~40% degli utenti colpiti. Prossimo aggiornamento 14:20.
[14:20] Identificato: deploy difettoso. Rollback in corso. ETA 10 min.
[14:35] Servizio ripristinato. In monitoraggio. Postmortem a seguire.
```

## Dopo il recupero

- Confermare il recupero completo, non solo "sembra andare meglio".
- Eseguire un **postmortem blameless** entro pochi giorni: timeline, causa radice, cosa ha reso lenta la rilevazione/risoluzione e **azioni concrete con responsabili**.
- Il risultato è un miglioramento sistemico (alert migliori, guardrail, automazione del rollback) — non un nome da incolpare.

## Trappole

- **Fare debug prima di mitigare** mentre gli utenti soffrono.
- **Nessun decisore unico**, così cinque persone tirano a indovinare in parallelo.
- **Sparire** dal radar degli stakeholder.
- **Incolpare le persone**, il che uccide l'onestà da cui dipendono gli incident futuri.

## Perché è importante

Gli outage sono inevitabili; il modo in cui li gestisci definisce la fiducia del team e la confidenza dei clienti. Un coordinamento calmo e basato sui ruoli più un follow-up blameless trasformano una brutta giornata in un sistema più forte — e segnalano ai tuoi ingegneri che è sicuro muoversi velocemente perché il fallimento viene gestito come un processo, non come una caccia alle streghe.