Tu sitio web de producción se acaba de caer. ¿Cómo lo gestionas?

Question

Accepted Answer

La primera prioridad es **restaurar el servicio, luego encontrar la causa** — la mitigación va antes que el diagnóstico. Declararía un incident, asignaría roles claros y empujaría hacia la recuperación segura más rápida, comunicando en todo momento.

## Estabilizar primero

- **Declarar un incident** y abrir un único canal (war room / hilo de Slack) para que la coordinación no esté dispersa.
- **Asignar roles**: un **Incident Commander** para tomar decisiones, un **responsable de comunicación** para actualizar a los stakeholders y **responders** para investigar. Como Tech Lead, suelo asumir el rol de IC para que los ingenieros puedan centrarse en el problema.
- **Buscar la corrección reversible más rápida.** Si un despliegue correlaciona con la caída, haz **rollback** primero y pregunta después — restaurar a los usuarios gana a tener razón.

## Diagnosticar en paralelo

- Revisar las **señales obvias**: dashboards, tasas de error, despliegues recientes, cambios de infra, picos de tráfico, certificados caducados.
- Formular una hipótesis, probar primero la más barata y **evitar cambiar cinco cosas a la vez** — no sabrás qué funcionó.

## Comunicar de forma continua

El silencio genera pánico. Envío actualizaciones con una cadencia constante incluso cuando no hay novedades:

```
[14:05] Investigando — el checkout está caído, ~40% de los usuarios afectados. Próxima actualización 14:20.
[14:20] Identificado: despliegue defectuoso. Haciendo rollback ahora. ETA 10 min.
[14:35] Servicio restaurado. Monitorizando. Postmortem a continuación.
```

## Tras la recuperación

- Confirmar la recuperación completa, no solo que "parece estar mejor".
- Realizar un **postmortem sin culpas** en pocos días: cronología, causa raíz, qué hizo lento detectarlo/arreglarlo y **acciones concretas con responsables**.
- El resultado es una mejora sistémica (mejores alertas, guardrails, automatización del rollback) — no un nombre al que culpar.

## Errores a evitar

- **Depurar antes de mitigar** mientras los usuarios sufren.
- **Sin un único decisor**, así que cinco personas adivinan en paralelo.
- **Quedarse en silencio** con los stakeholders.
- **Culpar a individuos**, lo que mata la honestidad de la que dependen los futuros incidentes.

## Por qué es importante

Las caídas son inevitables; cómo las gestionas define la confianza del equipo y la de los clientes. Una coordinación calmada y basada en roles, junto con un seguimiento sin culpas, convierte un mal día en un sistema más fuerte — y le indica a tus ingenieros que es seguro moverse rápido porque el fallo se gestiona como un proceso, no como una caza de brujas.