¿Cómo detectas problemas antes de que los usuarios se quejen?

Question

Accepted Answer

El objetivo es detectar problemas **antes de que caiga la página** — encontrar degradación mientras aún hay margen para absorberla. Eso significa vigilar **indicadores adelantados**, definir **SLOs con presupuestos de errores** y probar activamente el sistema en lugar de esperar a que falle.

## SLOs y presupuestos de errores

Un **SLO** convierte la confiabilidad en un número (p. ej., el 99,9% de las solicitudes tienen éxito). El 0,1% restante es tu **presupuesto de errores**. Rastrear la **tasa de consumo** te permite alertar cuando estás gastando el presupuesto demasiado rápido — mucho antes de que realmente incumplas el SLO y los usuarios se den cuenta.

```text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
```

## Sondeo activo, no solo métricas pasivas

```text
SYNTHETIC MONITORING  scripted checks hit critical paths on a schedule
                      (login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS         /healthz endpoints + dependency checks → load balancer
                      pulls bad instances before users hit them
RUM (real-user mon.)  measure latency/errors from actual browsers/devices →
                      catches issues only some users/regions see
```

La monitorización sintética es poderosa porque no espera a un usuario — continuamente ejercita el sistema, por lo que un pago roto se encuentra a las 3 de la mañana, no cuando se quejan en la hora pico matutina.

## Indicadores adelantados y tendencias

Los primeros signos están en los recursos, no aún en errores orientados al usuario. Alerta sobre la **tendencia**, no solo una línea estática.

```text
LEADING INDICATORS   saturation (CPU/mem climbing), queue depth growing,
                     connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION    flag deviation from the normal baseline / seasonality
TREND ALERTS         "disk will fill in 4h at this rate" → act before it's full
```

Un p99 lentamente creciente o una cola creciente es un disparo de advertencia: actuando sobre el aumento gradual, prevines la interrupción hacia la que se dirigía.

## Por qué es importante

La monitorización reactiva significa que los usuarios son tu sistema de alertas — cuando se quejan, el incidente ya está en directo y tu presupuesto de errores se ha gastado. La detección proactiva (tasa de consumo de SLO, sintéticos, verificaciones de salud, RUM, indicadores adelantados, alertas de tendencia/anomalía) te compra tiempo: corriges una cola saturada o una latencia creciente antes de que se convierta en una página a las 2 de la mañana y un cliente furioso. Ese tiempo es la diferencia entre una corrección tranquila y una interrupción.