Jak zjistíte problémy dříve, než si si je uživatelé stěžují?

Question

Accepted Answer

Cílem je zachytit problémy **před pádem stránky** — najít degradaci, když je ještě prostor ji absorbovat. To znamená sledovat **vedoucí indikátory**, definovat **SLOs s rozpočty chyb** a aktivně testovat systém namísto čekání na jeho selhání.

## SLOs a rozpočty chyb

**SLO** změní spolehlivost na číslo (například 99,9% požadavků uspěje). Zbývajících 0,1% je váš **rozpočet chyb**. Sledování **míry vypalování** vám umožňuje upozornit, když utrácíte rozpočet příliš rychle — dlouho předtím, než skutečně porušíte SLO a uživatelé si toho všimnou.

```text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
```

## Aktivní testování, ne jenom pasivní metriky

```text
SYNTHETIC MONITORING  scripted checks hit critical paths on a schedule
                      (login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS         /healthz endpoints + dependency checks → load balancer
                      pulls bad instances before users hit them
RUM (real-user mon.)  measure latency/errors from actual browsers/devices →
                      catches issues only some users/regions see
```

Syntetické monitorování je silné, protože nečeká na uživatele — nepřetržitě testuje systém, takže rozbité pokladny se objeví ve 3 ráno, ne když si si jich lidé stěžují při ranní špičce.

## Vedoucí indikátory a trendy

Nejdříve příznaky jsou v prostředcích, ne ještě v chybách směřujících k uživateli. Upozorňujte na **trend**, ne jen na statickou linii.

```text
LEADING INDICATORS   saturation (CPU/mem climbing), queue depth growing,
                     connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION    flag deviation from the normal baseline / seasonality
TREND ALERTS         "disk will fill in 4h at this rate" → act before it's full
```
Pomalý nárůst p99 nebo rostoucí fronta je varovný výstřel: jednáním při postupném nárůstu zabráníte výpadku, ke kterému tento nárůst vedl.

## Proč je to důležité

Reaktivní monitorování znamená, že uživatelé jsou váš alertovací systém — když si stěžují, incident je již spuštěn a váš rozpočet chyb je vyčerpán. Proaktivní detekce (míra vypalování SLO, syntetické zkoušky, kontroly zdraví, RUM, vedoucí indikátory, upozornění na trendy/anomálie) vám dá čas: opravíte nasycující se frontu nebo rostoucí latenci, než se stane stránkou ve 2 ráno a rozezleným zákazníkem. Tento čas je rozdílem mezi tichým opravením a výpadkem.