Hvordan oppdager du problemer før brukerne klager?

Question

Accepted Answer

Målet er å fange problemer **før siden** — å finne forverring mens det fortsatt er rom for å absorbere det. Det betyr å se på **ledende indikatorer**, definere **SLOer med feilbudsjetter**, og aktivt teste systemet i stedet for å vente på at det skal feile.

## SLOer og feilbudsjetter

En **SLO** gjør pålitelighet om til et tall (f.eks. 99,9% av forespørslene lykkes). De gjenstående 0,1% er ditt **feilbudsjett**. Å spore **burn rate** lar deg varsle når du bruker budsjettet for raskt — lenge før du faktisk har brutt SLOen og brukerne oppdager det.

```text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
```

## Aktiv testing, ikke bare passive metrikker

```text
SYNTHETIC MONITORING  scripted checks hit critical paths on a schedule
                      (login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS         /healthz endpoints + dependency checks → load balancer
                      pulls bad instances before users hit them
RUM (real-user mon.)  measure latency/errors from actual browsers/devices →
                      catches issues only some users/regions see
```

Syntetisk overvåking er kraftig fordi den ikke venter på en bruker — den tester systemet kontinuerlig, så en ødelagt kasse blir funnet klokka 3 på natten, ikke når morgentransporten klager.

## Ledende indikatorer og trender

De tidligste tegnene er i ressurser, ennå ikke i brukersyn-feil. Varsle på **trenden**, ikke bare en statisk linje.

```text
LEADING INDICATORS   saturation (CPU/mem climbing), queue depth growing,
                     connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION    flag deviation from the normal baseline / seasonality
TREND ALERTS         "disk will fill in 4h at this rate" → act before it's full
```

En sakte stigende p99 eller en voksende kø er et varslingsskudd: ved å handle på krøpen, forhindrer du utfallet som krøpen var på vei mot.

## Hvorfor det betyr noe

Reaktiv overvåking betyr at brukerne er ditt varslingssystem — når de først klager, er hendelsen allerede live og feilbudsjettet ditt er brukt opp. Proaktiv deteksjon (SLO burn rate, synthetics, health checks, RUM, ledende indikatorer, trend/anomali-varsler) kjøper deg tid: du fikser en mettet kø eller en krypeende latens før den blir en klokka 2-side og en sint kunde. Den tiden er forskjellen mellom en stille rettelse og et brudd.