Kako zaznate težave, preden se pritožijo uporabniki?

Question

Accepted Answer

Cilj je ujeti probleme **pred samim stanjem strani** — najti degradacijo medtem ko je še mogoče vpiti. To pomeni spremljanje **vodilnih kazalnikov**, definiranje **SLO-jev z napakami in proračunom**, ter aktivno preverjanje sistema namesto čakanja na napako.

## SLO in proračun napak

**SLO** spremeni zanesljivost v število (npr. 99,9 % zahtevkov je uspešnih). Preostalih 0,1 % je vaš **proračun napak**. Sledenje **stopnji porabe** omogoča opozarjanje, ko proračun porašate prehitro — dolgo preden dejansko kršite SLO in se to opazi pri uporabnikih.

```text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
```

## Aktivno preverjanje, ne le pasivne metrike

```text
SYNTHETIC MONITORING  scripted checks hit critical paths on a schedule
                      (login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS         /healthz endpoints + dependency checks → load balancer
                      pulls bad instances before users hit them
RUM (real-user mon.)  measure latency/errors from actual browsers/devices →
                      catches issues only some users/regions see
```

Sintetsko spremljanje je zmogljivo, ker ne čaka na uporabnika — neprekinjeno preverja sistem, zato je razkrita napačna realizacija nakupa ob 3. uri zjutraj in ne, ko se pritoževajo uporabniki v jutranjih vikendih.

## Vodilni kazalniki in trendi

Najzgodnejši znaki so v resursih, še niso v napakah vidnih uporabniku. Opozarjajte na **trend**, ne le na statično črto.

```text
LEADING INDICATORS   saturation (CPU/mem climbing), queue depth growing,
                     connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION    flag deviation from the normal baseline / seasonality
TREND ALERTS         "disk will fill in 4h at this rate" → act before it's full
```

Počasi rastoči p99 ali rastoča čakalna vrsta je opozorilo: z dejanjem na počasno rast preprečite izpad, ki je bil na vidiku.

## Zakaj je to pomembno

Reaktivno spremljanje pomeni, da so uporabniki vaš sistem za opozarjanje — v trenutku, ko se pritožijo, je incident že v teku in je vaš proračun napak že potrošen. Proaktivna zaznava (hitrost porabe SLO, sintetika, preverjanja stanja, RUM, vodilni kazalniki, opozarjanja na trend/anomalijee) vam kupijo dragocen čas: popravite nasičeno vrsto ali počasi rastoče zakasnitve preden to postane stran ob 2. uri zjutraj in jezen kupec. Ta dragoceni čas je razlika med mirnim popravkom in izpadom.