Kako otkrivate probleme prije nego što se korisnici žale?

Question

Accepted Answer

Cilj je uhvatiti probleme **prije nego što stranica padne** — pronaći degradaciju dok još postoji prostor da se apsorbirа. To znači pratiti **vodeće indikatore**, definirati **SLOs s budžetima grešaka** i aktivno sondirati sustav umjesto čekanja da ne uspije.

## SLOs i budžeti grešaka

**SLO** pretvara pouzdanost u broj (npr. 99,9% zahtjeva uspije). Preostalih 0,1% je vaš **budžet grešaka**. Praćenje **stope trošenja** omogućuje vam da upozori kada trošite budžet previše brzo — dugo prije nego što zapravo narušite SLO i korisnici to primjete.

```text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
```

## Aktivno sondiranje, ne samo pasivne metrike

```text
SYNTHETIC MONITORING  scripted checks hit critical paths on a schedule
                      (login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS         /healthz endpoints + dependency checks → load balancer
                      pulls bad instances before users hit them
RUM (real-user mon.)  measure latency/errors from actual browsers/devices →
                      catches issues only some users/regions see
```

Sintetetsko nadziranje je moćno jer ne čeka korisnika — kontinuirano vježba sustav, pa se slomljena kasa pronalazi u 3 ujutro, a ne kada se jutarnja gužva žali.

## Vodeći indikatori i trendovi

Rani znakovi su u resursima, ne još u greškama okrenutim prema korisniku. Upozorite na **trend**, ne samo na statičnu crtu.

```text
LEADING INDICATORS   saturation (CPU/mem climbing), queue depth growing,
                     connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION    flag deviation from the normal baseline / seasonality
TREND ALERTS         "disk will fill in 4h at this rate" → act before it's full
```
Sporo rastući p99 ili rastući red čekanja je uzbuna: djelovanjem na trend, sprečavate prekid koji je trend trebao izazvati.

## Zašto je važno

Reaktivno nadziranje znači da su korisnici vaš sustav upozorenja — kada se žale, incident je već aktivan i vaš budžet grešaka je potrošen. Proaktivna detekcija (SLO stopa trošenja, sintetika, provjere zdravlja, RUM, vodeći indikatori, trendovi/upozorenja anomalija) kupuje vrijeme vođenja: ispravite zasićeni red čekanja ili puzaću latenciju prije nego što postane 2 sata i bijesan kupac. To vrijeme vođenja je razlika između tihog popravka i prekida.