Cilj je uhvatiti probleme prije nego što stranica padne — pronaći degradaciju dok još postoji prostor da se apsorbirа. To znači pratiti vodeće indikatore, definirati SLOs s budžetima grešaka i aktivno sondirati sustav umjesto čekanja da ne uspije.
Cilj je uhvatiti probleme prije nego što stranica padne — pronaći degradaciju dok još postoji prostor da se apsorbirа. To znači pratiti vodeće indikatore, definirati SLOs s budžetima grešaka i aktivno sondirati sustav umjesto čekanja da ne uspije.
SLO pretvara pouzdanost u broj (npr. 99,9% zahtjeva uspije). Preostalih 0,1% je vaš budžet grešaka. Praćenje stope trošenja omogućuje vam da upozori kada trošite budžet previše brzo — dugo prije nego što zapravo narušite SLO i korisnici to primjete.
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
Sintetetsko nadziranje je moćno jer ne čeka korisnika — kontinuirano vježba sustav, pa se slomljena kasa pronalazi u 3 ujutro, a ne kada se jutarnja gužva žali.
Rani znakovi su u resursima, ne još u greškama okrenutim prema korisniku. Upozorite na trend, ne samo na statičnu crtu.
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
Sporo rastući p99 ili rastući red čekanja je uzbuna: djelovanjem na trend, sprečavate prekid koji je trend trebao izazvati.
Reaktivno nadziranje znači da su korisnici vaš sustav upozorenja — kada se žale, incident je već aktivan i vaš budžet grešaka je potrošen. Proaktivna detekcija (SLO stopa trošenja, sintetika, provjere zdravlja, RUM, vodeći indikatori, trendovi/upozorenja anomalija) kupuje vrijeme vođenja: ispravite zasićeni red čekanja ili puzaću latenciju prije nego što postane 2 sata i bijesan kupac. To vrijeme vođenja je razlika između tihog popravka i prekida.