Cilj je ujeti probleme pred samim stanjem strani — najti degradacijo medtem ko je še mogoče vpiti. To pomeni spremljanje vodilnih kazalnikov, definiranje SLO-jev z napakami in proračunom, ter aktivno preverjanje sistema namesto čakanja na napako.
Cilj je ujeti probleme pred samim stanjem strani — najti degradacijo medtem ko je še mogoče vpiti. To pomeni spremljanje vodilnih kazalnikov, definiranje SLO-jev z napakami in proračunom, ter aktivno preverjanje sistema namesto čakanja na napako.
SLO spremeni zanesljivost v število (npr. 99,9 % zahtevkov je uspešnih). Preostalih 0,1 % je vaš proračun napak. Sledenje stopnji porabe omogoča opozarjanje, ko proračun porašate prehitro — dolgo preden dejansko kršite SLO in se to opazi pri uporabnikih.
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
Sintetsko spremljanje je zmogljivo, ker ne čaka na uporabnika — neprekinjeno preverja sistem, zato je razkrita napačna realizacija nakupa ob 3. uri zjutraj in ne, ko se pritoževajo uporabniki v jutranjih vikendih.
Najzgodnejši znaki so v resursih, še niso v napakah vidnih uporabniku. Opozarjajte na trend, ne le na statično črto.
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
Počasi rastoči p99 ali rastoča čakalna vrsta je opozorilo: z dejanjem na počasno rast preprečite izpad, ki je bil na vidiku.
Reaktivno spremljanje pomeni, da so uporabniki vaš sistem za opozarjanje — v trenutku, ko se pritožijo, je incident že v teku in je vaš proračun napak že potrošen. Proaktivna zaznava (hitrost porabe SLO, sintetika, preverjanja stanja, RUM, vodilni kazalniki, opozarjanja na trend/anomalijee) vam kupijo dragocen čas: popravite nasičeno vrsto ali počasi rastoče zakasnitve preden to postane stran ob 2. uri zjutraj in jezen kupec. Ta dragoceni čas je razlika med mirnim popravkom in izpadom.