Målet er å fange problemer før siden — å finne forverring mens det fortsatt er rom for å absorbere det. Det betyr å se på ledende indikatorer, definere SLOer med feilbudsjetter, og aktivt teste systemet i stedet for å vente på at det skal feile.
Målet er å fange problemer før siden — å finne forverring mens det fortsatt er rom for å absorbere det. Det betyr å se på ledende indikatorer, definere SLOer med feilbudsjetter, og aktivt teste systemet i stedet for å vente på at det skal feile.
En SLO gjør pålitelighet om til et tall (f.eks. 99,9% av forespørslene lykkes). De gjenstående 0,1% er ditt feilbudsjett. Å spore burn rate lar deg varsle når du bruker budsjettet for raskt — lenge før du faktisk har brutt SLOen og brukerne oppdager det.
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
Syntetisk overvåking er kraftig fordi den ikke venter på en bruker — den tester systemet kontinuerlig, så en ødelagt kasse blir funnet klokka 3 på natten, ikke når morgentransporten klager.
De tidligste tegnene er i ressurser, ennå ikke i brukersyn-feil. Varsle på trenden, ikke bare en statisk linje.
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
En sakte stigende p99 eller en voksende kø er et varslingsskudd: ved å handle på krøpen, forhindrer du utfallet som krøpen var på vei mot.
Reaktiv overvåking betyr at brukerne er ditt varslingssystem — når de først klager, er hendelsen allerede live og feilbudsjettet ditt er brukt opp. Proaktiv deteksjon (SLO burn rate, synthetics, health checks, RUM, ledende indikatorer, trend/anomali-varsler) kjøper deg tid: du fikser en mettet kø eller en krypeende latens før den blir en klokka 2-side og en sint kunde. Den tiden er forskjellen mellom en stille rettelse og et brudd.
Et bibliotek av IT-intervjuspørsmål med detaljerte svar — fra Junior til Senior.
Doner