Cílem je zachytit problémy před pádem stránky — najít degradaci, když je ještě prostor ji absorbovat. To znamená sledovat vedoucí indikátory, definovat SLOs s rozpočty chyb a aktivně testovat systém namísto čekání na jeho selhání.
Cílem je zachytit problémy před pádem stránky — najít degradaci, když je ještě prostor ji absorbovat. To znamená sledovat vedoucí indikátory, definovat SLOs s rozpočty chyb a aktivně testovat systém namísto čekání na jeho selhání.
SLO změní spolehlivost na číslo (například 99,9% požadavků uspěje). Zbývajících 0,1% je váš rozpočet chyb. Sledování míry vypalování vám umožňuje upozornit, když utrácíte rozpočet příliš rychle — dlouho předtím, než skutečně porušíte SLO a uživatelé si toho všimnou.
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
SYNTHETIC MONITORING scripted checks hit critical paths on a schedule
(login, checkout) → fails even at 3am with zero real traffic
HEALTH CHECKS /healthz endpoints + dependency checks → load balancer
pulls bad instances before users hit them
RUM (real-user mon.) measure latency/errors from actual browsers/devices →
catches issues only some users/regions see
Syntetické monitorování je silné, protože nečeká na uživatele — nepřetržitě testuje systém, takže rozbité pokladny se objeví ve 3 ráno, ne když si si jich lidé stěžují při ranní špičce.
Nejdříve příznaky jsou v prostředcích, ne ještě v chybách směřujících k uživateli. Upozorňujte na trend, ne jen na statickou linii.
LEADING INDICATORS saturation (CPU/mem climbing), queue depth growing,
connection-pool nearing limit, latency CREEPING up
ANOMALY DETECTION flag deviation from the normal baseline / seasonality
TREND ALERTS "disk will fill in 4h at this rate" → act before it's full
Pomalý nárůst p99 nebo rostoucí fronta je varovný výstřel: jednáním při postupném nárůstu zabráníte výpadku, ke kterému tento nárůst vedl.
Reaktivní monitorování znamená, že uživatelé jsou váš alertovací systém — když si stěžují, incident je již spuštěn a váš rozpočet chyb je vyčerpán. Proaktivní detekce (míra vypalování SLO, syntetické zkoušky, kontroly zdraví, RUM, vedoucí indikátory, upozornění na trendy/anomálie) vám dá čas: opravíte nasycující se frontu nebo rostoucí latenci, než se stane stránkou ve 2 ráno a rozezleným zákazníkem. Tento čas je rozdílem mezi tichým opravením a výpadkem.
Knihovna IT otázek k pohovoru s podrobnými odpověďmi — od Junior po Senior.
Přispět