Start , niet van onderaf met infrastructuur. De meest betrouwbare hostfleet is waardeloos als verzoeken mislukken, dus begin met gebruikers-gerichte — , , — voeg dan de vier gouden signalen toe, en infrastructure-metrics als laatste.
Start , niet van onderaf met infrastructuur. De meest betrouwbare hostfleet is waardeloos als verzoeken mislukken, dus begin met gebruikers-gerichte — , , — voeg dan de vier gouden signalen toe, en infrastructure-metrics als laatste.
1. USER-FACING SLIs → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS → latency, traffic, errors, saturation per service
3. INFRA METRICS → CPU, memory, disk, network (causes, not symptoms)
Als je alleen CPU en disk bewaakt (van onderaf), kun je helemaal groen zijn terwijl gebruikers 500-fouten krijgen. SLI's als eerste bewaken (van bovenaf) betekent dat je waarschuwt op symptomen die gebruikers echt voelen, en vervolgens gouden signalen en infrastructuur onderzoekt om de oorzaak te vinden.
INSTRUMENT app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
↓
COLLECT a TSDB scrapes/ingests them (Prometheus, Datadog agent)
↓
DASHBOARD visualize SLIs + golden signals (Grafana) for humans to read
↓
ALERT fire on SLO violations / burn rate, routed to on-call
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
Definieer een SLO op elke SLI (bijv. 99,9% beschikbaarheid, p99 < 300ms), zet ze op het dashboard, en waarschuw wanneer de SLO risico loopt — niet bij elke schommeling.
Monitoring opgebouwd van onderaf vertelt je dat een disk 80% vol is, maar niet dat klanten hun aankoop niet kunnen voltooien. Beginnen met gebruikers-gerichte SLI's koppelt elk dashboard en elke waarschuwing terug aan werkelijke gebruikersimpact, houdt ruis laag, en geeft een duidelijk pad voor dieper graven (symptoom → gouden signaal → infrastructuur-oorzaak) wanneer iets kapot gaat.