Hoe zou je monitoring voor een applicatie helemaal opnieuw ontwerpen?

Question

Accepted Answer

Start **van bovenaf met wat gebruikers voelen**, niet van onderaf met infrastructuur. De meest betrouwbare hostfleet is waardeloos als verzoeken mislukken, dus begin met gebruikers-gerichte **SLI's** — **latency**, **error rate**, **availability** — voeg dan de vier gouden signalen toe, en infrastructure-metrics als laatste.

## Waarom het belangrijk is

```text
1. USER-FACING SLIs   → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS     → latency, traffic, errors, saturation per service
3. INFRA METRICS      → CPU, memory, disk, network (causes, not symptoms)
```

Als je alleen CPU en disk bewaakt (van onderaf), kun je helemaal groen zijn terwijl gebruikers 500-fouten krijgen. SLI's als eerste bewaken (van bovenaf) betekent dat je waarschuwt op **symptomen die gebruikers echt voelen**, en vervolgens gouden signalen en infrastructuur onderzoekt om de oorzaak te vinden.

## De pijplijn: instrument → collect → dashboard → alert

```text
INSTRUMENT  app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
   ↓
COLLECT     a TSDB scrapes/ingests them (Prometheus, Datadog agent)
   ↓
DASHBOARD   visualize SLIs + golden signals (Grafana) for humans to read
   ↓
ALERT       fire on SLO violations / burn rate, routed to on-call
```

## Een concreet startpunt

```promql
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
  / sum(rate(http_requests_total[5m]))

# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
```

Definieer een **SLO** op elke SLI (bijv. 99,9% beschikbaarheid, p99 < 300ms), zet ze op het dashboard, en waarschuw wanneer de SLO risico loopt — niet bij elke schommeling.

## Waarom het belangrijk is

Monitoring opgebouwd van onderaf vertelt je dat een disk 80% vol is, maar niet dat klanten hun aankoop niet kunnen voltooien. Beginnen met gebruikers-gerichte SLI's koppelt elk dashboard en elke waarschuwing terug aan werkelijke gebruikersimpact, houdt ruis laag, en geeft een duidelijk pad voor dieper graven (symptoom → gouden signaal → infrastructuur-oorzaak) wanneer iets kapot gaat.