Hur skulle du utforma övervakning för en applikation från grunden?

Question

Accepted Answer

Börja **uppifrån och ned från vad användare känner**, inte nedifrån och upp från infrastruktur. Den mest pålitliga värdflottan är värdelös om förfrågningar misslyckas, så börja med användarriktade **SLI** — **latens**, **felfrekvens**, **tillgänglighet** — lägg sedan till de fyra gyllene signalerna, sedan infrastrukturmetriker sist.

## Lagringen, från användare inåt

```text
1. USER-FACING SLIs   → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS     → latency, traffic, errors, saturation per service
3. INFRA METRICS      → CPU, memory, disk, network (causes, not symptoms)
```

Om du bara övervakar CPU och disk (nedifrån och upp), kan du vara helt grön medan användare får 500s. Att övervaka SLI:er först (uppifrån och ned) innebär att du varnar om **symtom användare faktiskt känner**, sedan borrar du ner dig i gyllene signaler och infrastruktur för att hitta orsaken.

## Pipeline: instrumentera → samla → instrumentbräde → alert

```text
INSTRUMENT  app emits metrics/logs/traces (e.g. request_duration_seconds histogram)
   ↓
COLLECT     a TSDB scrapes/ingests them (Prometheus, Datadog agent)
   ↓
DASHBOARD   visualize SLIs + golden signals (Grafana) for humans to read
   ↓
ALERT       fire on SLO violations / burn rate, routed to on-call
```

## En konkret utgångspunkt

```promql
# Availability SLI: fraction of requests that succeed
sum(rate(http_requests_total{status!~"5.."}[5m]))
  / sum(rate(http_requests_total[5m]))

# Latency SLI: p99 request latency
histogram_quantile(0.99, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))
```

Definiera en **SLO** på varje SLI (t.ex. 99,9% tillgänglighet, p99 < 300ms), instrumentbräde dem, och alert när SLO är i fara — inte på varje liten fluktuering.

## Varför det är viktigt

Övervakning byggd nedifrån och upp talar om för dig att en disk är 80% full men inte att kunder inte kan checka ut. Att börja från användarriktade SLI:er knyter varje instrumentbräde och varning tillbaka till verklig användareffekt, håller bullret lågt och ger en tydlig borr-ned-väg (symptom → gyllene signal → infrastrukturorsak) när något går sönder.