Hva er en observabilitetsstrategi for logger, metrikker og spor i stor skala?

Question

Accepted Answer

Observabilitet bygger på **tre pilarer** — **logger**, **metrikker** og **spor** — og målet er å svare på "hva går galt og hvorfor" for et system som er for stort til å inspisere for hånd. I stor skala handler strategien om korrelasjon, sampling og kostnad.

## De tre pilarene

| Pilar | Svarer på | Verktøy |
|---|---|---|
| Metrikker | Går noe galt? (rates, latency) | Prometheus, Grafana |
| Spor | Hvor i flyten? | OpenTelemetry, Jaeger |
| Logger | Hva skjedde egentlig? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## Gjør dem korrelerte

Trace/korrelations-ID-en må gå gjennom metrikkbilder, logglinjer og spans, slik at du kan veksle mellom dem.

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## Bekymringer i stor skala

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## Felle

Å logge alt med 100% er uoverkommelig og drukner signalet. Sample, strukturer og alert på SLO-er i stedet.

## Hvorfor det betyr noe

Med hundrevis av tjenester kan du ikke SSH inn og se — observabilitet er den eneste måten å forstå produksjonsvirkemåte.

Den vinnende strategien er korrelert, samplet og SLO-drevet: den bringer fram virkelige problemer raskt uten å gjøre deg konkurs på telemetriilagring eller begrave on-call-teamet ditt i støy.

Metrikker	Går noe galt? (rates, latency)	Prometheus, Grafana
Spor	Hvor i flyten?	OpenTelemetry, Jaeger
Logger	Hva skjedde egentlig?	ELK, Loki