Jaka jest strategia obserwacji dla logów, metryk i śladów w dużej skali?

Question

Accepted Answer

Obserwacja opiera się na **trzech filarach** — **logach**, **metrykach** i **śladach** — a celem jest odpowiedzenie "co poszło nie tak i dlaczego" dla systemu zbyt dużego, aby inspektować go ręcznie. W dużej skali strategia dotyczy korelacji, próbkowania i kosztów.

## Trzy filary

| Filar | Odpowiada na | Narzędzia |
|---|---|---|
| Metryki | Czy coś się nie zgadza? (rates, latency) | Prometheus, Grafana |
| Ślady | Gdzie w przepływie? | OpenTelemetry, Jaeger |
| Logi | Co dokładnie się stało? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## Uczyń je skorelowane

Identyfikator trace/korelacji musi przechodzić przez etykiety metryk, linie logów i spany, aby można było między nimi przesuwać.

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## Problemy w dużej skali

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## Pułapka

Rejestrowanie wszystkiego na 100% jest nieopłacalne i zagłusza sygnał. Zamiast tego próbkuj, strukturyzuj i powiadamiaj na podstawie SLO.

## Dlaczego to ważne

Mając setki usług, nie możesz SSH i spojrzeć — obserwacja jest jedynym sposobem na zrozumienie zachowania produkcji.

Wygrywająca strategia jest skorelowana, próbkowana i napędzana SLO: odkrywa rzeczywiste problemy szybko bez bankructwa na przechowywaniu telemetrii lub zatopienia on-call w szumie.

Metryki	Czy coś się nie zgadza? (rates, latency)	Prometheus, Grafana
Ślady	Gdzie w przepływie?	OpenTelemetry, Jaeger
Logi	Co dokładnie się stało?	ELK, Loki