Kaj je strategija opazljivosti za dnevnike, metrike in sledove v velikem merilu?

Question

Accepted Answer

Opazljivost počiva na **treh stebrih** — **dnevnikih**, **metrikah** in **sledovih** — in cilj je odgovoriti "kaj je narobe in zakaj" za sistem, ki ga je preveč velika za ročni pregled. V velikem merilu je strategija o korelaciji, vzorčenju in stroških.

## Trije stebri

| Steber | Odgovori | Orodja |
|---|---|---|
| Metrike | Je kaj narobe? (količine, zakasnitve) | Prometheus, Grafana |
| Sledovi | Kje v toku? | OpenTelemetry, Jaeger |
| Dnevniki | Kaj se je točno zgodilo? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## Naredite jih korelirane

ID sledenja/korelacije se mora prepletati skozi oznake metrik, vrstice dnevnika in razpone, da se lahko vrtite med njimi.

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## Pomisleki v velikem merilu

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## Napaka

Beleževanje vsega pri 100 % je neugodno in potopi signal. Vzorčujte, strukturirajte in opozarjajte na SLO-je namesto tega.

## Zakaj je to pomembno

S stotinami storitev se ne morete SSH-irati in pogledati — opazljivost je edini način za razumevanje vedenja v produkciji.

Zmagovalčna strategija je korelirana, vzorčena in vprognozirana na SLO: površinski so prave težave hitro brez vas bankrociranskega na skladiščenju telemetrije ali zakopanca na-klic v hrupa.

Metrike	Je kaj narobe? (količine, zakasnitve)	Prometheus, Grafana
Sledovi	Kje v toku?	OpenTelemetry, Jaeger
Dnevniki	Kaj se je točno zgodilo?	ELK, Loki