Kokia yra observabilumo strategija žurnalams, metrikoms ir sledėms iš esmės?

Question

Accepted Answer

Observabilumas remiasi **trimis stulpais** — **žurnalais**, **metrikomis** ir **sledėmis** — ir tikslas yra atsakyti "kas negerai ir kodėl" sistemai, kuri per didelė rankiniam tikrinimui. Iš esmės strategija apima koreliaciją, atrankymą ir išlaidas.

## Trys stulpai

| Stulpis | Atsakymai | Įrankiai |
|---|---|---|
| Metrikos | Kažkas negerai? (normos, latencija) | Prometheus, Grafana |
| Sledės | Kur srautas? | OpenTelemetry, Jaeger |
| Žurnalai | Kas tiksliai atsitiko? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## Padaryk juos susijusiais

Trys/koreliacijos ID turi praeiti per metrikų žymes, žurnalo eilutes ir span'us, kad galėtumėte jų tarpais jungti.

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## Iš esmės susijusios aplinkybės

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## Pavojai

Viskas žurnalizuoti 100% yra neįperkama ir nuskandina signalą. Atrinkite, sustruktūrizuokite ir įspėkite pagal SLO.

## Kodėl tai svarbu

Su šimtais paslaugų negalite SSH ir žiūrėti — observabilumas yra vienintelis būdas suprasti gamybos elgesį.

Laiminti strategija yra susijusi, atrinkta ir SLO pagrįsta: ji greitai paviršina tikras problemas neišdūdusi šalti telemetrijos saugojimo ar nepamarinusi on-call triukšme.

Metrikos	Kažkas negerai? (normos, latencija)	Prometheus, Grafana
Sledės	Kur srautas?	OpenTelemetry, Jaeger
Žurnalai	Kas tiksliai atsitiko?	ELK, Loki