Ce este o strategie de observabilitate pentru jurnale, metrici și urme la scară mare?

Question

Accepted Answer

Observabilitatea se bazează pe **trei piloni** — **jurnale**, **metrici** și **urme** — iar scopul este să răspundă "ce nu merge bine și de ce" pentru un sistem prea mare pentru a inspecta manual. La scară mare, strategia este despre corelație, eșantionare și cost.

## Cei trei piloni

| Pilonul | Răspunde | Instrumente |
|---|---|---|
| Metrici | Ceva nu merge bine? (rates, latency) | Prometheus, Grafana |
| Urme | Unde în flux? | OpenTelemetry, Jaeger |
| Jurnale | Ce s-a întâmplat cu exactitate? | ELK, Loki |

```text
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
   (broad)              (path)                          (detail)
```

## Face-le corelate

ID-ul de urmărire/corelație trebuie să treacă prin etichetele de metrici, liniile de jurnal și spans, pentru a putea pivota între ele.

```text
log line:  level=error trace_id=abc123 service=payments msg="gateway timeout"
                       ^^^^^^^^^^^^^^^ same id appears in the trace + metrics
```

## Preocupări la scară mare

```text
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
```

## Capcană

Jurnalizarea a tot la 100% este neaportabilă și înecă semnalul. În schimb, eșantionează, structurează și avertizează pe baza SLO.

## De ce este important

Cu sute de servicii, nu poți SSH și te uita — observabilitatea este singurul mod de a înțelege comportamentul producției.

Strategie câștigătoare este corelată, eșantionată și condusă de SLO: evidențiază probleme reale rapid fără să te lași pe cale și să îngroape on-call în zgomot.

Metrici	Ceva nu merge bine? (rates, latency)	Prometheus, Grafana
Urme	Unde în flux?	OpenTelemetry, Jaeger
Jurnale	Ce s-a întâmplat cu exactitate?	ELK, Loki