Observabilitatea se bazează pe trei piloni — jurnale, metrici și urme — iar scopul este să răspundă "ce nu merge bine și de ce" pentru un sistem prea mare pentru a inspecta manual. La scară mare, strategia este despre corelație, eșantionare și cost.
Observabilitatea se bazează pe trei piloni — jurnale, metrici și urme — iar scopul este să răspundă "ce nu merge bine și de ce" pentru un sistem prea mare pentru a inspecta manual. La scară mare, strategia este despre corelație, eșantionare și cost.
| Pilonul | Răspunde | Instrumente |
|---|
| Metrici | Ceva nu merge bine? (rates, latency) | Prometheus, Grafana |
| Urme | Unde în flux? | OpenTelemetry, Jaeger |
| Jurnale | Ce s-a întâmplat cu exactitate? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
ID-ul de urmărire/corelație trebuie să treacă prin etichetele de metrici, liniile de jurnal și spans, pentru a putea pivota între ele.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
Jurnalizarea a tot la 100% este neaportabilă și înecă semnalul. În schimb, eșantionează, structurează și avertizează pe baza SLO.
Cu sute de servicii, nu poți SSH și te uita — observabilitatea este singurul mod de a înțelege comportamentul producției.
Strategie câștigătoare este corelată, eșantionată și condusă de SLO: evidențiază probleme reale rapid fără să te lași pe cale și să îngroape on-call în zgomot.