Observabilumas remiasi trimis stulpais — žurnalais, metrikomis ir sledėmis — ir tikslas yra atsakyti "kas negerai ir kodėl" sistemai, kuri per didelė rankiniam tikrinimui. Iš esmės strategija apima koreliaciją, atrankymą ir išlaidas.
Observabilumas remiasi trimis stulpais — žurnalais, metrikomis ir sledėmis — ir tikslas yra atsakyti "kas negerai ir kodėl" sistemai, kuri per didelė rankiniam tikrinimui. Iš esmės strategija apima koreliaciją, atrankymą ir išlaidas.
| Stulpis | Atsakymai | Įrankiai |
|---|
| Metrikos | Kažkas negerai? (normos, latencija) | Prometheus, Grafana |
| Sledės | Kur srautas? | OpenTelemetry, Jaeger |
| Žurnalai | Kas tiksliai atsitiko? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
Trys/koreliacijos ID turi praeiti per metrikų žymes, žurnalo eilutes ir span'us, kad galėtumėte jų tarpais jungti.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
Viskas žurnalizuoti 100% yra neįperkama ir nuskandina signalą. Atrinkite, sustruktūrizuokite ir įspėkite pagal SLO.
Su šimtais paslaugų negalite SSH ir žiūrėti — observabilumas yra vienintelis būdas suprasti gamybos elgesį.
Laiminti strategija yra susijusi, atrinkta ir SLO pagrįsta: ji greitai paviršina tikras problemas neišdūdusi šalti telemetrijos saugojimo ar nepamarinusi on-call triukšme.