Obserwacja opiera się na trzech filarach — logach, metrykach i śladach — a celem jest odpowiedzenie "co poszło nie tak i dlaczego" dla systemu zbyt dużego, aby inspektować go ręcznie. W dużej skali strategia dotyczy korelacji, próbkowania i kosztów.
Obserwacja opiera się na trzech filarach — logach, metrykach i śladach — a celem jest odpowiedzenie "co poszło nie tak i dlaczego" dla systemu zbyt dużego, aby inspektować go ręcznie. W dużej skali strategia dotyczy korelacji, próbkowania i kosztów.
| Filar | Odpowiada na | Narzędzia |
|---|
| Metryki | Czy coś się nie zgadza? (rates, latency) | Prometheus, Grafana |
| Ślady | Gdzie w przepływie? | OpenTelemetry, Jaeger |
| Logi | Co dokładnie się stało? | ELK, Loki |
Metrics alert ─▶ trace pinpoints the slow service ─▶ logs explain the cause
(broad) (path) (detail)
Identyfikator trace/korelacji musi przechodzić przez etykiety metryk, linie logów i spany, aby można było między nimi przesuwać.
log line: level=error trace_id=abc123 service=payments msg="gateway timeout"
^^^^^^^^^^^^^^^ same id appears in the trace + metrics
✓ Standardize: OpenTelemetry across all services
✓ Use structured (JSON) logs — queryable, not grep-only
✓ Sample traces (e.g. keep all errors + 1% of success) to control cost
✓ Define SLOs and alert on symptoms (latency/error rate), not noise
✓ RED/USE method for dashboards (Rate, Errors, Duration)
Rejestrowanie wszystkiego na 100% jest nieopłacalne i zagłusza sygnał. Zamiast tego próbkuj, strukturyzuj i powiadamiaj na podstawie SLO.
Mając setki usług, nie możesz SSH i spojrzeć — obserwacja jest jedynym sposobem na zrozumienie zachowania produkcji.
Wygrywająca strategia jest skorelowana, próbkowana i napędzana SLO: odkrywa rzeczywiste problemy szybko bez bankructwa na przechowywaniu telemetrii lub zatopienia on-call w szumie.
Biblioteka pytań rekrutacyjnych IT ze szczegółowymi odpowiedziami — od Juniora do Seniora.
Wesprzyj