Observability ist die Fähigkeit, den internen Zustand eines Systems durch seine externen Ausgaben zu verstehen — durch Logs, Metrics und Traces. Es ist essentiell für den Betrieb, das Debuggen und die Wartung von Systemen (besonders verteilten Systemen), denn man kann nicht verwalten, was man nicht sehen kann.
Die drei Säulen der Observability
LOGS → timestamped records of events (what happened) → detailed, for debugging specific issues
METRICS → numerical measurements over time (CPU, latency, request rate, error rate) →
aggregate health/performance; dashboards; alerting
TRACES → follow a request's path through the system (across services) → understand flows,
find bottlenecks/failures in DISTRIBUTED systems (which service was slow?)
→ together: understand WHAT happened, the OVERALL state, and the PATH of requests.
