L'observabilité est la capacité à comprendre l'état interne d'un système à partir de ses sorties externes — via les logs, les métriques et les traces. Elle est essentielle pour exploiter, déboguer et maintenir les systèmes (surtout les systèmes distribués), où vous ne pouvez pas gérer ce que vous ne voyez pas.
Les trois piliers de l'observabilité
LOGS → timestamped records of events (what happened) → detailed, for debugging specific issues
METRICS → numerical measurements over time (CPU, latency, request rate, error rate) →
aggregate health/performance; dashboards; alerting
TRACES → follow a request's path through the system (across services) → understand flows,
find bottlenecks/failures in DISTRIBUTED systems (which service was slow?)
→ together: understand WHAT happened, the OVERALL state, and the PATH of requests.
