D'après le livre SRE de Google, les quatre signaux d'or sont la latence, le trafic, les erreurs et la saturation. Si vous ne pouvez mesurer que quatre choses sur un système orienté utilisateur, mesurez celles-ci — ensemble, elles détectent la grande majorité des problèmes.
Les quatre signaux
LATENCY how long a request takes
→ split SUCCESSFUL vs FAILED latency (a fast 500 isn't "fast")
→ track percentiles (p50/p95/p99), not averages
TRAFFIC how much demand the system is under
→ requests/sec, transactions/sec, concurrent sessions
ERRORS rate of failing requests
→ explicit (HTTP 500) and implicit (wrong content, too slow)
SATURATION how "full" the system is — its most constrained resource
→ CPU, memory, I/O, queue depth; a leading indicator of trouble
