Από το SRE βιβλίο της Google, τα τέσσερα χρυσά σήματα είναι latency, traffic, errors και saturation. Εάν μπορείς να μετρήσεις μόνο τέσσερα πράγματα σχετικά με ένα σύστημα προσανατολισμένο προς τον χρήστη, μέτρησε αυτά — μαζί καλύπτουν τη συντριπτική πλειοψηφία των προβλημάτων.
Τα τέσσερα σήματα
LATENCY how long a request takes
→ split SUCCESSFUL vs FAILED latency (a fast 500 isn't "fast")
→ track percentiles (p50/p95/p99), not averages
TRAFFIC how much demand the system is under
→ requests/sec, transactions/sec, concurrent sessions
ERRORS rate of failing requests
→ explicit (HTTP 500) and implicit (wrong content, too slow)
SATURATION how "full" the system is — its most constrained resource
→ CPU, memory, I/O, queue depth; a leading indicator of trouble
