Quy tắc cốt lõi: alert trên triệu chứng, không phải nguyên nhân, và chỉ page khi có thể hành động và khẩn cấp. Một alert nhiễu kêu mỗi đêm sẽ bị tắt tiếng hoặc phớt lờ — nên rủi ro thật không phải là thiếu alert, mà là một on-call đã chai lì ngủ quên mất cái alert thật.
Triệu chứng hơn nguyên nhân
Alert trên (error rate, latency, availability), không phải trên nguyên nhân nội bộ như "CPU > 80%". CPU cao có thể vô hại; điều quan trọng là user có bị ảnh hưởng hay không.
