กฎหลักคือ แจ้งเตือนที่อาการ ไม่ใช่ที่สาเหตุ และ ส่ง page เฉพาะสิ่งที่ลงมือแก้ได้และเร่งด่วน การแจ้งเตือนที่ส่งเสียงรบกวนทุกคืนจะถูกปิดเสียงหรือถูกเพิกเฉย — ดังนั้นความเสี่ยงที่แท้จริงไม่ใช่การพลาดการแจ้งเตือน แต่คือคนที่อยู่เวร on-call ที่ชินชาจนหลับผ่านการแจ้งเตือนตัวจริงไป
อาการเหนือสาเหตุ
แจ้งเตือนที่ (error rate, latency, availability) ไม่ใช่ที่สาเหตุภายในอย่าง "CPU > 80%" CPU สูงอาจไม่มีผลใด ๆ สิ่งที่สำคัญคือผู้ใช้ได้รับผลกระทบหรือไม่
