핵심 규칙: 원인이 아니라 증상에 alert를 걸고, 조치 가능하고 긴급한 것에만 page를 보낸다. 매일 밤 울리는 노이즈 alert는 음소거되거나 무시됩니다 — 그래서 진짜 위험은 alert가 없는 것이 아니라, 둔감해진 on-call이 진짜 alert를 자면서 놓치는 것입니다.
원인보다 증상
"CPU > 80%" 같은 내부 원인이 아니라 사용자 대면 SLO(error rate, latency, availability)에 alert를 거세요. 높은 CPU는 무해할 수 있고, 중요한 건 사용자가 영향을 받는지 여부입니다.
나쁨 (원인) CPU > 80% 5m 동안 → 끊임없이 발화, 종종 영향 없음
좋음 (증상) error-rate SLO burn이 빠름 → 사용자가 아플 때만 발화
다중 창 burn-rate alert
단일 정적 임계값은 너무 예민하거나 너무 느립니다. 대신 을 얼마나 빠르게 소진하는지에 alert를 걸되, 두 개의 창을 사용해 빠른 소진은 즉시 page하고 느린 소진은 지속될 때만 page합니다.
