核心原则:对症状进行告警,而不是原因,仅对可操作和紧迫的事项进行分页。每晚都会触发的嘈杂告警会被静音或忽视 — 所以真正的风险不是漏掉告警,而是一个麻木的值班员会睡过真正的问题。
症状而非原因
对用户可见的 SLO(错误率、延迟、可用性)进行告警,而不是内部原因,如"CPU > 80%"。高 CPU 可能无害;重要的是用户是否受到影响。
text
BAD (cause) CPU > 80% for 5m → fires constantly, often no impact
GOOD (symptom) error-rate SLO burn is fast → fires only when users hurt
多窗口燃尽率告警
单个静态阈值要么过于敏感,要么太慢。相反,根据错误预算燃尽的速度进行告警,使用两个窗口,这样快速燃尽会立即分页,缓慢燃尽仅在持续时才分页。
yaml
{ }
