目标是在用户告诉您之前,就知道您的系统是否不健康。良好的可观测性使您能够回答您没有预期的问题,而不仅仅是检查一组固定的仪表板。作为技术主管,您在事件发生之前设置这个,而不是在事件期间。
基于用户感受的页面告警,而不是内部抖动。将告警与 SLO 锚定:错误率、延迟(p95/p99)和可用性。CPU 峰值不是事件;2% 的用户结账失败才是。
| 告警 | 不要告警 |
|---|---|
| 错误率超过 SLO | 单次 CPU 峰值 |
| p99 延迟超出预算 | 单次缓慢请求 |
| 健康检查失败 | 磁盘占用 60% |
每个告警应该是紧急的、真实的和可操作的 — 它标出了问题所在并指出了下一步的方向。频繁触发的告警会让团队养成忽视它们的习惯;告警疲劳是真实事件被忽视的原因。添加健康检查和仪表板,一目了然地显示黄金信号。
仅在事件发生后才进行监测的团队是在蒙眼飞行:他们从愤怒的客户那里了解停机情况,并通过猜测进行调试。预先投资可观测性将凌晨 3 点的谜团变成 5 分钟的诊断,缩短停机时间,并让团队专注于交付而不是救火。