您如何设置监控和可观测性以便及早发现问题？

Question

Accepted Answer

目标是**在用户告诉您之前，就知道您的系统是否不健康**。良好的可观测性使您能够回答您没有预期的问题，而不仅仅是检查一组固定的仪表板。作为技术主管，您在事件发生**之前**设置这个，而不是在事件期间。

## 三大支柱

- **Metrics** — 廉价的数值时间序列（请求速率、错误率、延迟、队列深度）。非常适合趋势、告警和 SLO。
- **Logs** — 详细的事件记录，说明*为什么*发生了某事。将它们设置为**结构化**（JSON）并附加**correlation ID**，这样您可以跨服务跟踪单个请求。
- **Traces** — 单个请求跨服务的路径，显示时间实际花费在何处。在分布式系统中至关重要。

## 根据症状告警，而不是噪声

基于**用户感受**的页面告警，而不是内部抖动。将告警与 **SLO** 锚定：错误率、延迟（p95/p99）和可用性。CPU 峰值不是事件；2% 的用户结账失败才是。

| 告警 | 不要告警 |
| --- | --- |
| 错误率超过 SLO | 单次 CPU 峰值 |
| p99 延迟超出预算 | 单次缓慢请求 |
| 健康检查失败 | 磁盘占用 60% |

## 使告警可操作

每个告警应该是**紧急的、真实的和可操作的** — 它标出了问题所在并指出了下一步的方向。频繁触发的告警会让团队养成忽视它们的习惯；**告警疲劳**是真实事件被忽视的原因。添加**健康检查**和仪表板，一目了然地显示黄金信号。

## 为什么这很重要

仅在事件发生后才进行监测的团队是在蒙眼飞行：他们从愤怒的客户那里了解停机情况，并通过猜测进行调试。预先投资可观测性将凌晨 3 点的谜团变成 5 分钟的诊断，缩短停机时间，并让团队专注于交付而不是救火。

告警	不要告警
错误率超过 SLO	单次 CPU 峰值
p99 延迟超出预算	单次缓慢请求
健康检查失败	磁盘占用 60%