从用户的感受出发,而不是从基础设施往上走。最可靠的主机集群在请求失败时就毫无价值,所以要从面向用户的 SLI 开始——延迟、错误率、可用性——然后添加四个黄金信号,最后再添加基础设施指标。
分层结构,从用户向内
text
1. USER-FACING SLIs → what the user experiences (latency, errors, availability)
2. GOLDEN SIGNALS → latency, traffic, errors, saturation per service
3. INFRA METRICS → CPU, memory, disk, network (causes, not symptoms)
如果您只关注 CPU 和磁盘(自下而上),您可能显示一切正常,但用户却收到 500 错误。从 SLI 开始监控(自上而下)意味着您对进行告警,然后深入到黄金信号和基础设施来找出根本原因。
