目标是在页面加载前捕捉问题——在还有余量吸收的时候发现性能下降。这意味着观察领先指标、定义带有错误预算的 SLO,以及主动探测系统而不是等待失败。
SLO 和错误预算
SLO 将可靠性转化为一个数字(例如 99.9% 的请求成功)。剩余的 0.1% 是您的错误预算。追踪消耗速率让您在消耗预算太快时发出警报——远在您实际违反 SLO 和用户注意到之前。
text
SLO 99.9% → 0.1% error budget/month (~43 min of downtime)
burn rate rising fast → you'll exhaust it in 2 days → alert NOW, while it's fixable
