首要任务是先恢复服务,再找原因 —— 缓解先于诊断。我会宣布一个 incident,分配清晰的角色,朝着最快的安全恢复推进,并全程沟通。
沉默会滋生恐慌。即便没有新消息,我也按稳定的节奏发更新:
[14:05] 排查中 —— checkout 宕机,约 40% 用户受影响。下次更新 14:20。
[14:20] 已定位:一次错误的 deploy。正在 rollback。预计 10 分钟。
[14:35] 服务已恢复。监控中。postmortem 随后跟进。
宕机不可避免;你如何应对它定义了团队信任和客户信心。冷静的、基于角色的协调,加上无指责的后续跟进,能把糟糕的一天变成更强的系统 —— 同时向你的工程师传递一个信号:可以放心快速行动,因为失败是被当作一个流程来处理的,而不是一场猎巫行动。