在事件期间,您的工作是冷静地恢复服务并协调响应,而不是独自成为英雄来解决问题。清晰的职责、平静的沟通以及优先减缓问题的偏向,将流畅的响应与混乱区分开来。
如何管理事件
text
1. ASSIGN roles — incident commander (coordinates), responders (fix),
comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
在诊断之前先减缓
寻找根本原因的本能很强,要抵制它。如果回滚能恢复服务,请先这样做,然后在压力消除后冷静地调查。用户关心的是被解除阻塞,而不是您的诊断。
一个具体的例子
部署破坏了结账。不要在压力下实时调试新代码。立即回滚,确认结账正常工作,发布更新,在平静的条件下调查不良部署。
