您如何在生产事件中进行领导？

Question

您如何在生产事件中进行领导？

Accepted Answer

在事件期间，您的工作是**冷静地恢复服务并协调响应**，而不是独自成为英雄来解决问题。清晰的职责、平静的沟通以及优先减缓问题的偏向，将流畅的响应与混乱区分开来。

## 如何管理事件

```text
1. ASSIGN roles — incident commander (coordinates), responders (fix),
   comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
   before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
```

## 在诊断之前先减缓

寻找根本原因的本能很强，要抵制它。如果回滚能恢复服务，请*先*这样做，然后在压力消除后冷静地调查。用户关心的是被解除阻塞，而不是您的诊断。

## 一个具体的例子

部署破坏了结账。不要在压力下实时调试新代码。立即回滚，确认结账正常工作，发布更新，*然后*在平静的条件下调查不良部署。

## 一个陷阱

有责备的事后分析会教导人们隐藏问题。保持无责备的态度，重点放在允许这种情况发生的系统漏洞上（没有金丝雀测试，没有告警）。

## 为什么这很重要

事件的压力和可见性都很高，您的领导方式会影响结果和团队对您的信任。

冷静的协调和无责备的学习将一次中断转变为一个更难被破坏的系统。