默认 rollback —— 它是恢复到已知良好状态最快、最可靠的方式。只有当 rollback 不可能、或比向前修复更危险时,才动用 hotfix。在一场进行中的 incident 里,优先级是先止血,再诊断。
| 情形 | 选择 |
|---|---|
| 上一版本已知良好、无 migration | Rollback |
| 已发布不可逆的 DB migration | Hotfix / 向前修复 |
| 原因未知、影响严重 | Rollback(争取时间) |
| 微不足道、被充分理解的单行修改 | Hotfix |
| Rollback 本身有风险/未经测试 | Hotfix |
这个决定发生在最糟糕的时刻 —— 系统宕机、时钟在走、所有人在看。一位对它有清晰、演练过规则的 Tech Lead 能大幅削减 MTTR,并避免那个经典错误:在 incident 中途想耍聪明,而那个无聊的回退明明就在手边。先恢复,事后再聪明。