运行一次无指责的 postmortem,找到系统性原因,然后把它转化为具体、有人负责、被追踪的行动项 —— 并验证它们真的落地。目标不是找谁来背锅;而是改变系统,让同一类失败变得不可能发生或能自我检测。 核心循环