Проводите blameless postmortem, который находит системную причину, затем превращаете её в конкретные, закреплённые за ответственными и отслеживаемые action items — и проверяете, что они действительно реализованы. Цель не в том, чтобы найти, кого винить; она в том, чтобы изменить систему так, чтобы тот же класс сбоя стал невозможным или самообнаруживаемым.
