Trong một sự cố, công việc của bạn là khôi phục dịch vụ một cách bình tĩnh và điều phối phản ứng, chứ không phải làm người hùng tự mình sửa nó một mình. Vai trò rõ ràng, giao tiếp bình tĩnh, và thiên hướng giảm thiểu (mitigate) trước là những thứ phân tách một phản ứng êm ả khỏi sự hỗn loạn.
Cách điều hành một sự cố
1. PHÂN CÔNG vai trò — incident commander (điều phối), responder (sửa),
comms (cập nhật cho stakeholder). Một người không thể làm cả ba.
2. GIẢM THIỂU trước — cầm máu (roll back, tắt feature-flag)
trước khi truy tìm nguyên nhân gốc.
3. GIAO TIẾP theo nhịp — kể cả "vẫn đang điều tra" mỗi 15-30 phút.
4. GIỮ BÌNH TĨNH — cả nhóm phản chiếu năng lượng của bạn. Đổ lỗi để sau, hoặc không bao giờ.
5. Sau đó: post-mortem KHÔNG ĐỔ LỖI (BLAMELESS) — sửa hệ thống, không phải sửa con người.
