Ưu tiên đầu tiên là khôi phục dịch vụ, rồi mới tìm nguyên nhân — mitigation đến trước chẩn đoán. Tôi sẽ tuyên bố một incident, phân vai trò rõ ràng, và hướng tới việc phục hồi an toàn nhanh nhất, đồng thời giao tiếp xuyên suốt.
Ưu tiên đầu tiên là khôi phục dịch vụ, rồi mới tìm nguyên nhân — mitigation đến trước chẩn đoán. Tôi sẽ tuyên bố một incident, phân vai trò rõ ràng, và hướng tới việc phục hồi an toàn nhanh nhất, đồng thời giao tiếp xuyên suốt.
Im lặng nuôi dưỡng hoảng loạn. Tôi gửi cập nhật theo nhịp đều đặn ngay cả khi chưa có tin gì mới:
[14:05] Đang điều tra — checkout đang sập, ~40% người dùng bị ảnh hưởng. Cập nhật tiếp 14:20.
[14:20] Đã xác định: một bản deploy lỗi. Đang rollback. Dự kiến 10 phút.
[14:35] Dịch vụ đã khôi phục. Đang theo dõi. Postmortem sẽ có sau.
Sự cố là điều không thể tránh khỏi; cách bạn vận hành chúng định nghĩa niềm tin của team và sự tự tin của khách hàng. Sự phối hợp bình tĩnh dựa trên vai trò cộng với việc theo dõi blameless biến một ngày tồi tệ thành một hệ thống mạnh mẽ hơn — và báo hiệu cho các kỹ sư rằng họ an toàn để di chuyển nhanh vì thất bại được xử lý như một quy trình, không phải một cuộc săn phù thủy.