पहली प्राथमिकता है सेवा को बहाल करो, फिर कारण खोजो — निदान से पहले शमन आता है। मैं एक incident घोषित करूँगा, स्पष्ट भूमिकाएँ सौंपूँगा, और पूरे रास्ते संवाद करते हुए सबसे तेज़ सुरक्षित रिकवरी की ओर बढ़ूँगा।
पहली प्राथमिकता है सेवा को बहाल करो, फिर कारण खोजो — निदान से पहले शमन आता है। मैं एक incident घोषित करूँगा, स्पष्ट भूमिकाएँ सौंपूँगा, और पूरे रास्ते संवाद करते हुए सबसे तेज़ सुरक्षित रिकवरी की ओर बढ़ूँगा।
चुप्पी घबराहट पैदा करती है। मैं स्थिर cadence पर अपडेट भेजता हूँ, भले ही कोई खबर न हो:
[14:05] Investigating — checkout is down, ~40% of users affected. Next update 14:20.
[14:20] Identified: bad deploy. Rolling back now. ETA 10 min.
[14:35] Service restored. Monitoring. Postmortem to follow.
Outages अपरिहार्य हैं; आप उन्हें कैसे चलाते हैं, यह टीम के भरोसे और ग्राहक के विश्वास को परिभाषित करता है। शांत, भूमिका-आधारित समन्वय और blameless फ़ॉलो-अप एक बुरे दिन को एक मज़बूत सिस्टम में बदल देता है — और आपके इंजीनियरों को संकेत देता है कि तेज़ी से आगे बढ़ना सुरक्षित है क्योंकि विफलता को एक प्रक्रिया के रूप में संभाला जाता है, न कि चुड़ैल-शिकार के रूप में।