आपकी production वेबसाइट अभी-अभी डाउन हो गई। आप इसे कैसे संभालते हैं?

Question

Accepted Answer

पहली प्राथमिकता है **सेवा को बहाल करो, फिर कारण खोजो** — निदान से पहले शमन आता है। मैं एक incident घोषित करूँगा, स्पष्ट भूमिकाएँ सौंपूँगा, और पूरे रास्ते संवाद करते हुए सबसे तेज़ सुरक्षित रिकवरी की ओर बढ़ूँगा।

## पहले स्थिर करें

- **एक incident घोषित करें** और एक एकल चैनल (war room / Slack thread) खोलें ताकि समन्वय बिखरा हुआ न हो।
- **भूमिकाएँ सौंपें**: निर्णय लेने के लिए एक **Incident Commander**, stakeholders को अपडेट करने के लिए एक **comms owner**, और जाँच करने के लिए **responders**। Tech Lead के रूप में मैं अक्सर IC की भूमिका लेता हूँ ताकि इंजीनियर समस्या पर ध्यान केंद्रित कर सकें।
- **सबसे तेज़ प्रतिवर्ती फ़िक्स की ओर बढ़ें।** अगर कोई deploy outage से सहसंबद्ध है, तो पहले **rollback** करें और सवाल बाद में पूछें — उपयोगकर्ताओं को बहाल करना सही होने से बेहतर है।

## समानांतर में निदान करें

- **स्पष्ट संकेतों** की जाँच करें: dashboards, error rates, हाल के deploys, infra बदलाव, traffic spikes, expired certs।
- एक परिकल्पना बनाएँ, सबसे सस्ती को पहले परखें, और **एक साथ पाँच चीज़ें बदलने से बचें** — आपको पता नहीं चलेगा कि किसने काम किया।

## लगातार संवाद करें

चुप्पी घबराहट पैदा करती है। मैं स्थिर cadence पर अपडेट भेजता हूँ, भले ही कोई खबर न हो:

```
[14:05] Investigating — checkout is down, ~40% of users affected. Next update 14:20.
[14:20] Identified: bad deploy. Rolling back now. ETA 10 min.
[14:35] Service restored. Monitoring. Postmortem to follow.
```

## रिकवरी के बाद

- पूर्ण रिकवरी की पुष्टि करें, सिर्फ़ "यह बेहतर लग रहा है" नहीं।
- कुछ दिनों के भीतर एक **blameless postmortem** चलाएँ: timeline, root cause, क्या इसे पहचानना/ठीक करना धीमा बनाया, और **owners के साथ ठोस action items**।
- आउटपुट है व्यवस्थागत सुधार (बेहतर alerts, guardrails, rollback automation) — दोष देने के लिए कोई नाम नहीं।

## गलतियाँ

- **शमन से पहले डिबगिंग** जबकि उपयोगकर्ता पीड़ित हैं।
- **कोई एकल निर्णयकर्ता नहीं**, इसलिए पाँच लोग समानांतर में अनुमान लगाते हैं।
- stakeholders पर **चुप हो जाना**।
- **व्यक्तियों को दोष देना**, जो उस ईमानदारी को मार देता है जिस पर भविष्य के incidents निर्भर करते हैं।

## यह क्यों महत्वपूर्ण है

Outages अपरिहार्य हैं; आप उन्हें कैसे चलाते हैं, यह टीम के भरोसे और ग्राहक के विश्वास को परिभाषित करता है। शांत, भूमिका-आधारित समन्वय और blameless फ़ॉलो-अप एक बुरे दिन को एक मज़बूत सिस्टम में बदल देता है — और आपके इंजीनियरों को संकेत देता है कि तेज़ी से आगे बढ़ना सुरक्षित है क्योंकि विफलता को एक प्रक्रिया के रूप में संभाला जाता है, न कि चुड़ैल-शिकार के रूप में।