तपाईंको production website भर्खरै ठप्प भयो। तपाईं यसलाई कसरी सम्हाल्नुहुन्छ?

Question

Accepted Answer

पहिलो प्राथमिकता हो **सेवा पुनर्स्थापना गर, त्यसपछि कारण खोज** — निदानभन्दा अगाडि न्यूनीकरण आउँछ। म एउटा incident घोषणा गर्छु, स्पष्ट भूमिकाहरू तोक्छु, र सम्पूर्ण बाटोभरि सञ्चार गर्दै सबैभन्दा छिटो सुरक्षित रिकभरीतर्फ अघि बढ्छु।

## पहिले स्थिर बनाऊ

- **एउटा incident घोषणा गर** र एउटै channel (war room / Slack thread) खोल ताकि समन्वय छरिएको नहोस्।
- **भूमिकाहरू तोक**: निर्णय गर्न एक **Incident Commander**, stakeholder लाई अपडेट गर्न एक **comms owner**, र अनुसन्धान गर्न **responder** हरू। Tech Lead को रूपमा म प्रायः IC लिन्छु ताकि इन्जिनियरहरू समस्यामा केन्द्रित हुन सकून्।
- **सबैभन्दा छिटो उल्टाउन सकिने fix तर्फ पुग।** यदि कुनै deploy outage सँग सम्बन्धित छ भने, पहिले **rollback** गर र प्रश्न पछि सोध — प्रयोगकर्ता पुनर्स्थापना गर्नु सही हुनुभन्दा राम्रो हो।

## समानान्तर रूपमा निदान गर

- **स्पष्ट संकेतहरू** जाँच गर: dashboard, error rate, हालैका deploy, infra परिवर्तन, traffic spike, म्याद सकिएका cert।
- एउटा परिकल्पना बनाऊ, सबैभन्दा सस्तोलाई पहिले परीक्षण गर, र **एकैचोटि पाँचवटा कुरा परिवर्तन गर्नबाट बच** — के काम लाग्यो भनी थाहा हुँदैन।

## निरन्तर सञ्चार गर

मौनताले आतंक फैलाउँछ। समाचार नभए पनि म स्थिर लयमा अपडेट पठाउँछु:

```
[14:05] अनुसन्धान गर्दै — checkout ठप्प छ, ~40% प्रयोगकर्ता प्रभावित। अर्को अपडेट 14:20।
[14:20] पहिचान भयो: खराब deploy। अहिले rollback गर्दैछौं। ETA 10 मिनेट।
[14:35] सेवा पुनर्स्थापना भयो। निगरानी गर्दै। Postmortem आउँदैछ।
```

## रिकभरीपछि

- पूर्ण रिकभरी पुष्टि गर, "राम्रो देखिन्छ" मात्र होइन।
- केही दिनभित्र **blameless postmortem** चलाऊ: timeline, मूल कारण, के कारणले पत्ता लगाउन/ठीक गर्न ढिलो भयो, र **owner सहितका ठोस action item हरू**।
- नतिजा भनेको प्रणालीगत सुधार (राम्रा alert, guardrail, rollback automation) हो — दोष दिने नाम होइन।

## जोखिमहरू

- प्रयोगकर्ताहरू कष्टमा हुँदा **न्यूनीकरण गर्नुअघि debug गर्नु**।
- **एउटै निर्णयकर्ता नहुनु**, जसले गर्दा पाँच जनाले समानान्तर रूपमा अनुमान गर्छन्।
- stakeholder हरूसँग **सम्पर्कविहीन हुनु**।
- **व्यक्तिहरूलाई दोष दिनु**, जसले भविष्यका incident हरू निर्भर रहने इमानदारीलाई मार्छ।

## यो किन महत्त्वपूर्ण छ

Outage अनिवार्य छन्; तपाईंले तिनलाई कसरी चलाउनुहुन्छ भन्ने कुराले टीमको विश्वास र ग्राहकको आत्मविश्वास परिभाषित गर्छ। शान्त, भूमिका-आधारित समन्वय र blameless follow-up ले खराब दिनलाई बलियो प्रणालीमा बदल्छ — र यसले तपाईंका इन्जिनियरहरूलाई संकेत दिन्छ कि छिटो अघि बढ्नु सुरक्षित छ किनभने असफलतालाई witch hunt होइन, एउटा प्रक्रियाको रूपमा सम्हालिन्छ।