آپ کی production website ابھی بند ہو گئی۔ آپ اسے کیسے سنبھالتے ہیں؟

Question

Accepted Answer

پہلی ترجیح ہے **سروس بحال کریں، پھر وجہ تلاش کریں** — تشخیص سے پہلے تخفیف آتی ہے۔ میں ایک incident کا اعلان کروں گا، واضح کردار تفویض کروں گا، اور پورے راستے میں رابطہ رکھتے ہوئے تیز ترین محفوظ بحالی کی طرف بڑھوں گا۔

## پہلے مستحکم کریں

- **ایک incident کا اعلان کریں** اور ایک واحد چینل کھولیں (war room / Slack thread) تاکہ ہم آہنگی بکھری ہوئی نہ ہو۔
- **کردار تفویض کریں**: فیصلے کرنے کے لیے ایک **Incident Commander**، stakeholders کو اپ ڈیٹ کرنے کے لیے ایک **comms owner**، اور تفتیش کے لیے **responders**۔ بطور Tech Lead میں اکثر IC کا کردار لیتا ہوں تاکہ انجینئر مسئلے پر توجہ دے سکیں۔
- **تیز ترین قابلِ واپسی fix تک پہنچیں۔** اگر کوئی deploy outage سے منسلک ہے، تو پہلے **roll back** کریں اور سوال بعد میں پوچھیں — صارفین کو بحال کرنا درست ثابت ہونے سے بہتر ہے۔

## متوازی طور پر تشخیص کریں

- **واضح اشاروں** کو دیکھیں: dashboards، error rates، حالیہ deploys، infra تبدیلیاں، traffic spikes، expired certs۔
- ایک مفروضہ بنائیں، پہلے سب سے سستے کو آزمائیں، اور **ایک ساتھ پانچ چیزیں بدلنے سے بچیں** — آپ کو پتہ نہیں چلے گا کہ کیا کارگر ہوا۔

## مسلسل رابطہ کریں

خاموشی گھبراہٹ پیدا کرتی ہے۔ میں ایک مستحکم تال میل پر اپ ڈیٹ بھیجتا ہوں چاہے کوئی نئی خبر نہ ہو:

```
[14:05] تفتیش جاری — checkout بند ہے، ~40% صارفین متاثر۔ اگلی اپ ڈیٹ 14:20۔
[14:20] شناخت ہو گئی: خراب deploy۔ اب roll back کر رہے ہیں۔ ETA 10 منٹ۔
[14:35] سروس بحال۔ نگرانی جاری۔ Postmortem آئے گا۔
```

## بحالی کے بعد

- مکمل بحالی کی تصدیق کریں، صرف "یہ بہتر لگتا ہے" نہیں۔
- چند دنوں کے اندر ایک **blameless postmortem** چلائیں: timeline، root cause، کس چیز نے اسے detect/fix کرنے میں سست بنایا، اور **مالکان کے ساتھ ٹھوس action items**۔
- نتیجہ نظامی بہتری ہے (بہتر alerts، guardrails، rollback automation) — نہ کہ الزام دینے کے لیے کوئی نام۔

## نقصانات

- جب صارفین تکلیف میں ہوں تب **تخفیف سے پہلے debugging**۔
- **کوئی واحد فیصلہ ساز نہیں**، اس لیے پانچ لوگ متوازی اندازے لگاتے ہیں۔
- stakeholders پر **خاموش ہو جانا**۔
- **افراد پر الزام لگانا**، جو اس ایمانداری کو ختم کرتا ہے جس پر مستقبل کے incidents کا انحصار ہے۔

## یہ کیوں اہم ہے

Outages ناگزیر ہیں؛ آپ انہیں کیسے چلاتے ہیں یہ ٹیم کے اعتماد اور صارف کے بھروسے کی تعریف کرتا ہے۔ پُرسکون، کردار پر مبنی ہم آہنگی کے ساتھ blameless follow-up ایک برے دن کو ایک مضبوط سسٹم میں بدل دیتا ہے — اور آپ کے انجینئرز کو اشارہ دیتا ہے کہ تیزی سے آگے بڑھنا محفوظ ہے کیونکہ ناکامی کو ایک عمل کے طور پر سنبھالا جاتا ہے، نہ کہ ڈائن کے شکار کے طور پر۔