پہلی ترجیح ہے سروس بحال کریں، پھر وجہ تلاش کریں — تشخیص سے پہلے تخفیف آتی ہے۔ میں ایک incident کا اعلان کروں گا، واضح کردار تفویض کروں گا، اور پورے راستے میں رابطہ رکھتے ہوئے تیز ترین محفوظ بحالی کی طرف بڑھوں گا۔
پہلی ترجیح ہے سروس بحال کریں، پھر وجہ تلاش کریں — تشخیص سے پہلے تخفیف آتی ہے۔ میں ایک incident کا اعلان کروں گا، واضح کردار تفویض کروں گا، اور پورے راستے میں رابطہ رکھتے ہوئے تیز ترین محفوظ بحالی کی طرف بڑھوں گا۔
خاموشی گھبراہٹ پیدا کرتی ہے۔ میں ایک مستحکم تال میل پر اپ ڈیٹ بھیجتا ہوں چاہے کوئی نئی خبر نہ ہو:
[14:05] تفتیش جاری — checkout بند ہے، ~40% صارفین متاثر۔ اگلی اپ ڈیٹ 14:20۔
[14:20] شناخت ہو گئی: خراب deploy۔ اب roll back کر رہے ہیں۔ ETA 10 منٹ۔
[14:35] سروس بحال۔ نگرانی جاری۔ Postmortem آئے گا۔
Outages ناگزیر ہیں؛ آپ انہیں کیسے چلاتے ہیں یہ ٹیم کے اعتماد اور صارف کے بھروسے کی تعریف کرتا ہے۔ پُرسکون، کردار پر مبنی ہم آہنگی کے ساتھ blameless follow-up ایک برے دن کو ایک مضبوط سسٹم میں بدل دیتا ہے — اور آپ کے انجینئرز کو اشارہ دیتا ہے کہ تیزی سے آگے بڑھنا محفوظ ہے کیونکہ ناکامی کو ایک عمل کے طور پر سنبھالا جاتا ہے، نہ کہ ڈائن کے شکار کے طور پر۔