पहिले प्राधान्य सेवा पुनर्संचयित करा, मग कारण शोधा — निदानाआधी निवारण येते. मी एक incident घोषित करेन, स्पष्ट भूमिका नेमेन, आणि संपूर्ण मार्गभर संवाद साधत सर्वात जलद सुरक्षित पुनर्प्राप्तीकडे वाटचाल करेन.
पहिले प्राधान्य सेवा पुनर्संचयित करा, मग कारण शोधा — निदानाआधी निवारण येते. मी एक incident घोषित करेन, स्पष्ट भूमिका नेमेन, आणि संपूर्ण मार्गभर संवाद साधत सर्वात जलद सुरक्षित पुनर्प्राप्तीकडे वाटचाल करेन.
शांतता घबराट निर्माण करते. कोणतीही बातमी नसली तरीही मी स्थिर लयीत अद्यतने पाठवतो:
[14:05] तपास सुरू — checkout बंद आहे, ~40% वापरकर्ते प्रभावित. पुढील अद्यतन 14:20.
[14:20] ओळखले: चुकीचे deploy. आता rollback करत आहे. ETA 10 मिनिटे.
[14:35] सेवा पुनर्संचयित. निरीक्षण सुरू. Postmortem नंतर येईल.
Outages अटळ आहेत; तुम्ही ते कसे हाताळता हे team चा विश्वास आणि ग्राहकांचा आत्मविश्वास परिभाषित करते. शांत, भूमिका-आधारित समन्वय आणि blameless पाठपुरावा एका वाईट दिवसाचे एका अधिक मजबूत प्रणालीत रूपांतर करतो — आणि तुमच्या engineers ना संकेत देतो की वेगाने पुढे जाणे सुरक्षित आहे कारण अपयश एका प्रक्रियेसारखे हाताळले जाते, चेटकीण-शोधासारखे नाही.