الأولوية الأولى هي استعادة الخدمة، ثم إيجاد السبب — التخفيف يسبق التشخيص. سأعلن عن incident، وأُسند أدواراً واضحة، وأقود نحو أسرع تعافٍ آمن، مع التواصل طوال الطريق.
الأولوية الأولى هي استعادة الخدمة، ثم إيجاد السبب — التخفيف يسبق التشخيص. سأعلن عن incident، وأُسند أدواراً واضحة، وأقود نحو أسرع تعافٍ آمن، مع التواصل طوال الطريق.
الصمت يولّد الذعر. أرسل تحديثات بإيقاع ثابت حتى عندما لا يوجد جديد:
[14:05] جارٍ التحقيق — الـ checkout متوقف، نحو 40% من المستخدمين متأثرون. التحديث التالي 14:20.
[14:20] تم التحديد: deploy سيئ. جارٍ الـ rollback الآن. الوقت المتوقع 10 دقائق.
[14:35] استُعيدت الخدمة. تحت المراقبة. سيتبع ذلك postmortem.
الـ outages حتمية؛ وطريقة إدارتك لها تحدّد ثقة الفريق وثقة العملاء. التنسيق الهادئ القائم على الأدوار إضافةً إلى المتابعة بلا لوم يحوّلان يوماً سيئاً إلى نظام أقوى — ويُشير إلى مهندسيك بأن من الآمن التحرّك بسرعة لأن الفشل يُعالَج كعملية، لا كمطاردة ساحرات.