كيف تقود فريقك أثناء حادثة الإنتاج؟

Question

Accepted Answer

أثناء الحادثة، عملك هو **استعادة الخدمة بهدوء وتنسيق الاستجابة**، وليس أن تكون البطل الذي يصلحها بمفرده. الأدوار الواضحة والتواصل الهادئ والتركيز على التخفيف أولاً هي ما تميز الاستجابة السلسة عن الفوضى.

## كيفية إدارة حادثة

```text
1. ASSIGN roles — incident commander (coordinates), responders (fix),
   comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
   before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
```

## تخفيف المشكلة قبل التشخيص

الرغبة في إيجاد السبب الجذري قوية، لكن قاومها. إذا كان التراجع يستعيد الخدمة، افعل ذلك *أولاً*، ثم حقق بهدوء عندما تكون الضغوط أخف. يهتم المستخدمون برفع العوائق، وليس بتشخيصك.

## مثال عملي

عملية نشر تعطل عملية الدفع. لا تحاول تصحيح الأخطاء في الكود الجديد مباشرة تحت الضغط. تراجع فوراً، تأكد من أن عملية الدفع تعمل، انشر تحديثاً، *ثم* حقق في عملية النشر السيئة في ظروف هادئة.

## فخ شائع

تقرير مراجعة لاحق يوزع اللوم يعلم الناس إخفاء المشاكل. حافظ على جو خالٍ من اللوم، ركز على الثغرات النظامية (عدم وجود اختبار تدريجي، عدم وجود تنبيه) التي سمحت بحدوثها.

## لماذا هذا مهم

الحوادث عالية الضغط والرؤية، وكيفية قيادتك تؤثر على النتيجة وثقة الفريق بك.

التنسيق الهادئ والتعلم بدون لوم يحول انقطاع الخدمة إلى نظام يصعب كسره في المرة القادمة.