أثناء الحادثة، عملك هو استعادة الخدمة بهدوء وتنسيق الاستجابة، وليس أن تكون البطل الذي يصلحها بمفرده. الأدوار الواضحة والتواصل الهادئ والتركيز على التخفيف أولاً هي ما تميز الاستجابة السلسة عن الفوضى.
كيفية إدارة حادثة
1. ASSIGN roles — incident commander (coordinates), responders (fix),
comms (updates stakeholders). One person can't do all three.
2. MITIGATE first — stop the bleeding (roll back, feature-flag off)
before chasing root cause.
3. COMMUNICATE on a cadence — even "still investigating" every 15-30 min.
4. STAY CALM — the team mirrors your energy. Blame comes later, or never.
5. After: BLAMELESS post-mortem — fix the system, not the person.
تخفيف المشكلة قبل التشخيص
الرغبة في إيجاد السبب الجذري قوية، لكن قاومها. إذا كان التراجع يستعيد الخدمة، افعل ذلك ، ثم حقق بهدوء عندما تكون الضغوط أخف. يهتم المستخدمون برفع العوائق، وليس بتشخيصك.
