كيف تصمم أنظمة تتعامل مع الأخطاء بشكل جميل؟

Question

Accepted Answer

في الأنظمة الكبيرة، **الأخطاء حتمية** — الخوادم تتعطل، الشبكات تفشل، المكتبات الخارجية تصبح غير متاحة. تصميم الأنظمة للتعامل مع الأخطاء يعني بناء أنظمة **تتسامح مع الأخطاء وتتعافى منها بشكل جميل** بدلاً من افتراض أن كل شيء يعمل بشكل صحيح. هذا أمر أساسي للأنظمة الموثوقة.

## التصميم للأخطاء (العقلية)

```text
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
  → servers crash, networks partition, disks fail, dependencies go down, traffic spikes
  → design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
```

## تقنيات المرونة

```text
✓ REDUNDANCY → multiple instances, no single point of failure (failover to healthy ones)
✓ RETRIES (with backoff) → retry transient failures (with exponential backoff + jitter to
  avoid overwhelming a recovering service)
✓ TIMEOUTS → don't wait forever for a failing dependency (fail fast)
✓ CIRCUIT BREAKERS → stop calling a failing service temporarily (prevent cascading failures;
  give it time to recover) → fail fast and fall back
✓ GRACEFUL DEGRADATION → reduced functionality vs total failure (e.g. show cached/partial
  data if a service is down)
✓ FALLBACKS → a default/alternative when something fails
✓ BULKHEADS / isolation → contain failures (one part failing doesn't sink everything)
```

## تجنب الأخطاء المتسلسلة

```text
⚠️ CASCADING failures → one failure triggers others (e.g. a slow service exhausts callers'
  resources → they fail too → spreads)
→ prevent with: timeouts, circuit breakers, isolation/bulkheads, load shedding, backpressure
✓ MONITORING/alerting → detect failures fast; test failure scenarios (chaos engineering)
```

## لماذا يهم هذا الموضوع

فهم كيفية تصميم أنظمة تتعامل مع الأخطاء بشكل جميل قيّم لأن **الأخطاء حتمية في الأنظمة الكبيرة**، والتصميم لها أمر أساسي للأنظمة الموثوقة، لذا فهو معرفة نظام-تصميم مهمة.

العقلية الأساسية — **افتراض أن الأشياء ستفشل** (حيث أنه في الأنظمة الكبيرة، الأخطاء عادية وليست استثنائية — الخوادم تتعطل، الشبكات تنقطع، المكتبات الخارجية تتوقف) وتصميم الأنظمة لتتوقع وتتعامل مع الأخطاء بشكل جميل بدلاً من افتراض أن كل شيء يعمل — هي أساس بناء أنظمة موثوقة، موضحة في المبدأ القائل بأن "كل شيء يفشل طول الوقت." فهم **تقنيات المرونة** هو المعرفة العملية الرئيسية: **التكرار** (عدم وجود نقطة فشل وحيدة)، **إعادة المحاولة مع التراجع** (التعامل مع الأخطاء المؤقتة، مع التراجع الأسي والاضطراب لتجنب إرهاق الخدمات المتعافية)، **المهل الزمنية** (الفشل السريع بدلاً من الانتظار للأبد)، **قواطع الدائرة** (إيقاف الاستدعاءات إلى خدمة فاشلة لمنع الأخطاء المتسلسلة وإتاحة الفرصة للتعافي)، **التدهور الجميل** (وظائف مخفضة بدلاً من الفشل التام، مثل عرض البيانات المخزنة مؤقتاً)، **الحلول البديلة**، و**الفواصل/العزل** (احتواء الأخطاء).

هذه التقنيات هي كيفية تسامح الأنظمة مع الأخطاء التي تحدث حتماً والتعافي منها.

فهم كيفية **تجنب الأخطاء المتسلسلة** — حيث يؤدي فشل واحد إلى فشل آخر (خدمة بطيئة تستنزف موارد المستدعين، مما يجعل الفشل ينتشر)، يتم منعها باستخدام المهل الزمنية وقواطع الدائرة والعزل وتخفيف الحمل والضغط العكسي — مهم بشكل خاص، حيث تحول الأخطاء المتسلسلة المشاكل الصغيرة إلى انقطاعات كبيرة.

فهم دور المراقبة واختبار سيناريوهات الفشل (هندسة الفوضى) يكمل الصورة.

حيث أن الأخطاء حتمية في الأنظمة الكبيرة والتصميم لها (مع عقلية التصميم للأخطاء وتقنيات المرونة) أمر أساسي للأنظمة الموثوقة، وحيث أن فهم العقلية والتقنيات ومنع الأخطاء المتسلسلة مهم لبناء أنظمة قوية، فهم كيفية التصميم للأخطاء معرفة نظام-تصميم قيّمة وعملياً مهمة — أساسية لبناء أنظمة موثوقة تتسامح مع الأخطاء الحتمية في الأنظمة الكبيرة، مركزية للمرونة من خلال التكرار وإعادة المحاولة وقواطع الدائرة والتدهور الجميل، وتعكس عقلية التصميم للأخطاء التي تميز الأنظمة القوية عن الأنظمة الهشة.