آپ ایسے نظام کو کیسے ڈیزائن کرتے ہیں جو ناکامیوں کو شائستگی سے سنبھالیں؟

Question

Accepted Answer

بڑے پیمانے پر، **ناکامیاں ناگزیر ہیں** — سرورز کریش ہوتے ہیں، نیٹ ورکس ناکام ہوتے ہیں، منحصر خدمات دستیاب نہیں رہتی۔ ناکامی کے لیے ڈیزائن کرنا کا مطلب ایسے نظام بنانا ہے جو **ناکامیوں کو برداشت کرے اور ان سے شائستگی سے بحال ہو** بجائے یہ فرض کرنے کے کہ سب کچھ کام کرتا ہے۔ یہ قابل اعتماد نظاموں کے لیے ضروری ہے۔

## ناکامی کے لیے ڈیزائن (ذہن کی حالت)

```text
ASSUME things WILL fail → at scale, failures are NORMAL, not exceptional:
  → servers crash, networks partition, disks fail, dependencies go down, traffic spikes
  → design systems to EXPECT and HANDLE failures gracefully (not assume everything works)
→ "everything fails all the time" → build resilience in.
```

## لچکدار تکنیکیں

```text
✓ REDUNDANCY → multiple instances, no single point of failure (failover to healthy ones)
✓ RETRIES (with backoff) → retry transient failures (with exponential backoff + jitter to
  avoid overwhelming a recovering service)
✓ TIMEOUTS → don't wait forever for a failing dependency (fail fast)
✓ CIRCUIT BREAKERS → stop calling a failing service temporarily (prevent cascading failures;
  give it time to recover) → fail fast and fall back
✓ GRACEFUL DEGRADATION → reduced functionality vs total failure (e.g. show cached/partial
  data if a service is down)
✓ FALLBACKS → a default/alternative when something fails
✓ BULKHEADS / isolation → contain failures (one part failing doesn't sink everything)
```

## آبی ہار والی ناکامیوں سے بچاؤ

```text
⚠️ CASCADING failures → one failure triggers others (e.g. a slow service exhausts callers'
  resources → they fail too → spreads)
→ prevent with: timeouts, circuit breakers, isolation/bulkheads, load shedding, backpressure
✓ MONITORING/alerting → detect failures fast; test failure scenarios (chaos engineering)
```

## یہ اہم کیوں ہے

سمجھنا کہ ناکامیوں کو شائستگی سے سنبھالنے والے نظام کو کیسے ڈیزائن کیا جائے یہ قیمتی ہے کیونکہ **بڑے پیمانے پر ناکامیاں ناگزیر ہیں**، اور ان کے لیے ڈیزائن کرنا قابل اعتماد نظاموں کے لیے ضروری ہے، اس لیے یہ اہم نظام ڈیزائن کی معلومات ہے۔

بنیادی ذہن کی حالت — **یہ فرض کرنا کہ چیزیں ناکام ہوں گی** (کیونکہ بڑے پیمانے پر، ناکامیاں عام ہیں، غیر معمولی نہیں — سرورز کریش ہوتے ہیں، نیٹ ورکس الگ ہوتے ہیں، منحصر خدمات ختم ہو جاتی ہیں) اور نظاموں کو ڈیزائن کرنا تاکہ وہ ناکامیوں کی توقع رکھیں اور انہیں شائستگی سے سنبھالیں بجائے یہ فرض کرنے کے کہ سب کچھ کام کرتا ہے — قابل اعتماد نظاموں کی تعمیر کی بنیاد ہے، اس اصول میں قید کہ "سب کچھ ہر وقت ناکام ہوتا ہے۔" سمجھنا کہ **لچکدار تکنیکیں** کیا ہیں یہ اہم عملی معلومات ہے: **ازدواجی نقل** (کوئی واحد نقطہ ناکامی نہیں)، **دوبارہ کوشش اور تاخیر کے ساتھ** (عارضی ناکامیوں کو سنبھالنا، کفایت کے ساتھ اور بے ترتیبی کے ساتھ تاکہ بحال ہونے والی خدمات کو بھاری بوجھ نہ پڑے)، **وقت کی حد** (ہمیشہ کے انتظار کے بجائے جلدی ناکام ہونا)، **سرکٹ بریکرز** (ناکام خدمت کو کالز روکنا تاکہ آبی ہار والی ناکامیوں سے بچا جائے اور اسے بحال ہونے کا موقع دیا جائے)، **خوبصورت کمی** (مکمل ناکامی کے بجائے کم فعالیت، جیسے محفوظ ڈیٹا دکھانا)، **متبادل منصوبے**، اور **بلک ہیڈز/علیحدگی** (ناکامیوں کو روکنا)۔

یہ تکنیکیں یہ ہیں کہ نظام ناگزیر ناکامیوں کو برداشت کرتے ہیں اور ان سے بحال ہوتے ہیں۔

سمجھنا کہ **آبی ہار والی ناکامیوں سے کیسے بچا جائے** — جہاں ایک ناکامی دوسری کو متحرک کرے (ایک سست خدمت کالرز کے وسائل ختم کرتی ہے، ناکامی پھیلاتی ہے)، وقت کی حد، سرکٹ بریکرز، علیحدگی، بوجھ بہانا، اور پس دباؤ سے روکا جاتا ہے — خاص طور پر اہم ہے، کیونکہ آبی ہار والی ناکامیاں چھوٹے مسائل کو بڑے ناکام حالات میں تبدیل کرتی ہیں۔

نگرانی اور ناکامی کے منظرناموں کی جانچ (chaos engineering) کا کردار سمجھنا تصویر کو مکمل کرتا ہے۔

کیونکہ بڑے پیمانے پر ناکامیاں ناگزیر ہیں اور ان کے لیے ڈیزائن کرنا (ناکامی کے لیے ڈیزائن کی ذہن کی حالت اور لچکدار تکنیقوں کے ساتھ) قابل اعتماد نظاموں کے لیے ضروری ہے، اور کیونکہ ذہن کی حالت، تکنیقیں، اور آبی ہار والی ناکامی سے بچاؤ سمجھنا مضبوط نظاموں کی تعمیر کے لیے اہم ہے، ناکامی کے لیے ڈیزائن کرنا سمجھنا قیمتی، عملی طور پر اہم نظام ڈیزائن کی معلومات ہے — قابل اعتماد نظام بنانے کے لیے ضروری ہے جو بڑے پیمانے پر ناگزیر ناکامیوں کو برداشت کرتے ہیں، تکثری نقل، دوبارہ کوشش، سرکٹ بریکرز، اور خوبصورت کمی کے ذریعے لچکداری کا مرکزی ہے، اور ناکامی کے لیے ڈیزائن کی ذہن کی حالت کی عکاسی کرتے ہوئے جو مضبوط نظاموں کو نازک لوگوں سے الگ کرتا ہے۔