آپ انفرادی سروسز کو کیسے Scale کرتے ہیں اور Performance Bottlenecks کو کیسے تلاش کرتے ہیں؟

Question

Accepted Answer

Microservices کا ایک کلیدی فائدہ یہ ہے کہ **ہر سروس کو آزادانہ طور پر Scale کیا جا سکتا ہے** اپنے سوچے ہوئے Load سے ملانے کے لیے، بجائے پوری ایپلیکیشن کو Scale کرنے کے۔ Bottlenecks تلاش کرنا پھر ہر سروس اور ہر hop کی پیمائش کا معاملہ ہے۔

## Scaling کی تکنیکیں

- **Horizontal scaling** — load balancer کے پیچھے stateless instances شامل کریں۔
- **Autoscaling** — CPU، memory، queue depth، یا custom metrics پر Scale کریں۔
- **Caching** — بار بار کام اور downstream load کو کم کریں۔
- **Async + queues** — spikes کو جذب کریں؛ سست کام کو الگ کریں۔
- **Data scaling** — read replicas، sharding، ہر سروس کے ذخائر۔

```yaml
# Kubernetes HPA: scale orders on CPU
minReplicas: 3
maxReplicas: 20
metric: cpu
targetUtilization: 70   # add pods when avg CPU > 70%
```

## Bottlenecks تلاش کرنا

```text
1. Metrics: which service has high latency / saturation? (RED/USE)
2. Traces: which SPAN in the request is slow?
3. Drill in: DB query? lock? N+1 calls? GC pause?
```

```text
Gateway ──┤ Orders ──┤ Payments ████████████ ← 80% of latency here
                       Inventory ─┤
```

## عام Bottlenecks

```text
⚠️ Chatty synchronous calls (fan-out per request)
⚠️ Shared/overloaded database
⚠️ Missing or cold cache
⚠️ Unbounded retries amplifying load
```

## نقصان

ایک سروس کو Scale کرنا جس کی bottleneck ایک **مشترکہ database** ہے صرف ڈیٹا بیس پر مزید load منتقل کرتا ہے — اصل قید کو Scale کریں، نہ کہ علامت کو۔

## یہ کیوں اہم ہے

آزادانہ Scaling آپ کو صلاحیت کو بالکل وہاں خرچ کرنے دیتا ہے جہاں load ہے، جو ایک monolith کو مجموعی طور پر Scale کرنے سے بہت سستا ہے۔

لیکن بغیر سوچ سمجھے Scaling رقم ضائع کرتا ہے اور چیزوں کو خراب ہو سکتا ہے؛ ہر سروس کی metrics اور ہر hop کی traces کی پیمائش کرنا ہی بتاتا ہے کہ اصل قید کیا ہے جسے ٹھیک کرنا ہے۔