rate limiting कहाँ और कैसे configure करते हैं?

Question

Accepted Answer

Rate limiting यह सीमित करता है कि एक client किसी समय-window में कितनी requests कर सकता है। आप इसे **कई layers** पर लागू करते हैं क्योंकि हर layer कुछ अलग देखती है, और आप इसे **जो भी दुरुपयोगकर्ता की पहचान करता है** उससे key करते हैं।

## इसे कहाँ configure करें

- **Edge / CDN** — पहली पंक्ति, traffic के आप तक पहुँचने से पहले। लागू करना सबसे सस्ता (attacker आपके origin को कभी छूता ही नहीं) पर मोटा-मोटी, आमतौर पर IP से keyed।
- **Reverse proxy** (nginx, Envoy) — CDN को पार करने वाले floods से origin की रक्षा करता है, zones और bursts पर सूक्ष्म नियंत्रण के साथ।
- **Application layer** — सबसे समझदार layer: यह **user, API key, या token** जानती है, इसलिए यह per-account quotas लागू कर सकती है और महंगे business operations की रक्षा कर सकती है जिन्हें एक proxy नहीं देख सकता।

## कैसे key करें और आकार दें

- **Key by** IP (anonymous), API key (partners), या authenticated user (per-account fairness)।
- **Token bucket बनाम leaky bucket** — token bucket tokens जमा करके छोटे **bursts** की अनुमति देता है, फिर स्थिर हो जाता है; leaky bucket एक स्थिर rate तक smooth कर देता है। अधिकांश APIs token bucket चाहते हैं ताकि वैध bursts दंडित न हों।
- **baseline + headroom से limits चुनें** — प्रति client सामान्य peak मापें, फिर cap को उससे आराम से ऊपर सेट करें ताकि वास्तविक users उस तक कभी न पहुँचें।
- **`429 Too Many Requests` को `Retry-After` के साथ लौटाएँ** ताकि clients हथौड़े चलाने के बजाय शालीनता से पीछे हटें।

## उदाहरण: nginx limit_req

```nginx
# Define a shared-memory zone keyed by client IP.
# rate=10r/s = the steady refill rate (token bucket).
limit_req_zone $binary_remote_addr zone=api:10m rate=10r/s;

server {
    location /api/ {
        # burst=20: allow a short spike of 20 queued requests
        # nodelay: serve the burst immediately instead of spacing it out
        limit_req zone=api burst=20 nodelay;

# Return 429 (not the default 503) so clients see a rate-limit signal
        limit_req_status 429;

proxy_pass http://backend;
    }
}
```

यहाँ प्रत्येक IP 10 requests/second की दर से refill होता है, 20 तक burst कर सकता है, और उससे ज़्यादा कुछ भी `429` पाता है।

## यह क्यों महत्वपूर्ण है

Rate limiting Layer 7 floods, credential stuffing, और बेकाबू scrapers के विरुद्ध आपकी सबसे सस्ती, हमेशा-चालू रक्षा है। इसे layer करना (मात्रा के लिए edge, origin के लिए proxy, business logic के लिए app) और सही ढंग से key करना दुरुपयोगकर्ताओं को रोकता है जबकि वास्तविक users — और वैध bursts — बिना रुके गुज़र जाते हैं। वास्तविक baselines से limits सेट करना ही इसे आपके अपने बनाए outage बनने से बचाता है।