Wie entwirfst du Rate Limiting?

Question

Accepted Answer

**Rate Limiting** beschränkt, wie viele Anfragen ein Client in einem Zeitfenster stellen kann — um Systeme vor Missbrauch zu schützen, Überbelastung zu verhindern und faire Nutzung zu gewährleisten. Es ist ein häufiges System-Design-Komponente mit mehreren Algorithmen und Überlegungen.

## Warum es wichtig ist

```text
✓ PROTECT against abuse → prevent attacks (brute force, scraping, DoS), excessive use
✓ PREVENT OVERLOAD → protect the system from being overwhelmed (stability)
✓ FAIR USAGE → ensure no single client monopolizes resources; tiered limits (free vs paid)
✓ COST control; protect downstream services
→ a common requirement for APIs and services.
```

## Rate-Limiting-Algorithmen

```text
FIXED WINDOW → count requests per fixed time window (e.g. 100/minute); simple
  ✗ allows bursts at window boundaries (up to 2x at the edges)
SLIDING WINDOW → rolling time window → smoother, no boundary bursts (more accurate)
TOKEN BUCKET → tokens refill at a rate; each request takes a token → allows BURSTS up to
  the bucket size while limiting the average rate (popular, flexible)
LEAKY BUCKET → requests processed at a steady rate (smooths output)
```

## Implementierungsüberlegungen

```text
✓ DISTRIBUTED → limits must be shared across servers → use a centralized store (REDIS is
  common: atomic counters, fast, shared across instances)
✓ Identify the client → by API key, user ID, IP
✓ Return clear responses → HTTP 429 (Too Many Requests); include limit/retry-after headers
✓ Where → at the API gateway, load balancer, or application layer
✓ Granularity → per user, per endpoint, global; different tiers/limits
```

## Warum es wichtig ist

Zu verstehen, wie man Rate Limiting entwirft, ist wertvoll, da es eine **häufige System-Design-Komponente** zum Schutz von Systemen und zur Gewährleistung fairer Nutzung ist — deshalb ist es wichtiges praktisches Wissen.

Rate Limiting — die Beschränkung, wie viele Anfragen ein Client in einem Zeitfenster stellen kann — adressiert wichtige Anforderungen: **Schutz vor Missbrauch** (Verhinderung von Angriffen wie Brute Force, Scraping und DoS), **Verhinderung von Überbelastung** (Schutz der Systemstabilität), Sicherung **fairer Nutzung** (kein Client monopolisiert Ressourcen, Unterstützung gestaffelter Limits wie kostenlos vs. bezahlt), und Kostenkontrolle.

Dies macht Rate Limiting zu einer häufigen Anforderung für APIs und Services.

Zu verstehen, welche **Algorithmen** es gibt und ihre Trade-offs — **Fixed Window** (einfach, aber ermöglicht Boundary Bursts), **Sliding Window** (glatter und genauer), **Token Bucket** (ermöglicht kontrollierte Bursts bei Begrenzung der durchschnittlichen Rate — beliebt und flexibel), und Leaky Bucket (glättet die Ausgabe) — ist das Schlüssel-Design-Wissen, da die Wahl des richtigen Algorithmus das Verhalten beeinflusst.

Zu verstehen, welche **Implementierungsüberlegungen** es gibt, ist besonders wichtig: Umgang mit **verteiltem Rate Limiting** (Limits werden über mehrere Server hinweg geteilt, üblicherweise mit **Redis** für schnelle atomare Counter, die über Instanzen geteilt werden — da pro-Server Limits in verteilten Systemen nicht funktionieren), Identifikation von Clients (durch API-Schlüssel, Benutzer oder IP), Rückgabe klarer Responses (HTTP 429 mit Retry-After-Header), Wahl, wo es angewendet wird (Gateway, Load Balancer oder Anwendung), und Granularität (pro Benutzer, pro Endpunkt, gestaffelt).

Dies spiegelt das Design von Rate Limiting wider, das in echten verteilten Systemen funktioniert.

Rate Limiting ist eine häufig benötigte Komponente, die oft in System-Design-Diskussionen und Interviews auftaucht.

Da Rate Limiting eine häufige, wichtige Komponente zum Schutz von Systemen (vor Missbrauch und Überbelastung) und zur Gewährleistung fairer Nutzung ist, und da das Verständnis der Algorithmen, ihrer Trade-offs und besonders der verteilten Implementierung (gemeinsame Limits über Redis) wichtig ist, um es gut zu entwerfen, ist das Verständnis, wie man Rate Limiting entwirft, wertvoll, praktisch relevantes System-Design-Wissen — eine häufige Komponente zum Schutz von Services und zur Gewährleistung fairer Nutzung, erfordert Verständnis der Algorithmen und der verteilten Implementierung, und ein häufig diskutiertes Thema im System Design für die Erstellung robuster, geschützter Systeme.