rate limiting을 어떻게 설계하나요?

Question

Accepted Answer

**Rate limiting**은 클라이언트가 시간 창 안에서 할 수 있는 요청 수를 제한합니다 — 시스템을 남용과 과부하로부터 보호하고 공정한 사용을 보장합니다. 여러 알고리즘과 고려사항을 가진 흔한 시스템 디자인 구성 요소입니다.

## rate limiting을 하는 이유

```text
✓ 남용 방지 → 공격(브루트포스, 스크래핑, DoS), 과도한 사용 방지
✓ 과부하 방지 → 시스템이 압도되지 않게 보호 (안정성)
✓ 공정한 사용 → 한 클라이언트가 자원을 독점하지 못하게; 계층별 제한 (무료 vs 유료)
✓ 비용 통제; 다운스트림 서비스 보호
→ API와 서비스의 흔한 요구사항.
```

## rate limiting 알고리즘

```text
FIXED WINDOW → 고정 시간 창마다 요청 카운트 (예: 분당 100); 단순
  ✗ 창 경계에서 버스트 허용 (경계에서 최대 2배)
SLIDING WINDOW → 롤링 시간 창 → 더 부드럽고 경계 버스트 없음 (더 정확)
TOKEN BUCKET → 토큰이 일정 비율로 채워짐; 각 요청이 토큰 소비 → 평균 비율을
  제한하면서 버킷 크기까지 버스트 허용 (인기 있고 유연)
LEAKY BUCKET → 요청이 일정 비율로 처리됨 (출력을 부드럽게)
```

## 구현 고려사항

```text
✓ 분산 → 제한이 서버 간 공유되어야 함 → 중앙 저장소 사용 (REDIS가
  흔함: 원자적 카운터, 빠름, 인스턴스 간 공유)
✓ 클라이언트 식별 → API 키, 사용자 ID, IP로
✓ 명확한 응답 반환 → HTTP 429 (Too Many Requests); limit/retry-after 헤더 포함
✓ 위치 → API gateway, load balancer, 또는 애플리케이션 계층에서
✓ 세분성 → 사용자별, 엔드포인트별, 전역; 다른 계층/제한
```

## 왜 중요한가

rate limiting을 어떻게 설계하는지 이해하는 것은 가치가 있습니다. 시스템을 보호하고 공정한 사용을 보장하는 **흔한 시스템 디자인 구성 요소**이므로 중요한 실용 지식이기 때문입니다.

Rate limiting — 클라이언트가 시간 창 안에서 할 수 있는 요청 수를 제한 — 은 중요한 요구를 해결합니다. **남용 방지**(브루트포스, 스크래핑, DoS 같은 공격 방지), **과부하 방지**(시스템 안정성 보호), **공정한 사용** 보장(클라이언트가 자원을 독점하지 못하게, 무료 vs 유료 같은 계층별 제한 지원), 비용 통제입니다.

이것들이 rate limiting을 API와 서비스의 흔한 요구사항으로 만듭니다.

**알고리즘**과 그 트레이드오프 — **fixed window**(단순하지만 경계 버스트 허용), **sliding window**(더 부드럽고 정확), **token bucket**(평균 비율을 제한하면서 제어된 버스트 허용 — 인기 있고 유연), leaky bucket(출력을 부드럽게) — 을 이해하는 것이 핵심 디자인 지식이며, 올바른 알고리즘 선택이 동작에 영향을 미칩니다.

**구현 고려사항**을 이해하는 것이 특히 중요합니다. **분산 rate limiting**(여러 서버에 공유되는 제한, 빠른 원자적 카운터를 인스턴스 간 공유하기 위해 흔히 **Redis** 사용 — 서버별 제한은 분산 시스템에서 동작하지 않으므로) 처리, 클라이언트 식별(API 키, 사용자, IP로), 명확한 응답 반환(retry-after 헤더가 있는 HTTP 429), 적용 위치 선택(gateway, load balancer, 애플리케이션), 세분성(사용자별, 엔드포인트별, 계층별)입니다.

이것들은 실제 분산 시스템에서 동작하는 rate limiting 설계를 반영합니다.

Rate limiting은 자주 필요한 구성 요소로, 시스템 디자인 논의와 면접에 흔히 등장합니다.

Rate limiting은 시스템을 보호하고(남용과 과부하로부터) 공정한 사용을 보장하는 흔하고 중요한 구성 요소이며, 알고리즘·트레이드오프·특히 분산 구현(Redis를 통한 공유 제한)을 이해하는 것이 이를 잘 설계하는 데 중요하므로, rate limiting을 어떻게 설계하는지 이해하는 것은 가치 있고 실용적으로 관련된 시스템 디자인 지식입니다 — 서비스를 보호하고 공정한 사용을 보장하는 흔한 구성 요소이고, 알고리즘과 분산 구현의 이해를 요구하며, 견고하고 보호된 시스템을 구축하기 위한 시스템 디자인에서 자주 논의되는 주제입니다.