Cấu hình rate limiting ở đâu và như thế nào?

Question

Accepted Answer

Rate limiting giới hạn số request một client có thể thực hiện trong một cửa sổ thời gian. Bạn áp dụng nó ở **nhiều lớp** vì mỗi lớp thấy một thứ khác nhau, và bạn key nó theo **bất cứ thứ gì định danh kẻ lạm dụng**.

## Cấu hình ở đâu

- **Edge / CDN** — tuyến đầu, trước khi traffic chạm tới bạn. Rẻ nhất để thực thi (kẻ tấn công không bao giờ chạm origin của bạn) nhưng thô, thường key theo IP.
- **Reverse proxy** (nginx, Envoy) — bảo vệ origin khỏi các đợt flood lọt qua CDN, với kiểm soát tinh vi về zone và burst.
- **Tầng ứng dụng** — lớp thông minh nhất: nó biết **user, API key, hay token**, nên có thể áp hạn mức theo từng tài khoản và bảo vệ các thao tác nghiệp vụ tốn kém mà proxy không thấy được.

## Cách key và định hình

- **Key theo** IP (ẩn danh), API key (đối tác), hoặc user đã xác thực (công bằng theo từng tài khoản).
- **Token bucket vs leaky bucket** — token bucket cho phép **burst** ngắn bằng cách tích lũy token rồi ổn định lại; leaky bucket làm mượt về một tốc độ không đổi. Hầu hết API muốn token bucket để không phạt các burst hợp lệ.
- **Chọn giới hạn từ baseline + headroom** — đo đỉnh bình thường của mỗi client, rồi đặt mức trần thoải mái cao hơn nó để user thật không bao giờ chạm tới.
- **Trả về `429 Too Many Requests` kèm `Retry-After`** để client lùi lại lịch sự thay vì đập liên tục.

## Ví dụ: nginx limit_req

```nginx
# Định nghĩa một zone bộ nhớ chia sẻ key theo IP client.
# rate=10r/s = tốc độ nạp lại ổn định (token bucket).
limit_req_zone $binary_remote_addr zone=api:10m rate=10r/s;

server {
    location /api/ {
        # burst=20: cho phép một đợt tăng ngắn gồm 20 request xếp hàng
        # nodelay: phục vụ burst ngay lập tức thay vì giãn cách ra
        limit_req zone=api burst=20 nodelay;

# Trả về 429 (không phải 503 mặc định) để client thấy tín hiệu rate-limit
        limit_req_status 429;

proxy_pass http://backend;
    }
}
```

Ở đây mỗi IP nạp lại ở 10 request/giây, có thể burst lên tới 20, và bất cứ gì vượt quá sẽ nhận một `429`.

## Tại sao điều này quan trọng

Rate limiting là phòng thủ rẻ nhất, luôn bật của bạn chống lại các Layer 7 flood, credential stuffing, và scraper mất kiểm soát. Phân lớp nó (edge cho thể tích, proxy cho origin, app cho logic nghiệp vụ) và key nó đúng cách sẽ chặn kẻ lạm dụng trong khi user thật — và các burst hợp lệ — đi qua nguyên vẹn. Đặt giới hạn từ baseline thật là điều giữ cho nó không trở thành một sự cố do chính bạn gây ra.