Làm sao phát hiện vấn đề trước khi user phàn nàn?

Question

Accepted Answer

Mục tiêu là bắt vấn đề **trước khi page** — tìm ra suy giảm khi vẫn còn dư địa để hấp thụ nó. Điều đó nghĩa là theo dõi **chỉ báo sớm (leading indicators)**, định nghĩa **SLO kèm error budget**, và chủ động dò hệ thống thay vì chờ nó fail.

## SLO và error budget

Một **SLO** biến reliability thành một con số (vd. 99.9% request thành công). Phần 0.1% còn lại là **error budget** của bạn. Theo dõi **burn rate** cho phép bạn alert khi đang tiêu budget quá nhanh — từ rất lâu trước khi bạn thực sự phá vỡ SLO và user nhận ra.

```text
SLO 99.9% → 0.1% error budget/tháng (~43 phút downtime)
burn rate tăng nhanh → bạn sẽ cạn nó trong 2 ngày → alert NGAY, khi còn sửa được
```

## Dò chủ động, không chỉ metrics thụ động

```text
SYNTHETIC MONITORING  kiểm tra theo kịch bản chạy các đường quan trọng theo lịch
                      (login, checkout) → fail kể cả lúc 3 giờ sáng không có traffic thật
HEALTH CHECKS         endpoint /healthz + kiểm tra dependency → load balancer
                      rút các instance hỏng trước khi user chạm tới
RUM (real-user mon.)  đo latency/errors từ trình duyệt/thiết bị thật →
                      bắt vấn đề chỉ một số user/vùng thấy
```

Synthetic monitoring mạnh vì nó không chờ user — nó liên tục vận hành hệ thống, nên một checkout hỏng được tìm thấy lúc 3 giờ sáng, không phải khi đợt cao điểm buổi sáng phàn nàn.

## Chỉ báo sớm và xu hướng

Dấu hiệu sớm nhất nằm ở tài nguyên, chưa phải ở lỗi hướng người dùng. Alert trên **xu hướng**, không chỉ một đường tĩnh.

```text
LEADING INDICATORS   saturation (CPU/mem leo), queue depth tăng,
                     connection-pool gần giới hạn, latency BÒ lên
ANOMALY DETECTION    đánh dấu sai lệch khỏi baseline bình thường / tính mùa vụ
TREND ALERTS         "disk sẽ đầy trong 4h với tốc độ này" → hành động trước khi đầy
```

Một p99 tăng chậm hay một queue đang phình là một phát súng cảnh báo: bằng cách hành động với sự bò lên đó, bạn ngăn outage mà sự bò lên đang hướng tới.

## Tại sao điều này quan trọng

Monitoring phản ứng nghĩa là user chính là hệ thống alert của bạn — đến lúc họ phàn nàn, sự cố đã đang diễn ra và error budget đã tiêu hết. Phát hiện chủ động (SLO burn rate, synthetics, health checks, RUM, leading indicators, trend/anomaly alert) mua thời gian dẫn trước: bạn sửa một queue đang saturate hay một latency đang bò trước khi nó thành một page lúc 2 giờ sáng và một khách hàng giận dữ. Thời gian dẫn trước đó là khác biệt giữa một bản sửa âm thầm và một outage.