Mục tiêu là bắt vấn đề trước khi page — tìm ra suy giảm khi vẫn còn dư địa để hấp thụ nó. Điều đó nghĩa là theo dõi chỉ báo sớm (leading indicators), định nghĩa SLO kèm error budget, và chủ động dò hệ thống thay vì chờ nó fail.
Mục tiêu là bắt vấn đề trước khi page — tìm ra suy giảm khi vẫn còn dư địa để hấp thụ nó. Điều đó nghĩa là theo dõi chỉ báo sớm (leading indicators), định nghĩa SLO kèm error budget, và chủ động dò hệ thống thay vì chờ nó fail.
Một SLO biến reliability thành một con số (vd. 99.9% request thành công). Phần 0.1% còn lại là error budget của bạn. Theo dõi burn rate cho phép bạn alert khi đang tiêu budget quá nhanh — từ rất lâu trước khi bạn thực sự phá vỡ SLO và user nhận ra.
SLO 99.9% → 0.1% error budget/tháng (~43 phút downtime)
burn rate tăng nhanh → bạn sẽ cạn nó trong 2 ngày → alert NGAY, khi còn sửa được
SYNTHETIC MONITORING kiểm tra theo kịch bản chạy các đường quan trọng theo lịch
(login, checkout) → fail kể cả lúc 3 giờ sáng không có traffic thật
HEALTH CHECKS endpoint /healthz + kiểm tra dependency → load balancer
rút các instance hỏng trước khi user chạm tới
RUM (real-user mon.) đo latency/errors từ trình duyệt/thiết bị thật →
bắt vấn đề chỉ một số user/vùng thấy
Synthetic monitoring mạnh vì nó không chờ user — nó liên tục vận hành hệ thống, nên một checkout hỏng được tìm thấy lúc 3 giờ sáng, không phải khi đợt cao điểm buổi sáng phàn nàn.
Dấu hiệu sớm nhất nằm ở tài nguyên, chưa phải ở lỗi hướng người dùng. Alert trên xu hướng, không chỉ một đường tĩnh.
LEADING INDICATORS saturation (CPU/mem leo), queue depth tăng,
connection-pool gần giới hạn, latency BÒ lên
ANOMALY DETECTION đánh dấu sai lệch khỏi baseline bình thường / tính mùa vụ
TREND ALERTS "disk sẽ đầy trong 4h với tốc độ này" → hành động trước khi đầy
Một p99 tăng chậm hay một queue đang phình là một phát súng cảnh báo: bằng cách hành động với sự bò lên đó, bạn ngăn outage mà sự bò lên đang hướng tới.
Monitoring phản ứng nghĩa là user chính là hệ thống alert của bạn — đến lúc họ phàn nàn, sự cố đã đang diễn ra và error budget đã tiêu hết. Phát hiện chủ động (SLO burn rate, synthetics, health checks, RUM, leading indicators, trend/anomaly alert) mua thời gian dẫn trước: bạn sửa một queue đang saturate hay một latency đang bò trước khi nó thành một page lúc 2 giờ sáng và một khách hàng giận dữ. Thời gian dẫn trước đó là khác biệt giữa một bản sửa âm thầm và một outage.