Observability là khả năng hiểu được trạng thái nội tại của một hệ thống từ các đầu ra bên ngoài của nó — qua logs, metrics và traces. Nó thiết yếu để vận hành, debug và bảo trì hệ thống (đặc biệt là hệ thống phân tán), nơi bạn không thể quản lý cái bạn không thấy.
Ba trụ cột của observability
LOGS → bản ghi có timestamp của các sự kiện (điều gì đã xảy ra) → chi tiết, để debug vấn đề cụ thể
METRICS → các đo lường số theo thời gian (CPU, latency, request rate, error rate) →
sức khỏe/performance tổng hợp; dashboard; alerting
TRACES → theo dõi đường đi của một request xuyên hệ thống (qua các service) → hiểu luồng,
tìm bottleneck/lỗi trong hệ thống PHÂN TÁN (service nào chậm?)
→ cùng nhau: hiểu CÁI GÌ đã xảy ra, trạng thái TỔNG THỂ, và ĐƯỜNG ĐI của request.
