Đánh giá các model ML có nghĩa là đo lường chúng hoạt động tốt đến đâu — dùng các metric phù hợp (accuracy, precision, recall, v.v.) trên dữ liệu test mà model chưa thấy. Đánh giá đúng cách là thiết yếu để biết liệu một model có thực sự hoạt động và đáng tin cậy hay không.
Đánh giá trên dữ liệu chưa thấy
→ đánh giá trên một tập TEST mà model KHÔNG huấn luyện trên đó → đo TỔNG QUÁT HÓA (hiệu suất thực)
→ chỉ độ chính xác training là gây hiểu lầm (một model có thể ghi nhớ dữ liệu training)
→ chia train/validation/test; cross-validation → ước lượng hiệu suất đáng tin cậy
