Overfitting (model ghi nhớ dữ liệu training và thất bại trên dữ liệu mới) và underfitting (model quá đơn giản để nắm bắt các mẫu) là hai vấn đề cơ bản trong ML. Cân bằng chúng — đạt được tổng quát hóa tốt — là trung tâm của việc xây dựng các model hiệu quả.
Overfitting so với underfitting
OVERFITTING → model học dữ liệu training QUÁ tốt (bao gồm cả nhiễu) →
→ hoạt động tuyệt vời trên dữ liệu training nhưng KÉM trên dữ liệu mới/chưa thấy (không tổng quát hóa)
→ quá phức tạp; ghi nhớ thay vì học các mẫu tổng quát
→ giống như học thuộc đáp án thay vì hiểu khái niệm
UNDERFITTING → model QUÁ ĐƠN GIẢN để nắm bắt các mẫu cơ bản →
→ hoạt động kém trên CẢ dữ liệu training và dữ liệu mới
→ không đủ độ phức tạp/dung lượng để học các mẫu
→ mục tiêu là GENERALIZATION: học các mẫu thực → hoạt động tốt trên dữ liệu MỚI
