Overfitting và underfitting là gì?

Question

Accepted Answer

**Overfitting** (model ghi nhớ dữ liệu training và thất bại trên dữ liệu mới) và **underfitting** (model quá đơn giản để nắm bắt các mẫu) là hai vấn đề cơ bản trong ML. Cân bằng chúng — đạt được tổng quát hóa tốt — là trung tâm của việc xây dựng các model hiệu quả.

## Overfitting so với underfitting

```text
OVERFITTING → model học dữ liệu training QUÁ tốt (bao gồm cả nhiễu) →
  → hoạt động tuyệt vời trên dữ liệu training nhưng KÉM trên dữ liệu mới/chưa thấy (không tổng quát hóa)
  → quá phức tạp; ghi nhớ thay vì học các mẫu tổng quát
  → giống như học thuộc đáp án thay vì hiểu khái niệm
UNDERFITTING → model QUÁ ĐƠN GIẢN để nắm bắt các mẫu cơ bản →
  → hoạt động kém trên CẢ dữ liệu training và dữ liệu mới
  → không đủ độ phức tạp/dung lượng để học các mẫu
→ mục tiêu là GENERALIZATION: học các mẫu thực → hoạt động tốt trên dữ liệu MỚI
```

## Nhận biết chúng

```text
→ OVERFITTING → độ chính xác training cao, độ chính xác test THẤP (chênh lệch lớn)
→ UNDERFITTING → độ chính xác training VÀ test đều THẤP (kém toàn diện)
→ KHỚP TỐT → độ chính xác training VÀ test đều tốt (tổng quát hóa tốt)
→ chênh lệch hiệu suất giữa train và test cho thấy overfitting
```

## Xử lý chúng

```text
OVERFITTING → đơn giản hóa hoặc regularize:
  → thêm DỮ LIỆU training; REGULARIZATION (phạt độ phức tạp); model đơn giản hơn; dropout (NN);
    early stopping; cross-validation
UNDERFITTING → tăng dung lượng:
  → một model phức tạp hơn; FEATURE tốt hơn; huấn luyện lâu hơn; giảm regularization
→ cân bằng độ phức tạp của model để khớp dữ liệu mà không ghi nhớ (đánh đổi bias-variance)
```

## Tại sao điều này quan trọng

Hiểu overfitting và underfitting là kiến thức có giá trị vì chúng là **các vấn đề cơ bản trong ML** quyết định liệu các model có thực sự hoạt động hay không, nên hiểu chúng là kiến thức ML thiết yếu.

Hai vấn đề này là trung tâm của việc xây dựng các model hiệu quả.

Hiểu **overfitting** (model ghi nhớ dữ liệu training bao gồm cả nhiễu, hoạt động tốt trên training nhưng kém trên dữ liệu mới — quá phức tạp và ghi nhớ thay vì học các mẫu tổng quát) và **underfitting** (model quá đơn giản để nắm bắt các mẫu, hoạt động kém trên cả dữ liệu training và mới) làm rõ hai chế độ thất bại, với mục tiêu là **generalization** (học các mẫu thực để hoạt động tốt trên dữ liệu mới).

Hiểu cách **nhận biết chúng** — overfitting cho thấy độ chính xác training cao nhưng test thấp (chênh lệch lớn), underfitting cho thấy độ chính xác thấp ở cả hai, và khớp tốt cho thấy độ chính xác tốt ở cả hai — là kiến thức thực tế để chẩn đoán các vấn đề của model, với chênh lệch train-test là tín hiệu then chốt của overfitting.

Hiểu cách **xử lý chúng** — overfitting qua thêm dữ liệu, regularization, model đơn giản hơn, dropout, early stopping, và cross-validation; underfitting qua model phức tạp hơn, feature tốt hơn, và huấn luyện lâu hơn — cung cấp bộ công cụ thực tế để khắc phục các vấn đề này, cân bằng độ phức tạp của model (đánh đổi bias-variance).

Overfitting nói riêng là một vấn đề phổ biến, nghiêm trọng trong ML (các model hoạt động trong training nhưng thất bại trong production), và hiểu nó (và underfitting) là thiết yếu để xây dựng các model thực sự tổng quát hóa và hoạt động trên dữ liệu thực.

Vì overfitting và underfitting là các vấn đề ML cơ bản quyết định liệu các model có thực sự hoạt động (tổng quát hóa lên dữ liệu mới) hay không và hiểu chúng, nhận biết chúng, và xử lý chúng là thiết yếu để xây dựng các model hiệu quả, nên hiểu overfitting và underfitting là kiến thức ML thiết yếu, có giá trị — các vấn đề cơ bản trung tâm của việc xây dựng các model hoạt động (tổng quát hóa), với chênh lệch train/test chẩn đoán overfitting và các kỹ thuật để xử lý cả hai, thiết yếu với bất kỳ ai xây dựng hoặc hiểu các model ML.