과적합(모델이 훈련 데이터를 암기해 새 데이터에 실패)과 과소적합(모델이 패턴을 포착하기에 너무 단순)은 ML의 두 가지 근본적 문제입니다. 이 둘의 균형 — 좋은 일반화를 달성하는 것 — 은 효과적인 모델 구축의 핵심입니다.
과적합 vs 과소적합
과적합(OVERFITTING) → model이 훈련 데이터를 너무 잘 학습(노이즈까지 포함) →
→ 훈련 데이터에서는 훌륭하지만 새/미본 데이터에서 부진(일반화 안 됨)
→ 너무 복잡; 일반 패턴을 학습하기보다 암기
→ 개념을 이해하는 대신 답을 암기하는 것과 같음
과소적합(UNDERFITTING) → model이 기저 패턴을 포착하기에 너무 단순 →
→ 훈련 데이터와 새 데이터 둘 다에서 부진
→ 패턴을 학습할 복잡성/용량이 부족
→ 목표는 일반화: 실제 패턴을 학습 → 새 데이터에서 잘 수행
인식하기
→ 과적합 → 높은 훈련 정확도, 낮은 테스트 정확도(큰 격차)
→ 과소적합 → 낮은 훈련 정확도 AND 낮은 테스트 정확도(전반적으로 부진)
→ 좋은 적합 → 좋은 훈련 정확도 AND 좋은 테스트 정확도(잘 일반화)
→ 훈련 대 테스트 성능 격차가 과적합을 드러냄
