ML 모델을 평가한다는 것은 모델이 본 적 없는 테스트 데이터에서 적절한 지표(정확도, 정밀도, 재현율 등)를 사용해 얼마나 잘 수행하는지 측정하는 것입니다. 적절한 평가는 모델이 실제로 작동하고 신뢰할 수 있는지 아는 데 필수적입니다.
미본 데이터로 평가
→ model이 훈련하지 않은 테스트 세트로 평가 → 일반화(실제 성능)를 측정
→ 훈련 정확도만으로는 오해의 소지가 있음(model이 훈련 데이터를 암기할 수 있음)
→ 훈련/검증/테스트 분할; 교차 검증 → 신뢰할 만한 성능 추정
흔한 지표
분류:
정확도(ACCURACY) → 맞춘 % (하지만 불균형 데이터에는 오해의 소지 — 예: 99% '사기 아님')
정밀도(PRECISION) → 양성으로 예측한 것 중 실제 양성 비율(거짓 양성 회피)
재현율(RECALL) → 실제 양성 중 찾아낸 비율(거짓 음성/누락 회피)
F1 → 정밀도와 재현율의 균형
혼동 행렬(CONFUSION MATRIX) → 참/거짓 양성/음성 분해
회귀:
MAE, MSE/RMSE → 평균 예측 오차(예측이 얼마나 빗나가는지)
→ 문제에 맞는 지표를 선택(정확도가 항상 옳지는 않음)
