Evaluering av ML-modeller betyr å måle hvor godt de presterer — ved å bruke passende metrikkker (nøyaktighet, presisjon, tilbakekalling, etc.) på testdata som modellen ikke har sett før. Riktig evaluering er essensielt for å vite om en modell faktisk fungerer og er pålitelig.
Evaluering på usett data
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
