At evaluere ML-modeller betyder at måle, hvor godt de performer — ved at bruge passende metrics (accuracy, precision, recall osv.) på test data, som modellen ikke har set før. Ordentlig evaluering er afgørende for at vide, om en model faktisk virker og er pålidelig.
Evaluering på usete data
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
