Vlerësimi i modeleve ML do të thotë matja se sa mirë performojnë ato — duke përdorur metrika të përshtatshme (accuracy, precision, recall, etj.) në të dhënat e testimit që modeli nuk i ka parë. Vlerësimi i duhur është thelbësor për të ditur nëse një model vërtet funksionon dhe është i besueshëm.
Vlerësimi në të dhëna të panjohura
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
