L-evalwazzjoni ta' mudelli ML tfisser li tkejjel kif tajba huma perfiormanti — billi tuża metriċi xierqa (akkurattezza, preċiżjoni, riċord, eċċ.) fuq data tat-test li l-mudell ma raax qabel. L-evalwazzjoni propja hija essenzjali biex taf jekk mudell taqbil aħħar jaħdem u hu affidabbli.
L-evalwazzjoni fuq data mhux viżta qabel
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
