Koneoppimismallien arviointi tarkoittaa niiden suorituskyvyn mittaamista — käyttämällä sopivia mittareita (tarkkuus, presisio, saanti jne.) testidatalla, jota malli ei ole nähnyt. Asianmukainen arviointi on välttämätöntä sen tietämiseksi, toimiiko malli todella ja onko se luotettava.
Arviointi näkemättömällä datalla
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
