Valutare i modelli di ML significa misurare quanto bene si comportano, utilizzando metriche appropriate (accuracy, precision, recall, ecc.) su dati di test che il modello non ha mai visto. Una valutazione corretta è essenziale per sapere se un modello funziona davvero ed è affidabile.
Valutazione su dati non visti
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
