Evaluarea modelelor de ML înseamnă măsurarea performanței lor — folosind metrici adecvate (accuracy, precision, recall, etc.) pe date de test pe care modelul nu le-a văzut. Evaluarea corespunzătoare este esențială pentru a ști dacă un model funcționează de fapt și este fiabil.
Evaluarea pe date nevăzute
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
