A gépi tanulási modellek értékelése azt jelenti, hogy megmérjük, mennyire teljesítenek jól — megfelelő metrikák (pontosság, precizitás, visszahívás, stb.) segítségével a tesztelési adatokon, amelyeket a modell még nem látott. A megfelelő értékelés elengedhetetlen annak megállapításához, hogy a modell valóban működik és megbízható.
Értékelés nem látott adatokon
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
