Ocenjevanje modelov ML pomeni merjenje njihove učinkovitosti — z uporabo ustreznih metrik (natančnost, preciznost, priklic itd.) na testnih podatkih, ki jih model še ni videl. Pravilna ocena je ključna za ugotovitev, ali model dejansko deluje in je zanesljiv.
Ocenjevanje na nevidenih podatkih
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
