Vyhodnocování ML modelů znamená měření jejich výkonnosti — pomocí příslušných metrik (přesnost, precision, recall atd.) na testovacích datech, která model neviděl. Správné vyhodnocování je nezbytné pro zjištění, zda model skutečně funguje a je spolehlivý.
Vyhodnocování na neznámých datech
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
