Menilai model ML bermaksud mengukur sejauh mana prestasinya — menggunakan metrik yang sesuai (accuracy, precision, recall, dll.) pada data ujian yang belum pernah dilihat oleh model. Penilaian yang betul adalah penting untuk mengetahui sama ada model benar-benar berfungsi dan boleh dipercayai.
Menilai pada data yang belum dilihat
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
