Mengevaluasi model ML berarti mengukur seberapa baik performanya — menggunakan metrik yang sesuai (akurasi, presisi, recall, dll.) pada data uji yang belum pernah dilihat model. Evaluasi yang tepat sangat penting untuk mengetahui apakah model benar-benar berfungsi dan dapat diandalkan.
Mengevaluasi pada data yang belum dilihat
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
