ML modellerini değerlendirmek, uygun metrikler (accuracy, precision, recall, vb.) kullanarak modelin görülmemiş test verisi üzerinde ne kadar iyi performans gösterdiğini ölçmek anlamına gelir. Uygun değerlendirme, bir modelin gerçekten çalışıp çalışmadığını ve güvenilir olup olmadığını bilmek için gereklidir.
Görülmemiş veriler üzerinde değerlendirme
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
