تقييم نماذج التعلم الآلي يعني قياس أدائها بشكل جيد — باستخدام المقاييس المناسبة (الدقة، الضبط، الاستدعاء، إلخ) على بيانات الاختبار التي لم يرها النموذج من قبل. التقييم الصحيح ضروري لمعرفة ما إذا كان النموذج يعمل فعلاً وموثوقاً.
التقييم على بيانات لم يرها النموذج
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
المقاييس الشائعة
CLASSIFICATION:
ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
PRECISION → of predicted positives, how many are actually positive (avoid false positives)
RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
F1 → balance of precision and recall
CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
