การประเมินโมเดล ML หมายถึงการวัดว่าโมเดลทำงานได้ดีเพียงใด โดยใช้ เมตริก ที่เหมาะสม (accuracy, precision, recall ฯลฯ) บน ข้อมูลทดสอบ ที่โมเดลยังไม่เคยเห็น การประเมินที่ถูกต้องเป็นสิ่งจำเป็นในการรู้ว่าโมเดลทำงานได้จริงและน่าเชื่อถือหรือไม่
การประเมินบนข้อมูลที่ยังไม่เคยเห็น
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
เมตริกที่พบบ่อย
CLASSIFICATION:
ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
PRECISION → of predicted positives, how many are actually positive (avoid false positives)
RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
F1 → balance of precision and recall
CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
