ML मोडलहरूको मूल्यांकन गर्नु भनेको तिनीहरूले कति राम्रोसँग काम गरिरहेका छन् भनेर मापन गर्नु हो — उपयुक्त मेट्रिक्स (accuracy, precision, recall, आदि) र test data मा जसलाई मोडलले अगाडि देखेको छैन। सही मूल्यांकन आवश्यक छ कि मोडल वास्तवमा काम गरिरहेको छ र विश्वस्त छ भनेर जान्न।
नदेखेको डेटामा मूल्यांकन
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
