كيف تقيّم نماذج التعلم الآلي؟

Question

Accepted Answer

تقييم نماذج التعلم الآلي يعني قياس أدائها بشكل جيد — باستخدام **المقاييس** المناسبة (الدقة، الضبط، الاستدعاء، إلخ) على **بيانات الاختبار** التي لم يرها النموذج من قبل. التقييم الصحيح ضروري لمعرفة ما إذا كان النموذج يعمل فعلاً وموثوقاً.

## التقييم على بيانات لم يرها النموذج

```text
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
```

## المقاييس الشائعة

```text
CLASSIFICATION:
  ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
  PRECISION → of predicted positives, how many are actually positive (avoid false positives)
  RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
  F1 → balance of precision and recall
  CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
  MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
```

## سبب أهمية المقياس الصحيح

```text
⚠️ ACCURACY can MISLEAD on imbalanced data (predict 'no disease' always → high accuracy,
  useless model)
→ PRECISION vs RECALL trade-off → depends on the cost of false positives vs false negatives
  (e.g. medical: high recall to not miss disease; spam: precision to not block real emails)
→ pick metrics aligned with what MATTERS for the use case
```

## لماذا هذا مهم

فهم كيفية تقييم نماذج التعلم الآلي مفيد لأن **التقييم الصحيح ضروري لمعرفة ما إذا كان النموذج يعمل فعلاً**، لذا فهو معرفة تعلم آلي مهمة.

بدون تقييم صحيح، لا يمكنك معرفة ما إذا كان النموذج موثوقاً.

فهم **التقييم على بيانات لم يرها النموذج** — الاختبار على البيانات التي لم يتدرب عليها النموذج لقياس التعميم (الأداء الحقيقي)، حيث أن دقة التدريب وحدها مضللة (يمكن للنماذج أن تحفظ بيانات التدريب)، باستخدام تقسيمات train/validation/test والتحقق المتقاطع — هو أساس التقييم ذي المعنى.

فهم **المقاييس الشائعة** — للتصنيف: الدقة (% الصحيح، لكنه مضلل للبيانات غير المتوازنة)، **الضبط** (من الإيجابيات المتنبأ بها، كم منها إيجابي فعلاً)، **الاستدعاء** (من الإيجابيات الفعلية، كم منها تم العثور عليه)، F1 (موازنة الضبط والاستدعاء)، ومصفوفة الالتباس؛ للانحدار: MAE و RMSE (متوسط الخطأ) — يوفر مجموعة أدوات لقياس الأداء، مع النقطة المهمة أن **المقياس الصحيح يعتمد على المشكلة**.

فهم **لماذا يهم المقياس الصحيح** هو الرؤية الأساسية: **الدقة يمكن أن تكون مضللة على البيانات غير المتوازنة** (التنبؤ دائماً بالفئة الأكثر شيوعاً يعطي دقة عالية لكن نموذج عديم الفائدة — وهي مشكلة حرجة)، و **المقايضة بين الضبط والاستدعاء** تعتمد على تكلفة الإيجابيات الكاذبة مقابل السلبيات الكاذبة (استدعاء عالي في التشخيص الطبي لعدم تفويت المرض، ضبط عالي في تصفية البريد العشوائي لعدم حجب رسائل حقيقية).

اختيار المقاييس المتوافقة مع ما يهم حالة الاستخدام ضروري، لأن المقياس الخاطئ (مثل الدقة على البيانات غير المتوازنة) يعطي إحساساً خاطئاً بأن النموذج يعمل.

التقييم الصحيح (البيانات غير المرئية، المقاييس المناسبة) ضروري لبناء تعلم آلي موثوق — نموذج لم يتم تقييمه بشكل صحيح قد يفشل في الإنتاج رغم أنه يبدو جيداً.

لأن التقييم الصحيح ضروري لمعرفة ما إذا كان النموذج يعمل فعلاً (يعمم، موثوق) وفهمه — التقييم على البيانات غير المرئية، والمقاييس الشائعة، والأهم بكثير اختيار المقياس الصحيح (تجنب مشكلة الدقة على البيانات غير المتوازنة والموازنة بين الضبط والاستدعاء حسب حالة الاستخدام) — هي معرفة تعلم آلي مهمة، فهم كيفية تقييم نماذج التعلم الآلي مفيد، معرفة تعلم آلي عملية مهمة — ضرورية لمعرفة ما إذا كانت النماذج تعمل فعلاً (عبر تقييم البيانات غير المرئية والمقاييس المناسبة)، مع الرؤية الحرجة أن المقياس الصحيح يعتمد على حالة الاستخدام (تجنب المقاييس المضللة مثل الدقة على البيانات غير المتوازنة)، مهمة لبناء تعلم آلي موثوق.