როგორ აფასებთ მანქანური სწავლის მოდელებს?

Question

Accepted Answer

მანქანური სწავლის მოდელების შეფასება ნიშნავს მათი წარმადობის შემფასებას — შესაბამის **მეტრიკების** (accuracy, precision, recall და ა.შ.) გამოყენებით **ტესტ მონაცემებზე**, რომელიც მოდელმა ადრე არ ნახა. სათანადო შეფასება აუცილებელია იმის জন্য, რომ იცოდეთ, მოდელი ნამდვილად მუშაობს თუ არა და საიმედოა.

## დაუვიწყო მონაცემებზე შეფასება

```text
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
```

## გავრცელებული მეტრიკები

```text
CLASSIFICATION:
  ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
  PRECISION → of predicted positives, how many are actually positive (avoid false positives)
  RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
  F1 → balance of precision and recall
  CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
  MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
```

## რატომ აქვს მნიშვნელობა სწორ მეტრიკას

```text
⚠️ ACCURACY can MISLEAD on imbalanced data (predict 'no disease' always → high accuracy,
  useless model)
→ PRECISION vs RECALL trade-off → depends on the cost of false positives vs false negatives
  (e.g. medical: high recall to not miss disease; spam: precision to not block real emails)
→ pick metrics aligned with what MATTERS for the use case
```

## რატომ აქვს მნიშვნელობა

მანქანური სწავლის მოდელების შეფასების გაგება ღირებულია, რადგან **სათანადო შეფასება აუცილებელია იმის გასაფრთხოვებლად, მოდელი ნამდვილად მუშაობს თუ არა**, ამიტომ ეს მნიშვნელოვანი მანქანური სწავლის ცოდნაა.

სათანადო შეფასების გარეშე, თქვენ ვერ გეტყვით, მოდელი საიმედოა თუ არა.

**დაუვიწყო მონაცემებზე შეფასების** გაგება — ტესტირება მონაცემებზე, რომელიც მოდელმა არ ისწავლა განზოგადოების გასაზომად (რეალური წარმადობა), რადგან მხოლოდ სწავლის accuracy არის გამოცდილი (მოდელებმა შეიძლება მივიწყოს სწავლის მონაცემები), train/validation/test გაყოფის და cross-validation-ის გამოყენება — ეს არის მნიშვნელოვანი შეფასების საფუძველი.

**გავრცელებული მეტრიკების** გაგება — კლასიფიკაციისთვის: accuracy (% სწორი, მაგრამ მცდარი დაუბალანსებელი მონაცემებისთვის), **precision** (წინასწარმეტყველებული დადებიტებიდან, რამდენი არის რეალურად დადებითი), **recall** (რეალური დადებიტებიდან, რამდენი იქნა ნაპოვნი), F1 (precision-ის და recall-ის დაბალანსება), და confusion matrix; რეგრესიისთვის: MAE და RMSE (საშუალო შეცდომა) — აძლევს წარმადობის გაზომვის ხელსაწყოებს, მნიშვნელოვანი პუნქტით, რომ **სწორი მეტრიკა დამოკიდებულია პრობლემაზე**.

**რატომ აქვს მნიშვნელობა სწორ მეტრიკას** გაგება არის ძირითადი დაკვირვება: **accuracy შეიძლება გამოცდილი იყოს დაუბალანსებელი მონაცემებზე** (ყოველთვის უმრავლესობის კლასის წინასწარმეტყველება იძლევა მაღალ accuracy-ს, მაგრამ უსარგებლო მოდელი — კრიტიკული საფრთხე), და **precision-ის წინააღმდეგ recall-ის კომპრომისი** დამოკიდებულია ცრუ დადებითი წინააღმდეგ ცრუ უარყოფითი (მაღალი recall ექიმური დიაგნოზში დაავადებას არ გამოტოვოთ, მაღალი precision spam ფილტრაციაში რეალური ელფოსტა არ დაკეტოთ).

მეტრიკების არჩევა გასწორებული იმის მიხედვით, რაც მნიშვნელოვანია use case-ისთვის, აუცილებელია, რადგან არასწორი მეტრიკა (როგორც accuracy დაუბალანსებელ მონაცემებზე) ცრუ დაწყდომას აძლევს მოდელის მუშაობის შესახებ.

სათანადო შეფასება (დაუვიწყო მონაცემები, შესაბამი მეტრიკები) აუცილებელია საიმედო მანქანური სწავლის აგებისთვის — მოდელი, რომელიც სათანადოდ შეფასებული არ არის, შეიძლება ვერ შედეგი დაეთმოს პროდუქციაში, რაც კარგად გამოიყურებოდა.

ამგვარად, სათანადო შეფასება აუცილებელია იმის გასაფრთხოვებლად, მოდელი რეალურად მუშაობს (განზოგადოება, საიმედოობა) და მის გაგება — დაუვიწყო მონაცემებზე შეფასება, გავრცელებული მეტრიკები, და განსაკუთრებით სწორი მეტრიკის არჩევა (დაუბალანსებელ მონაცემებზე accuracy-ის საფრთხისგან თავშეკავება და precision/recall-ის დაბალანსება use case-ის მიხედვით) — მნიშვნელოვანი მანქანური სწავლის ცოდნაა, მანქანური სწავლის მოდელების შეფასების გაგება ღირებულია, პრაქტიკულად მნიშვნელოვანი მანქანური სწავლის ცოდნა — აუცილებელი იმის გასაფრთხოვებლად, მოდელები რეალურად მუშაობენ (დაუვიწყო მონაცემების შეფასებისა და შესაბამი მეტრიკების საშუალებით), კრიტიკული ხედვით, რომ სწორი მეტრიკა დამოკიდებულია use case-ზე (გამოცდილი მეტრიკებისგან, როგორც accuracy დაუბალანსებელ მონაცემებზე), მნიშვნელოვანი საიმედო მანქანური სწავლის აგებისთვის.