Come si valutano i modelli di machine learning?

Question

Accepted Answer

Valutare i modelli di ML significa misurare quanto bene si comportano, utilizzando **metriche** appropriate (accuracy, precision, recall, ecc.) su **dati di test** che il modello non ha mai visto. Una valutazione corretta è essenziale per sapere se un modello funziona davvero ed è affidabile.

## Valutazione su dati non visti

```text
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
```

## Metriche comuni

```text
CLASSIFICATION:
  ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
  PRECISION → of predicted positives, how many are actually positive (avoid false positives)
  RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
  F1 → balance of precision and recall
  CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
  MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
```

## Perché conta la metrica giusta

```text
⚠️ ACCURACY can MISLEAD on imbalanced data (predict 'no disease' always → high accuracy,
  useless model)
→ PRECISION vs RECALL trade-off → depends on the cost of false positives vs false negatives
  (e.g. medical: high recall to not miss disease; spam: precision to not block real emails)
→ pick metrics aligned with what MATTERS for the use case
```

## Perché è importante

Capire come valutare i modelli di ML è prezioso perché **una valutazione corretta è essenziale per sapere se un modello funziona davvero**, quindi è una conoscenza importante del ML.

Senza una valutazione corretta, non puoi sapere se un modello è affidabile.

Comprendere la **valutazione su dati non visti** — testare su dati su cui il modello non si è addestrato per misurare la generalizzazione (le prestazioni reali), poiché la training accuracy da sola è fuorviante (i modelli possono memorizzare i dati di addestramento), utilizzando split train/validation/test e cross-validation — è il fondamento di una valutazione significativa.

Comprendere le **metriche comuni** — per la classificazione: accuracy (% di corretti, ma fuorviante per dati sbilanciati), **precision** (tra i positivi predetti, quanti sono effettivamente positivi), **recall** (tra i positivi reali, quanti sono stati trovati), F1 (che bilancia precision e recall) e la confusion matrix; per la regressione: MAE e RMSE (errore medio) — fornisce gli strumenti per misurare le prestazioni, con il punto importante che **la metrica giusta dipende dal problema**.

Comprendere **perché conta la metrica giusta** è l'intuizione chiave: **l'accuracy può ingannare su dati sbilanciati** (predire sempre la classe maggioritaria dà un'accuracy elevata ma un modello inutile, una trappola critica), e il **trade-off tra precision e recall** dipende dal costo dei falsi positivi rispetto ai falsi negativi (recall elevato nella diagnosi medica per non mancare una malattia, precision elevata nel filtraggio dello spam per non bloccare email reali).

Scegliere metriche allineate con ciò che conta per il caso d'uso è essenziale, poiché la metrica sbagliata (come l'accuracy su dati sbilanciati) dà una falsa impressione che un modello funzioni.

Una valutazione corretta (dati non visti, metriche appropriate) è essenziale per costruire ML affidabile: un modello non valutato correttamente può fallire in produzione nonostante sembri buono.

Poiché una valutazione corretta è essenziale per sapere se un modello funziona davvero (generalizza, è affidabile) e comprenderla — valutare su dati non visti, le metriche comuni e, soprattutto, scegliere la metrica giusta (evitando la trappola dell'accuracy su dati sbilanciati e bilanciando precision/recall in base al caso d'uso) — è una conoscenza importante del ML, capire come valutare i modelli di ML è una conoscenza preziosa e di importanza pratica, essenziale per sapere se i modelli funzionano davvero (tramite la valutazione su dati non visti e metriche appropriate), con l'intuizione critica che la metrica giusta dipende dal caso d'uso (evitando metriche fuorvianti come l'accuracy su dati sbilanciati), importante per costruire ML affidabile.