Kako procjenjujete modele strojnog učenja?

Question

Accepted Answer

Evaluiranje ML modela znači mjerenje kako dobro funkcioniraju — koristeći odgovarajuće **metrike** (točnost, preciznost, odziv, itd.) na **test podacima** koje model nije vidio. Pravilna evaluacija je bitna za znanje je li model zaista pouzdan i funkcionalan.

## Evaluiranje na neviđenim podacima

```text
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
```

## Česte metrike

```text
CLASSIFICATION:
  ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
  PRECISION → of predicted positives, how many are actually positive (avoid false positives)
  RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
  F1 → balance of precision and recall
  CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
  MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
```

## Zašto prava metrika bitna

```text
⚠️ ACCURACY can MISLEAD on imbalanced data (predict 'no disease' always → high accuracy,
  useless model)
→ PRECISION vs RECALL trade-off → depends on the cost of false positives vs false negatives
  (e.g. medical: high recall to not miss disease; spam: precision to not block real emails)
→ pick metrics aligned with what MATTERS for the use case
```

## Zašto je to važno

Razumijevanje kako evaluirati ML modele je vrijedna vještina jer je **pravilna evaluacija bitna za znanje je li model zaista pouzdan**, što je važno znanje iz ML-a.

Bez pravilne evaluacije, ne možete utvrditi je li model pouzdan.

Razumijevanje **evaluiranja na neviđenim podacima** — testiranja na podacima na kojima model nije treniran kako bi se izmjerila generalizacija (stvarna performansa), jer je točnost treniranja sama po sebi zavaravajuća (modeli mogu memorirati podatke treniranja), koristeći podjele train/validation/test i unakrsnu validaciju — je temelj smislene evaluacije.

Razumijevanje **čestih metrika** — za klasifikaciju: točnost (% ispravnih, ali zavaravajuća za neujednačene podatke), **preciznost** (od predviđenih pozitivnih, koliko su zaista pozitivni), **odziv** (od stvarnih pozitivnih, koliko je pronađeno), F1 (uravnoteženje preciznosti i odziva), i matrica zabune; za regresiju: MAE i RMSE (prosječna greška) — daje alate za mjerenje performansi, s važnom napomenom da **prava metrika ovisi o problemu**.

Razumijevanje **zašto prava metrika bitna** je ključni uvid: **točnost može zavarati na neujednačenim podacima** (uvijek predviđanje većinskog razreda daje visoku točnost ali beskorisni model — kritična greška), i **uravnoteženje preciznosti i odziva** ovisi o trošku lažnih pozitivnih nasuprot lažnih negativnih (visoki odziv u medicinskoj dijagnozi kako ne bi se preskočila bolest, visoka preciznost u filtriranju spama kako ne bi se blokirao pravi mail).

Odabiranje metrika usklađenih s onim što je važno za primjenu je bitno, jer pogrešna metrika (kao točnost na neujednačenim podacima) daje lažni dojam da model funkcionira.

Pravilna evaluacija (neviđeni podaci, odgovarajuće metrike) je bitna za stvaranje pouzdanog ML-a — model koji nije pravilno evaluiran može biti neuspješan u produkciji usprkos tome što izgleda dobro.

Budući da je pravilna evaluacija bitna za znanje je li model zaista pouzdan (generalizira, pouzdan je) i razumijevanje toga — evaluiranje na neviđenim podacima, česte metrike, i ključno odabiranje prave metrike (izbjegavanje točnosti na neujednačenim podacima i uravnoteženje preciznosti/odziva prema primjeni) — je važno znanje iz ML-a, razumijevanje kako evaluirati ML modele je vrijedna, praktično-važna ML znanja — bitna za znanje je li modeli zaista funkcionalni (kroz evaluaciju na neviđenim podacima i odgovarajuće metrike), s ključnim uvidом da prava metrika ovisi o primjeni (izbjegavanje zavaravajućih metrika kao što je točnost na neujednačenim podacima), važno za razvoj pouzdanog ML-a.