Ocenianie modeli ML oznacza pomiar ich wydajności — używając odpowiednich metryk (accuracy, precision, recall, itd.) na danych testowych, których model wcześniej nie widział. Właściwa ocena jest niezbędna do stwierdzenia, czy model rzeczywiście działa i jest niezawodny.
Ocenianie na nieznanych danych
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
Popularne metryki
CLASSIFICATION:
ACCURACY → % correct (but misleading for IMBALANCED data — e.g. 99% 'not fraud')
PRECISION → of predicted positives, how many are actually positive (avoid false positives)
RECALL → of actual positives, how many were found (avoid false negatives/missing cases)
F1 → balance of precision and recall
CONFUSION MATRIX → true/false positives/negatives breakdown
REGRESSION:
MAE, MSE/RMSE → average prediction error (how far off predictions are)
→ choose metrics that fit the problem (accuracy isn't always right)
Dlaczego to ważne
⚠️ ACCURACY can MISLEAD on imbalanced data (predict 'no disease' always → high accuracy,
useless model)
→ PRECISION vs RECALL trade-off → depends on the cost of false positives vs false negatives
(e.g. medical: high recall to not miss disease; spam: precision to not block real emails)
→ pick metrics aligned with what MATTERS for the use case
Dlaczego to ważne
Zrozumienie sposobu oceniania modeli ML jest cenne, ponieważ właściwa ocena jest niezbędna do stwierdzenia, czy model rzeczywiście działa, dlatego jest ważnym zagadnieniem w ML.
Bez właściwej oceny nie możesz stwierdzić, czy model jest niezawodny.
Zrozumienie oceniania na nieznanych danych — testowania na danych, na których model się nie uczył, aby zmierzyć generalizację (rzeczywistą wydajność), ponieważ sama dokładność treningowa jest myląca (modele mogą zapamiętać dane treningowe), stosując podziały train/validation/test i walidację krzyżową — stanowi podstawę sensownej oceny.
Zrozumienie popularnych metryk — dla klasyfikacji: accuracy (% poprawnych, ale mylące dla niezbalansowanych danych), precision (spośród przewidywanych pozytywnych, ile rzeczywiście jest pozytywnych), recall (spośród rzeczywistych pozytywnych, ile zostało znalezionych), F1 (balansowanie precision i recall), i macierz pomyłek; dla regresji: MAE i RMSE (średni błąd) — dostarcza narzędzi do pomiaru wydajności, z ważną uwagą, że właściwa metryka zależy od problemu.
Zrozumienie dlaczego właściwa metryka ma znaczenie to kluczowa intuicja: accuracy może być myląca na niezbalansowanych danych (zawsze przewidywanie klasy większościowej daje wysoką dokładność, ale bezużyteczny model — krytyczne niebezpieczeństwo), a kompromis między precision a recall zależy od kosztów fałszywych alarmów vs pominięć (wysoki recall w diagnostyce medycznej, aby nie przegapić choroby, wysoka precision w filtrowaniu spamu, aby nie blokować ważnych emaili).
Wybieranie metryk zgodnych z tym, co ma znaczenie dla przypadku użycia, jest niezbędne, ponieważ niewłaściwa metryka (taka jak accuracy na niezbalansowanych danych) daje fałszywe wrażenie, że model działa.
Właściwa ocena (nieznane dane, odpowiednie metryki) jest niezbędna do budowania niezawodnych systemów ML — model, który nie jest właściwie oceniany, może zawieść w produkcji mimo dobrego wyglądu.
Ponieważ właściwa ocena jest niezbędna do stwierdzenia, czy model rzeczywiście działa (generalizuje, jest niezawodny) i jego zrozumienie — ocenianie na nieznanych danych, popularne metryki, i przede wszystkim wybieranie właściwej metryki (unikanie pułapki accuracy na niezbalansowanych danych i balansowanie precision/recall według przypadku użycia) — jest ważnym zagadnieniem w ML, zrozumienie sposobu oceniania modeli ML jest cenne, praktycznie ważnym wiedzą z ML — niezbędne do stwierdzenia, czy modele rzeczywiście działają (poprzez ocenę na nieznanych danych i odpowiednie metryki), z kluczową intuicją, że właściwa metryka zależy od przypadku użycia (unikanie mylących metryk takich jak accuracy na niezbalansowanych danych), ważne do budowania niezawodnych systemów ML.
