Avaliar modelos de ML significa medir o desempenho deles — usando métricas apropriadas (acurácia, precisão, recall, etc.) em dados de teste que o modelo nunca viu. A avaliação adequada é essencial para saber se um modelo realmente funciona e é confiável.
Avaliando em dados não vistos
→ evaluate on a TEST set the model did NOT train on → measures GENERALIZATION (real performance)
→ training accuracy alone is misleading (a model can memorize training data)
→ train/validation/test split; cross-validation → reliable performance estimates
