Em ML, dados são críticos — a qualidade e quantidade dos dados de treinamento determinam em grande parte o desempenho do modelo. O princípio 'lixo entra, lixo sai' se aplica fortemente: até mesmo grandes algoritmos falham com dados pobres, enquanto bons dados são frequentemente mais impactantes do que a escolha do algoritmo.
Por que isso importa
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
