En ML, los datos son críticos — la calidad y cantidad de los datos de entrenamiento determinan en gran medida el desempeño del modelo. El principio 'basura entra, basura sale' se aplica fuertemente: incluso los mejores algoritmos fallan con datos pobres, mientras que los buenos datos suelen ser más impactantes que la elección del algoritmo.
Por qué es importante
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
