En ML, les données sont critiques — la qualité et la quantité des données d'entraînement déterminent largement la performance du modèle. Le principe « garbage in, garbage out » s'applique fortement : même les meilleurs algorithmes échouent avec de mauvaises données, tandis que de bonnes données sont souvent plus impactantes que le choix d'algorithme.
Pourquoi c'est important
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
