U ML-u, podaci su kritični — kvaliteta i količina podataka za treniranje uvelike određuju performanse modela. Princip 'smeće na ulazu, smeće na izlazu' se primjenjuje snažno: čak i odličnih algoritama padaju s lošim podacima, dok su dobri podaci često važniji od izbora algoritma.
Zašto su podaci toliko važni
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
