V strojnem učenju je podatke kritični — kakovost in količina učnih podatkov v veliki meri določata zmogljivost modela. Načelo »smetulje notri, smetulje ven« se tukaj z močjo uporablja: tudi odličnih algoritmov ne rešijo slabi podatki, medtem ko so dobri podatki pogosto bolj vplivni kot izbira algoritma.
Zakaj so podatki tako pomembni
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
