ML sistemose duomenys yra kritiniai — mokymo duomenų kokybė ir kiekis labai didelę dalį lemia modelio veiksmingumą. Principas "į — iš" (angl. "garbage in, garbage out") čia labai tinka: net puikūs algoritmai nesugeba dirbti su blogais duomenimis, o geri duomenys dažnai yra svarbesnė nei algoritmo pasirinkimas.
Kodėl duomenys tokie svarbūs
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
