ใน ML นั้น ข้อมูลเป็นสิ่งสำคัญยิ่ง คุณภาพและปริมาณของข้อมูลฝึกเป็นตัวกำหนดประสิทธิภาพของโมเดลเป็นส่วนใหญ่ หลักการ 'garbage in, garbage out' (ใส่ขยะเข้าไปก็ได้ขยะออกมา) ใช้ได้อย่างเข้มข้น: แม้แต่อัลกอริทึมที่ยอดเยี่ยมก็ล้มเหลวกับข้อมูลที่แย่ ขณะที่ข้อมูลที่ดีมักส่งผลมากกว่าการเลือกอัลกอริทึม
ทำไมข้อมูลจึงสำคัญมาก
ML models LEARN from data → the data fundamentally shapes what they learn:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model (no algorithm fixes bad data)
→ good DATA is often MORE impactful than the algorithm (data > model tweaks, often)
→ models can only be as good as the data they learn from
→ data is frequently the most important factor in ML success
