ML では data が critical です。training data の quality と quantity が model performance を大きく決めます。'garbage in, garbage out' が強く当てはまり、poor data では優れた algorithm でも失敗します。一方、good data は algorithm choice より大きな impact を持つことも多いです。
data が重要な理由
text
ML models LEARN from data → data が何を学ぶかを shape する:
→ GARBAGE IN, GARBAGE OUT → poor data → poor model
→ good DATA は algorithm tweak より impact が大きいことが多い
→ model は学習 data 以上には良くなれない
data quality
text
✓ ACCURATE/correct → wrong labels/values は wrong things を学ばせる
✓ RELEVANT → real problem/distribution を代表する data
✓ CLEAN → missing values, errors, duplicates, noise を扱う
✓ UNBIASED → biased data は biased model を生む
✓ CONSISTENT, well-labeled → supervised learning では good labels が重要
quantity と representativeness
text
