ML で data quality と quantity が重要なのはなぜですか？

Question

Accepted Answer

ML では **data が critical** です。training data の quality と quantity が model performance を大きく決めます。'garbage in, garbage out' が強く当てはまり、poor data では優れた algorithm でも失敗します。一方、good data は algorithm choice より大きな impact を持つことも多いです。

## data が重要な理由

```text
ML models LEARN from data → data が何を学ぶかを shape する:
  → GARBAGE IN, GARBAGE OUT → poor data → poor model
  → good DATA は algorithm tweak より impact が大きいことが多い
  → model は学習 data 以上には良くなれない
```

## data quality

```text
✓ ACCURATE/correct → wrong labels/values は wrong things を学ばせる
✓ RELEVANT → real problem/distribution を代表する data
✓ CLEAN → missing values, errors, duplicates, noise を扱う
✓ UNBIASED → biased data は biased model を生む
✓ CONSISTENT, well-labeled → supervised learning では good labels が重要
```

## quantity と representativeness

```text
✓ ENOUGH data → model、特に deep learning は十分な example が必要
✓ REPRESENTATIVE → real-world cases/distribution を cover する必要がある
  → training data が reality を代表しないと real-world performance は悪い
⚠️ too little, unrepresentative, biased, mislabeled, leakage は model failure の原因
```

## なぜ重要なのか

ML の成功は algorithm だけでなく data に大きく依存します。多くの ML work は data collection、cleaning、labeling に費やされます。bias、label error、unrepresentative data は model failure の主要原因です。data の重要性を理解することは、ML が成功または失敗する理由を理解することです。