machine learning model をどう評価しますか？

Question

Accepted Answer

ML model の evaluation は、model が見たことのない **test data** 上で、accuracy、precision、recall など適切な **metrics** を使って performance を測ることです。proper evaluation なしには model が本当に機能し reliable か分かりません。

## unseen data で評価する

```text
→ model が train していない TEST set で evaluate → GENERALIZATION を測る
→ training accuracy だけでは misleading (model は training data を memorize できる)
→ train/validation/test split; cross-validation → reliable performance estimates
```

## common metrics

```text
CLASSIFICATION:
  ACCURACY → % correct (IMBALANCED data では misleading)
  PRECISION → predicted positives のうち実際に positive な割合 (false positives を避ける)
  RECALL → actual positives のうち見つけられた割合 (false negatives を避ける)
  F1 → precision と recall の balance
  CONFUSION MATRIX → true/false positives/negatives の内訳
REGRESSION:
  MAE, MSE/RMSE → average prediction error
→ metric は problem に合わせて選ぶ。accuracy が常に正しいわけではない
```

## 正しい metric が重要な理由

```text
⚠️ ACCURACY は imbalanced data で MISLEAD する
  (常に 'no disease' と予測しても high accuracy だが useless)
→ PRECISION vs RECALL trade-off は false positive/false negative の cost に依存
  (medical では high recall、spam では precision が重要な場合がある)
```

## なぜ重要なのか

model が training data で良いだけでは不十分です。unseen data で generalize するか、use case に合った metric で評価する必要があります。特に imbalanced data で accuracy だけを見るのは危険です。proper evaluation は production で信頼できる ML を作るための基礎です。