ML model の evaluation は、model が見たことのない test data 上で、accuracy、precision、recall など適切な metrics を使って performance を測ることです。proper evaluation なしには model が本当に機能し reliable か分かりません。
unseen data で評価する
text
→ model が train していない TEST set で evaluate → GENERALIZATION を測る
→ training accuracy だけでは misleading (model は training data を memorize できる)
→ train/validation/test split; cross-validation → reliable performance estimates
common metrics
text
CLASSIFICATION:
ACCURACY → % correct (IMBALANCED data では misleading)
PRECISION → predicted positives のうち実際に positive な割合 (false positives を避ける)
RECALL → actual positives のうち見つけられた割合 (false negatives を避ける)
F1 → precision と recall の balance
CONFUSION MATRIX → true/false positives/negatives の内訳
REGRESSION:
MAE, MSE/RMSE → average prediction error
→ metric は problem に合わせて選ぶ。accuracy が常に正しいわけではない
