ML에서 데이터는 결정적입니다 — 훈련 데이터의 품질과 양이 모델 성능을 크게 좌우합니다. '쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)'는 원칙이 강하게 적용됩니다: 훌륭한 알고리즘도 나쁜 데이터로는 실패하는 반면, 좋은 데이터는 종종 알고리즘 선택보다 영향력이 큽니다.
데이터가 그토록 중요한 이유
ML 모델은 데이터로부터 학습 → 데이터가 학습하는 것을 근본적으로 형성:
→ 쓰레기를 넣으면 쓰레기가 나옴 → 나쁜 데이터 → 나쁜 model(어떤 알고리즘도
나쁜 데이터를 고치지 못함)
→ 좋은 DATA가 종종 알고리즘보다 영향력이 큼(데이터 > 모델 조정, 종종)
→ model은 학습한 데이터만큼만 좋을 수 있음
→ 데이터는 흔히 ML 성공의 가장 중요한 요인
데이터 품질
✓ 정확/올바름 → 잘못된 레이블/값 → model이 잘못된 것을 학습
✓ 관련성 → 실제 문제/분포를 대표하는 데이터
✓ 깨끗함 → 결측값, 오류, 중복, 노이즈 처리
✓ 비편향 → 편향된 데이터 → 편향된 model(편향을 영속/증폭 — 심각한 문제)
✓ 일관, 잘 레이블됨 → 좋은 레이블은 지도학습에 결정적
