비용과 지연의 트레이드오프를 고려해 적합한 모델 등급을 어떻게 선택하나요?

Question

Accepted Answer

한 제품군 내의 모델들은 **성능을 비용 및 지연과 맞바꿉니다**: 더 작은 모델은 빠르고 저렴하지만 성능이 낮고; 더 큰 모델은 어려운 문제에서 더 잘 추론하지만 비용이 더 들고 응답이 느립니다. 핵심 역량은 항상 가장 큰 것을 집어 드는 게 아니라, 작업의 난이도에 모델을 맞추는 것입니다.

## 등급 (Anthropic 라인업)

Anthropic의 Claude 제품군을 예로 들면(최신 세대: **Opus 4.8**, **Sonnet 4.6**, **Haiku 4.5**):

```text
Haiku   → 가장 작고, 가장 빠르고, 가장 저렴
          → 대용량 / 단순 작업: classification, extraction, 빠른 수정
Sonnet  → 비용/품질 균형
          → 일상적인 코딩과 일반 작업 (합리적인 기본값)
Opus    → 가장 유능, 가장 높은 비용 & 지연
          → 가장 어려운 다단계 추론, 아키텍처, 까다로운 디버깅
```

순서는 상대적입니다: 가격과 지연 모두에서 **Haiku < Sonnet < Opus**이며, 순수 성능도 같은 순서입니다.

## 선택 방법

- **더 저렴하게 시작하라.** 먼저 Haiku나 Sonnet에 손을 뻗으세요; 대부분의 작업은 최상위 등급이 필요 없습니다.
- **품질이 요구할 때만 올려라.** 더 저렴한 모델의 출력이 틀리거나, 얕거나, 진짜 어려운 문제에서 계속 목표를 놓친다면 Opus로 올리세요.
- **물량을 생각하라.** 수백만 번 실행하는 작업(태깅, 라우팅)은 Opus가 약간 더 낫더라도 Haiku에 두어야 합니다 — 비용과 지연이 곱해집니다.

```text
100만 건 지원 티켓 분류        → Haiku   (물량이 지배; 작업이 단순)
기능 구현                       → Sonnet  (균형 잡힌 일상 코딩)
미묘한 race condition 디버깅    → Opus    (어려운 추론이 비용을 정당화)
```

## 왜 중요한가

가장 큰 모델을 기본값으로 쓰면 더 저렴한 등급이 충분히 처리하는 작업에 돈을 낭비하고 지연을 더하며; 가장 작은 것을 기본값으로 쓰면 진짜 어려운 작업에서 형편없는 결과가 나옵니다. 의도적으로 선택하는 것 — 더 저렴하게 시작하고 품질이 요구할 때만 올리는 것 — 은 대규모에서 시스템을 빠르고 저렴하게 유지하면서도 실제로 필요한 문제에는 무거운 모델을 투입하게 합니다.