你如何根据成本和延迟权衡来选择合适的模型等级？

Question

Accepted Answer

同一系列的模型在**能力、成本和延迟之间做出权衡**：较小的模型更快更便宜但能力较弱；较大的模型在难题上推理更好但成本更高响应更慢。技巧在于将模型与任务难度相匹配，而不是总是选择最大的模型。

## 模型等级（Anthropic 的产品线）

以 Anthropic 的 Claude 系列为例（最新一代：**Opus 4.8**、**Sonnet 4.6**、**Haiku 4.5**）：

```text
Haiku   → smallest, fastest, cheapest
          → high-volume / simple tasks: classification, extraction, quick edits
Sonnet  → balanced cost/quality
          → everyday coding and general work (the sensible default)
Opus    → most capable, highest cost & latency
          → hardest multi-step reasoning, architecture, tricky debugging
```

排序是相对的：**Haiku < Sonnet < Opus** 在价格和延迟上都是如此，原始能力也遵循相同的顺序。

## 如何选择

- **从更便宜的开始。** 首先选择 Haiku 或 Sonnet；大多数任务不需要最高等级。
- **仅在质量需要时升级。** 如果较便宜的模型输出有误、不够深入，或在真正困难的问题上持续未能达到目标，则升级到 Opus。
- **考虑使用量。** 你运行数百万次的任务（标记、路由）应该使用 Haiku，即使 Opus 略好一些——成本和延迟会倍增。

```text
Classify 1M support tickets   → Haiku   (volume dominates; task is simple)
Implement a feature           → Sonnet  (balanced everyday coding)
Debug a subtle race condition → Opus    (hard reasoning justifies the cost)
```

## 为什么这很重要

默认使用最大的模型会在较便宜的等级可以很好处理的任务上浪费资金并增加延迟；默认使用最小的模型会在真正困难的工作上产生糟糕的结果。有意识地选择——从更便宜的开始，仅在质量需要时升级——在大规模应用中保持系统快速且经济实惠，同时将强大的模型分配给真正需要它的问题。