您如何判断一个 AI 答案是否可信，特别是对于生产代码？

Question

Accepted Answer

将 AI 答案视为一个**知识渊博但不可靠的同事的自信草稿**：有用，通常正确，但本身永远不是权威。信任来自*验证*，而不是来自输出听起来有多令人信服。

## 核心心态

**信心与正确性无关。** LLM 无论是否真实都会生成流畅的文本（它是一个下一个令牌预测器，而不是事实存储）。一个幻觉的 API 和一个真实的读起来完全相同。所以您无法通过语气来判断信任——只能通过您能确认的东西。

## 实践清单

- **运行它。** 对于代码，最强的信号是执行：测试、类型检查器、linter、编译器。通过真实测试套件的代码比仅看起来正确的代码可信得多。
- **检查幻觉的 API。** 验证每个函数、方法、标志和 import 确实存在——在文档或已安装的版本中，而不是来自记忆。编造但似乎合理的 API 是典型的失败。
- **针对权威来源进行验证。** 根据官方文档、标准或源代码交叉检查声明——而不是根据模型自己的重述。
- **推理边界情况和安全性。** 空/空输入、并发、错误路径、注入、authz。AI 通常处理快乐路径并省略危险的角落。
- **优先选择可以确认的内容。** 选择可以测试或查找的方法，而不是必须凭信心接受的聪明但不透明的方法。
- **需要对关键路径进行人工审查。** Auth、payments、数据删除、migrations、infra——了解系统的人类必须批准，无论答案看起来有多好。

## 快速规则

```text
Verifiable + verified        → trust
Verifiable + not yet checked → verify before using
Not verifiable               → don't depend on it
```

## 为什么这很重要

在生产中，看起来*正确*的错误答案比明显损坏的答案更危险，因为它会溜过去。随着 AI 编写更多代码，瓶颈从*生成*转移到*验证*。高级判断正是这样：知道流畅度不是证据，**模型的信心对正确性没有任何信息**，以及信任必须通过测试、来源和对重要事项的人工审查来赚取。保持可靠的工程师是那些验证而不是相信的人。