将 AI 答案视为一个知识渊博但不可靠的同事的自信草稿:有用,通常正确,但本身永远不是权威。信任来自验证,而不是来自输出听起来有多令人信服。
核心心态
信心与正确性无关。 LLM 无论是否真实都会生成流畅的文本(它是一个下一个令牌预测器,而不是事实存储)。一个幻觉的 API 和一个真实的读起来完全相同。所以您无法通过语气来判断信任——只能通过您能确认的东西。
Verifiable + verified → trust
Verifiable + not yet checked → verify before using
Not verifiable → don't depend on it
在生产中,看起来正确的错误答案比明显损坏的答案更危险,因为它会溜过去。随着 AI 编写更多代码,瓶颈从生成转移到验证。高级判断正是这样:知道流畅度不是证据,模型的信心对正确性没有任何信息,以及信任必须通过测试、来源和对重要事项的人工审查来赚取。保持可靠的工程师是那些验证而不是相信的人。