思想领袖
当您的AI编造事实时:企业无法忽视的风险

这听起来很正确。它看起来很正确。它是错误的。这就是您的AI在产生幻觉时的表现。问题不仅仅在于今天的生成式AI模型会产生幻觉,还在于我们认为,只要我们建立足够的防护措施,微调它,使用RAG方法,驯服它,那么我们就可以在企业规模上采用它。
| 研究 | 领域 | 幻觉率 | 主要发现 |
|---|---|---|---|
| 斯坦福HAI与RegLab (2024年1月) | 法律 | 69%–88% | 大型语言模型在响应法律查询时表现出高幻觉率,往往缺乏对其错误的自我意识,并强化了不正确的法律假设。 |
| JMIR研究 (2024) | 学术引用 | GPT-3.5:90.6%,GPT-4:86.6%,Bard:100% | 大型语言模型生成的引用往往不相关、不正确或不受现有文献支持。 |
| 英国关于AI生成内容的研究 (2025年2月) | 金融 | 未指定 | AI生成的虚假信息增加了银行挤兑的风险,一大部分银行客户在查看AI生成的虚假内容后考虑转移资金。 |
| 世界经济论坛全球风险报告 (2025) | 全球风险评估 | 未指定 | 由AI放大的人们的虚假信息和错误信息,在两年内被列为首要的全球风险。 |
| Vectara幻觉排行榜 (2025) | AI模型评估 | GPT-4.5-Preview:1.2%,Google Gemini-2.0-Pro-Exp:0.8%,Vectara Mockingbird-2-Echo:0.9% | 评估了各种大型语言模型的幻觉率,揭示了它们在性能和准确性方面存在显著差异。 |
| 关于事实性幻觉的Arxiv研究 (2024) | AI研究 | 未指定 | 引入了HaluEval 2.0,以系统地研究和检测大型语言模型中的幻觉,重点关注事实上的不准确性。 |
幻觉率从0.8%到88%
是的,这取决于模型、领域、用例和上下文,但这种差异应该会让任何企业决策者感到不安。这些并不是边缘错误。它们是系统性的。那么,您如何在企业中做出正确的AI采用决策?在哪里、如何、多深、多广?
每天,您的新闻源中都会出现这些现象的真实后果的例子。 G20金融稳定委员会已将生成式AI标记为虚假信息的载体,这可能会导致市场危机、政治不稳定和更糟糕的情况——闪崩、假新闻和欺诈。在最近的一则报道中,摩根律师事务所向所有律师发出了一份紧急备忘录:在检查之前,不要提交AI生成的文件。伪造的案例法是一个“可解雇”的罪行。
现在可能不是押注幻觉率趋近于零的最佳时机。尤其是在监管行业中,例如法律、生命科学、资本市场或其他行业,错误的代价可能很高,包括出版高等教育。
幻觉不是舍入错误
这不仅仅是关于偶尔的错误答案。它是关于 风险:声誉、法律、运营。
生成式AI不是一个推理引擎。它是一个统计完成器,一个随机的鹦鹉。它根据训练数据以最可能的方式完成您的提示。即使听起来正确的部分也是猜测。我们称最荒谬的部分为“幻觉”,但整个输出都是一个幻觉。一个设计良好的幻觉。尽管如此,它仍然有效——直到它失效。
AI作为基础设施
然而,必须指出,AI将在我们开始将其视为 基础设施 而不是魔术时准备好用于企业范围的采用。并且在需要时,它必须是透明的、可解释的和可追溯的。如果不是这样,那么它对于那些用例来说就还没有准备好用于企业范围的采用。如果AI正在做出决定,那么它应该在您的董事会的雷达上。
欧盟的AI法案正在此方面领先。像司法、医疗保健和基础设施这样的高风险领域将被视为关键系统。文档、测试和可解释性将是强制性的。
企业安全AI模型的作用
专门从事构建企业安全AI模型的公司,会有意识地决定以不同的方式构建AI。在他们的替代AI架构中,语言模型不会在数据上进行训练,因此不会被数据中的任何不良内容“污染”,例如偏见、知识产权侵权或猜测或产生幻觉的倾向。
这些模型不会“完成您的想法”——它们从用户的 内容 中推理。它们的知识库。它们的文档。它们的数据。如果答案不在那里,这些模型会说出来。这就是使这些AI模型可解释、可追溯、确定性和在幻觉不可接受的地方成为一个好的选择的原因。
AI问责的5步骤游戏计划
- 绘制AI地图 – AI在您的业务中被使用的位置是什么?它们正在影响什么样的决策?您如何看待能够将这些决策追溯到透明分析和可靠来源材料的能力的价值?
- 使您的组织保持一致 – 根据AI部署的范围,建立与财务或网络安全风险相同的严格程度的角色、委员会、流程和审计实践。
- 将AI纳入董事会级别的风险 – 如果您的AI与客户或监管机构交互,那么它就属于您的风险报告范畴。治理不是一个次要的考虑因素。
- 将供应商视为共同责任 – 如果您的供应商的AI编造事实,那么您仍然拥有后果。将您的AI问责原则扩展到他们。要求文档、审计权和可解释性和幻觉率的服务水平协议。
- 培养怀疑主义 – 您的团队应该将AI视为一个初级分析师——有用,但并非无懈可击。庆祝某人识别出幻觉的时刻。信任必须是赢得的。
企业中的AI的未来不是更大的模型。需要的是更多的精确性、更多的透明度、更多的信任和更多的问责制。
es. 培养怀疑主义 – 您的团队应该将AI视为一个初级分析师——有用,但并非无懈可击。庆祝某人识别出幻觉的时刻。信任必须是赢得的。企业中的AI的未来不是更大的模型。需要的是更多的精确性、更多的透明度、更多的信任和更多的问责制。












