人工智能

使用检索增强生成（RAG）克服大语言模型的幻觉

发布于 2024年3月5日

更新于 2026年5月15日

作者

Haziqa Sajid

大语言模型（LLM）正在改变我们处理和生成语言的方式，但它们并不完美。就像人类可能在云中看到形状或在月球上看到面孔一样，LLM也可能“幻觉”，生成不准确的信息。这一现象，被称为LLM幻觉，随着LLM的使用而变得越来越令人担忧。

错误可能会让用户感到困惑，并在某些情况下甚至导致公司面临法律问题。例如，在2023年，空军退伍军人Jeffery Battle（也被称为The Aerospace Professor）对微软提起诉讼，因为微软的ChatGPT驱动的Bing搜索有时会提供关于他的名字搜索的不准确和有害信息。搜索引擎将他与被定罪的罪犯Jeffery Leon Battle混淆起来。

为了解决幻觉问题，检索增强生成（RAG）已经成为一个有前途的解决方案。它将外部数据库的知识融入其中，以提高LLM的输出准确性和可靠性。让我们更详细地了解RAG如何使LLM更加准确和可靠。我们还将讨论RAG是否能够有效地减轻LLM幻觉问题。

了解LLM幻觉：原因和例子

LLM，包括著名的模型如ChatGPT、ChatGLM和Claude，是在大量文本数据集上训练的，但它们并不能免于产生事实上不正确的输出，这种现象被称为“幻觉”。幻觉发生是因为LLM被训练为根据潜在的语言规则生成有意义的响应，而不考虑其事实上的准确性。

Tidio的一项研究发现，虽然72%的用户认为LLM是可靠的，但75%的用户至少一次从AI那里收到了不正确的信息。甚至最有前途的LLM模型，如GPT-3.5和GPT-4，有时也会产生不准确或无意义的内容。

以下是常见的LLM幻觉类型的简要概述：

常见的AI幻觉类型：

源混淆： 这种情况发生在模型将来自不同源的细节合并时，导致矛盾或甚至虚构的源。
事实错误： LLM可能会生成具有不准确事实基础的内容，特别是考虑到互联网的固有不准确性。
无意义的信息： LLM根据概率预测下一个单词。它可能会导致语法正确但无意义的文本，误导用户关于内容的权威性。

去年，两名律师因在法庭文件中引用六个不存在的案例而面临可能的处罚，因为他们被ChatGPT生成的信息误导。这个例子强调了以批判的眼光对待LLM生成的内容的重要性，强调了验证以确保可靠性的必要性。虽然其创造能力使其在故事讲述等应用中受益，但它在需要严格遵守事实的任务中（如进行学术研究、撰写医疗和财务分析报告以及提供法律建议）带来了挑战。