人工智能

合成数据如何影响AI的幻觉？

Published February 8, 2025

Updated April 26, 2026

Zac Amos

虽然合成数据是一种强大的工具，但它只能在特定情况下减少人工智能的幻觉。在几乎所有其他情况下，它都会放大这些幻觉。为什么会这样？这对那些投资于它的人来说意味着什么？

合成数据与真实数据有什么不同？

合成数据是由AI生成的信息。它不是从真实世界的事件或观察中收集的，而是人为地产生的。然而，它足够地模仿了原始数据，以产生准确、相关的输出。这是理论上的想法。

为了创建一个人工数据集，AI工程师会将一个生成算法训练在一个真实的关系数据库上。当被提示时，它会产生一个第二个集合，该集合紧密地镜像第一个集合，但不包含任何真实信息。虽然总体趋势和数学属性保持完整，但有足够的噪音来掩盖原始关系。

一个AI生成的数据集超出了去识别化，复制了字段之间的底层逻辑关系，而不是简单地用等效的替代品替换字段。由于它不包含任何识别细节，公司可以使用它来避免隐私和版权法规。更重要的是，他们可以自由地共享或分发它，而不怕违法。

然而，虚假信息更常用于补充。企业可以使用它来丰富或扩大样本大小，使其足够大以有效地训练AI系统。

合成数据是否最小化AI幻觉？

有时，算法会引用不存在的事件或提出逻辑上不可能的建议。这些幻觉往往是无意义的、误导性的或不正确的。例如，一个大型语言模型可能会撰写一篇关于驯化狮子的文章或成为6岁的医生。然而，并非所有这些都是极端的，这使得识别它们变得具有挑战性。

如果得到适当的策划，人工数据可以减轻这些事件。一个相关的、真实的训练数据库是任何模型的基础，因此，拥有更多细节的人将拥有更准确的模型输出。一个补充数据集可以实现可扩展性，即使对于具有有限公共信息的细分应用程序。

去偏见是另一种合成数据库可以最小化AI幻觉的方式。根据麻省理工学院斯隆管理学院的说法，它可以帮助解决偏见的问题，因为它不受原始样本大小的限制。专业人员可以使用真实细节来填补数据集中某些子群体被低估或高估表示的空白。

人工数据如何使幻觉变得更糟

由于智能算法无法推理或上下文化信息，它们容易出现幻觉。生成模型——尤其是预训练的大型语言模型——特别容易出现这种情况。在某些方面，人工事实加剧了这个问题。

偏见放大

像人类一样，AI可以学习和复制偏见。如果一个人工数据库过度重视某些群体同时低估其他群体——这很容易意外地发生——其决策逻辑将会偏斜，从而不利于输出准确性。

当公司使用虚假数据来消除真实世界的偏见时，可能会出现类似的问题，因为它可能不再反映现实。例如，超过99%的乳腺癌发生在女性身上，使用补充信息来平衡代表性可能会歪曲诊断结果。

交叉幻觉

交叉性是一个社会学框架，描述了人口统计学特征（如年龄、性别、种族、职业和阶级）如何相交。它分析了群体的社会身份如何重叠，导致独特的歧视和特权组合。

当一个生成模型被要求根据其训练数据生成人工细节时，它可能会生成原始数据或逻辑上不可能的组合。

林克平大学的性别和社会教授Ericka Johnson与一位机器学习科学家合作，展示了这一现象。他们使用一个生成对抗网络来创建1990年美国人口普查数据的合成版本。

他们立即注意到一个明显的问题。人工版本中有“妻子和单身”和“从未结婚的丈夫”等类别，这些都是交叉幻觉。

如果没有适当的策划，复制数据库将始终过度代表数据集中的主导子群体，同时低估或排除代表性不足的群体。边缘情况和异常值可能会被完全忽略，以偏向主导趋势。

模型崩溃

过度依赖人工模式和趋势会导致模型崩溃——算法的性能会随着它变得不适应于真实世界观察和事件而大幅恶化。

这一现象在下一代生成AI中尤其明显。反复使用人工版本来训练它们会导致自我消耗的循环。一个研究发现，随着每一代中没有足够的最新、实际数字，他们的质量和召回率会逐渐下降。

过拟合

过拟合是指对训练数据的过度依赖。算法最初表现良好，但当面对新数据点时会出现幻觉。人工信息可能会加剧这个问题，如果它不准确地反映现实的话。

继续使用合成数据的影响

合成数据市场正在蓬勃发展。2022年，该领域的公司筹集了大约3280万美元，而2020年的筹资额为530万美元——仅仅18个月就增长了518%。值得注意的是，这仅仅是公开已知的资金，实际数字可能更高。可以肯定地说，公司们非常重视这一解决方案。

如果公司继续在没有适当策划和去偏见的情况下使用人工数据库，他们的模型性能将会逐渐下降，从而使他们的AI投资变得糟糕。结果可能会更加严重，具体取决于应用。例如，在医疗保健领域，幻觉的激增可能会导致误诊或不当的治疗计划，导致患者的预后变差。

解决方案不会涉及返回真实数据

AI系统需要数百万、甚至数十亿张图像、文本和视频来进行训练，这些数据大部分来自公共网站的爬取，并编译成大量的开放数据集。遗憾的是，算法消耗这些信息的速度比人类生成信息的速度快。那么，当它们学到了所有东西时会发生什么？

商业领袖担心会撞上“数据墙”——即互联网上所有公共信息都被耗尽的时刻。它可能比他们想象的更快地到来。

尽管平均普通爬虫网页上的纯文本数量和互联网用户数量每年增长2%至4%，但算法正在耗尽高质量的数据。只有10%至40%的数据可以在不损害性能的情况下用于训练。如果趋势继续，人类生成的公共信息库可能会在2026年耗尽。

在所有可能性中，AI行业可能会更快地撞上数据墙。过去几年的大型生成AI热潮加剧了对信息所有权和版权侵权的紧张。更多网站所有者正在使用机器人排除协议——一种使用robots.txt文件来阻止网络爬虫的标准——或明确表示他们的网站不允许访问。

2024年，麻省理工学院领导的一个研究小组发表的一项研究显示，Colossal Cleaned Common Crawl（C4）数据集——一个大规模的网络爬取语料库——限制正在增加。在C4中，超过28%的最活跃、最关键的来源被完全限制。此外，45%的C4被其服务条款指定为禁止访问。

如果公司尊重这些限制，真实世界公共事实的新鲜度、相关性和准确性将会下降，从而迫使他们依赖人工数据库。他们可能没有太多选择，如果法院裁定任何替代方案都是版权侵权的话。

合成数据和AI幻觉的未来

随着版权法的现代化和更多网站所有者将内容隐藏在网络爬虫之外，人工数据集生成将变得越来越流行。组织必须准备好面对幻觉的威胁。

Related Topics:ai hallucination synthetic data