人工智能

人工合成数据如何影响AI的幻觉？

发布于 2025年2月8日

更新于 2026年5月19日

作者

Zac Amos

虽然人工合成数据是一种强大的工具，但它只能在特定情况下减少人工智能的幻觉。在几乎所有其他情况下，它会放大幻觉。为什么会这样呢？这对投资于人工合成数据的公司意味着什么？

人工合成数据与真实数据有什么不同？

人工合成数据是由人工智能生成的信息。它不是从真实世界的事件或观察中收集的，而是人工产生的。然而，它足够地模仿了原始数据，以产生准确、相关的输出。这是理想的情况。

为了创建人工数据集，人工智能工程师会将生成算法训练在真实的关系数据库上。当被提示时，它会产生一个第二个数据集，该数据集紧密地模仿第一个数据集，但不包含任何真实信息。虽然总体趋势和数学属性保持完整，但存在足够的噪音来掩盖原始关系。

人工智能生成的数据集超出了去识别化，复制了字段之间的关系逻辑，而不是简单地用等效的替代品替换字段。由于它不包含任何识别细节，公司可以使用它来避免隐私和版权法规。更重要的是，他们可以自由地共享或分发它，而不用担心泄密。

然而，人工信息更常用于补充。企业可以使用它来丰富或扩展样本大小，使其变得足够大，以有效地训练人工智能系统。

人工合成数据是否可以减少AI的幻觉？

有时，算法会引用不存在的事件或提出逻辑上不可能的建议。这些幻觉往往是无意义的、误导性的或不正确的。例如，一个大型语言模型可能会撰写一篇关于驯化狮子的教程或在6岁时成为医生的文章。然而，并非所有幻觉都如此极端，这使得识别它们变得具有挑战性。

如果人工数据得到适当的策划，它可以减轻这些事件。一个相关的、真实的训练数据库是任何模型的基础，因此，拥有更多细节的人将拥有更准确的模型输出。一个补充数据集可以实现可扩展性，即使对于具有有限公共信息的细分应用程序也是如此。

去偏见是人工数据集可以减少AI幻觉的另一种方式。根据麻省理工学院斯隆管理学院的说法，它可以帮助解决偏见问题，因为它不受原始样本大小的限制。专业人员可以使用真实细节来填补在选择子群体中欠代表或过度代表的空白。

人工数据如何使幻觉变得更糟

由于智能算法无法推理或上下文化信息，因此它们容易产生幻觉。生成模型，特别是预训练的大型语言模型，尤其容易受到影响。在某些方面，人工事实会加剧这个问题。

偏见放大

与人类一样，人工智能可以学习和复制偏见。如果人工数据集过度重视某些群体同时欠代表其他群体（这很容易意外地发生），其决策逻辑将会偏斜，从而不利于输出准确性。

类似的问题可能会出现，当公司使用人工数据来消除真实世界的偏见时，因为它可能不再反映现实。例如，超过99%的乳腺癌发生在女性身上，使用补充信息来平衡代表性可能会偏斜诊断结果。

交叉幻觉

交叉性是一种社会学框架，描述了年龄、性别、种族、职业和阶级等人口统计学特征如何相交。它分析了群体的社会身份如何重叠，导致独特的歧视和特权组合。

当一个生成模型被要求根据其训练数据生成人工细节时，它可能会生成在原始数据中不存在或逻辑上不可能的组合。

林克比大学的性别和社会教授埃里卡·约翰逊与一位机器学习科学家合作，演示了这一现象。他们使用生成对抗网络创建了1990年美国人口普查数据的人工版本。

他们立即注意到一个明显的问题。人工版本中有“妻子和单身”和“从未结婚的丈夫”等类别，这些都是交叉幻觉。

如果没有适当的策划，复制数据库将始终过度代表数据集中的主导子群体，同时欠代表或完全排除欠代表的群体。边缘情况和异常值可能会被完全忽略，以便偏爱主导趋势。

模型崩溃

过度依赖人工模式和趋势会导致模型崩溃，即算法的性能会随着其对真实世界观察和事件的适应性而大幅恶化。

这种现象在下一代生成人工智能中尤其明显。反复使用人工版本来训练它们会导致自我消耗的循环。研究发现，他们的质量和回忆率会在没有足够的最新、实际数字的情况下逐渐下降。

过拟合

过拟合是对训练数据的过度依赖。算法最初表现良好，但当面临新数据点时会产生幻觉。人工信息可以加剧这个问题，如果它不能准确反映现实的话。

继续使用人工合成数据的影响

人工合成数据市场正在蓬勃发展。该领域的公司在2022年筹集了约3280万美元的资金，较2020年的530万美元增加了518%。这仅仅是公开披露的资金，实际数字可能更高。可以肯定地说，公司对这一解决方案非常感兴趣。

如果公司继续使用人工数据库而不进行适当的策划和去偏见处理，他们的模型性能将会逐渐恶化，从而损害他们的AI投资。结果可能会更加严重，具体取决于应用。例如，在医疗保健领域，幻觉的激增可能会导致误诊或不当的治疗计划，导致患者的治疗效果变差。

解决方案不会涉及回到真实数据

人工智能系统需要数百万甚至数十亿的图像、文本和视频来进行训练，这些信息大部分来自公共网站，并编译成大型的开放数据集。遗憾的是，算法会比人类更快地消耗这些信息。那么，当它们学习了所有内容后会发生什么？

企业领导者担心会遇到“数据墙”——即互联网上所有公共信息都被耗尽的时刻。这种情况可能比他们想象的更快地到来。

尽管平均普通爬行网页上的纯文本数量和互联网用户数量每年都在增长2%至4%，但算法正面临着高质量数据的短缺。只有10%至40%的数据可以在不损害性能的情况下用于训练。如果这种趋势继续下去，人类生成的公共信息库可能会在2026年耗尽。

人工智能领域可能会更快地遇到数据墙。过去几年的大型语言模型热潮加剧了人们对信息所有权和版权侵权的担忧。更多的网站所有者正在使用机器人排除协议——一种使用robots.txt文件阻止网页爬虫的标准——或明确表示他们的网站不允许访问。

2024年，麻省理工学院领导的一个研究小组发表的一项研究发现，Colossal Cleaned Common Crawl（C4）数据集——一个大规模的网络爬行语料库——的限制正在增加。在C4中，超过28%的最活跃、最关键的来源被完全限制。此外，C4中有45%的内容被服务条款标记为禁止访问。

如果公司尊重这些限制，真实世界的公共事实的新鲜度、相关性和准确性将会下降，从而迫使他们依赖人工数据库。他们可能没有太多选择，如果法院裁定任何替代方案都构成版权侵权的话。

人工合成数据和AI幻觉的未来

随着版权法的现代化和更多网站所有者将内容隐藏起来以避免网页爬虫，人工数据集的生成将变得越来越流行。组织必须准备好面对幻觉的威胁。