关注我们.

人工智能

合成数据如何影响人工智能幻觉?

mm

尽管合成数据是一种强大的工具,但它只能在特定情况下减少人工智能的幻觉。在几乎所有其他情况下,它都会放大这些幻觉。这是为什么呢?这种现象对那些投资它的人来说意味着什么? 

合成数据与真实数据有何不同?

合成数据是人工智能生成的信息。它不是从现实世界的事件或观察中收集而来,而是人工生成的。然而,它与原始数据相似度足以产生准确、相关的输出。无论如何,这就是我们的想法。  

为了创建人工数据集,AI 工程师在真实的关系数据库上训练生成算法。在收到提示后,它会生成第二组数据,该数据与第一组数据非常相似,但不包含任何真实信息。虽然总体趋势和数学特性保持不变,但噪音足以掩盖原始关系。 

人工智能生成的数据集超越了去身份识别,它复制了字段之间关系的底层逻辑,而不是简单地用等效的替代字段。由于它不包含任何身份识别细节,公司可以使用它来规避隐私和版权法规。更重要的是,他们可以自由地共享或分发它,而不必担心遭到泄露。 

然而,虚假信息更常用于补充。企业可以利用它来丰富或扩大过小的样本量,使其足够大,从而有效地训练人工智能系统。 

合成数据是否可以最大限度地减少人工智能幻觉?

有时,算法会引用不存在的事件或提出逻辑上不可能的建议。这些幻觉通常是无意义的、误导性的或不正确的。例如,大型语言模型可能会写一篇关于驯养狮子或 6 岁时成为医生的指南文章。然而,它们并不都是如此极端,这使得识别它们变得具有挑战性。 

如果经过适当管理,人工数据可以减轻这些事件的影响。相关、真实的训练数据库是任何模型的基础,因此,有理由认为,一个人拥有的细节越多,他们的模型输出就越准确。补充数据集可以实现可扩展性,即使对于公开信息有限的小众应用程序也是如此。 

消除偏见是合成数据库减少人工智能幻觉的另一种方法。根据麻省理工学院斯隆管理学院的说法,它 有助于解决偏见 因为它不受原始样本大小的限制。专业人士可以使用真实的细节来填补选定亚群代表性不足或过度的空白。 

人工数据如何加剧幻觉

由于智能算法 无法推理或将信息情境化,他们很容易产生幻觉。生成模型——尤其是经过预训练的大型语言模型——尤其容易受到攻击。在某些方面,人造事实使问题更加复杂。 

偏置放大

和人类一样,人工智能可以学习并重现偏见。如果人工数据库高估某些群体,而低估其他群体(这种情况很容易发生),其决策逻辑就会出现偏差,从而对输出准确性产生不利影响。 

当公司使用虚假数据来消除现实世界的偏见时,也可能会出现类似的问题,因为虚假数据可能不再反映现实。例如, 超过 99% 的乳腺癌 发生在女性身上,使用补充信息来平衡代表性可能会扭曲诊断。

交叉幻觉

交叉性是一种社会学框架,用于描述年龄、性别、种族、职业和阶级等人口统计学特征如何交叉。它分析了群体重叠的社会身份如何导致歧视和特权的独特组合。

当要求生成模型根据训练内容产生人工细节时,它可能会生成原始内容中不存在或逻辑上不可能的组合。

林雪平大学性别与社会学教授埃里卡·约翰逊与一位机器学习科学家合作证明了这一现象。他们使用了一个生成对抗网络 创建合成版本 1990 年美国人口普查数据。 

他们马上就发现了一个明显的问题。人工版本有“妻子和单身”和“从未结婚的丈夫”等类别,这两个类别都是交叉幻觉。

如果没有适当的管理,副本数据库将始终在数据集中过度代表占主导地位的亚群,同时代表不足的群体(甚至排除)群体。边缘情况和异常值可能会被完全忽略,以支持主导趋势。 

模型崩溃 

过度依赖人工模式和趋势会导致模型崩溃——算法的性能会急剧下降,因为它越来越不能适应现实世界的观察和事件。 

这种现象在下一代生成式人工智能中尤为明显。反复使用人工版本来训练它们会导致自我消耗循环。一项研究发现,他们的 质量和召回率下降 每一代都没有足够的近期实际数据。

过度拟合 

过度拟合 过度依赖训练数据。算法最初表现良好,但当出现新的数据点时就会产生幻觉。如果合成信息不能准确反映现实,则会使这个问题更加严重。 

继续使用合成数据的影响

合成数据市场正在蓬勃发展。这个细分行业的公司 筹集了大约328亿美元 2022 年,这一数字比 53 年的 2020 万美元有所增加——仅 518 个月就增长了 18%。值得注意的是,这仅仅是公开的资金,这意味着实际数字可能更高。可以肯定地说,公司对这一解决方案投入了大量资金。 

如果公司继续使用未经适当管理和消除偏见的人工数据库,其模型性能将逐渐下降,从而损害其人工智能投资。根据应用的不同,结果可能更为严重。例如,在医疗保健领域,幻觉激增可能导致误诊或治疗计划不当,从而导致患者治疗效果更差。

解决方案不需要返回真实数据

人工智能系统需要数百万甚至数十亿张图像、文本和视频进行训练,其中大部分是从公共网站上抓取并汇编成海量开放数据集。不幸的是,算法消耗这些信息的速度比人类生成信息的速度要快。当算法学会一切时会发生什么?

企业领导者担心会遇到数据墙——即互联网上所有公共信息都被耗尽的临界点。这一时刻可能比他们想象的要快。 

尽管一般常见的抓取网页的纯文本数量和互联网用户数量 增长 2% 至 4% 每年,算法的高质量数据都快用完了。只有 10% 到 40% 的数据可用于训练而不会影响性能。如果这种趋势持续下去,到 2026 年,人类生成的公共信息库存可能会耗尽。

很有可能,人工智能行业可能更早地遭遇数据壁垒。过去几年,人工智能的蓬勃发展加剧了信息所有权和版权侵权的紧张局势。越来越多的网站所有者正在使用 Robots Exclusion Protocol(一种使用 robots.txt 文件来阻止网络爬虫的标准)或明确表示他们的网站是禁止访问的。 

麻省理工学院领导的研究小组于 2024 年发表的一项研究表明,Colossal Cleaned Common Crawl (C4) 数据集(一种大规模网络爬虫语料库)的限制正在增加。 28% 最活跃、最关键的消息来源 C4 中的 45% 区域已完全被限制。此外,服务条款规定 C4 的 XNUMX% 区域目前已禁止进入。 

如果公司遵守这些限制,现实世界公开事实的新鲜度、相关性和准确性就会下降,迫使他们依赖人工数据库。如果法院裁定任何其他选择都是侵犯版权,他们可能别无选择。 

合成数据和人工智能幻觉的未来 

随着版权法的现代化以及越来越多的网站所有者向网络爬虫隐藏其内容,人工数据集生成将变得越来越流行。组织必须做好准备,应对幻觉的威胁。 

扎克·阿莫斯 (Zac Amos) 是一位专注于人工智能的科技作家。 他还是以下网站的专题编辑: 重新破解,您可以在那里阅读他的更多作品。