Connect with us

思想领袖

解决大型语言模型(LLM)当前问题和展望未来发展

mm

如今,已经有数十个公开可用的大型语言模型(LLM),例如 GPT-3、GPT-4、LaMDA 或 Bard,其数量还在不断增长,因为新的模型不断发布。LLM 已经彻底改变了人工智能,改变了我们在各个行业与技术交互的方式。这些模型使我们能够从大量的人类语言数据中学习,并为创新、创造力和效率开辟了新的途径。

然而,随着巨大的力量而来的是巨大的复杂性。LLM 围绕着固有的挑战和伦理问题,这些问题必须在我们能够充分利用它们之前解决。例如,最近的一项斯坦福大学研究 发现,当观察 ChatGPT-4 处理某些包含种族或性别相关的名字的查询时存在种族和性别偏见。在这项研究中,程序被要求就某人购买二手自行车的价格提供建议,卖家名为 Jamal Washington,结果得出的价格远低于卖家名为 Logan Becker 时的价格。随着这些发现不断被揭露,解决 LLM 挑战的必要性只会增加。

如何缓解常见的 LLM 问题

偏见

LLM 中最常讨论的问题之一是偏见和公平性。在最近的一项研究中,专家测试了四个最近发布的 LLM,发现它们都对男性和女性持有偏见,特别是与人们的认知相符,而不是基于事实。在这种情况下,偏见指的是不同社会群体之间的不平等对待或结果,可能是由于历史或结构性权力失衡造成的。

在 LLM 中,偏见是由数据选择、创建者人口统计和语言或文化偏差引起的。数据选择偏差发生在 LLM 训练中选择的文本不能代表互联网上使用的语言的全部多样性时。训练在广泛但有限的数据集上的 LLM 可能会继承这些文本中已经存在的偏见。创建者人口统计学中,某些人口群体比其他群体更常被突出,这表明需要在内容创作中增加多样性和包容性,以减少偏见。例如,维基百科(Wikipedia),一个常见的训练数据来源,在其编辑人员中表现出显著的人口失衡,男性占多数(84%)。这与语言和文化的偏差类似,许多 LLM 训练的来源都偏向英语,仅在某些时候才能在其他语言和文化中准确翻译。

为了减少偏见,必须对 LLM 进行过滤数据训练,并建立防护措施以抑制不一致的数据表示。实现这一点的一种方法是通过基于数据增强的技术。可以将代表性不足群体的示例添加到训练数据中,从而扩大数据集的多样性。另一种缓解策略是数据过滤和重新加权,主要针对特定的、代表性不足的示例在现有数据集中。

幻觉

在 LLM 的背景下,幻觉是一种现象,其特点是生成文本虽然在语法上正确且看似连贯,但与事实准确性或源材料的意图相悖。事实上,最近的报告 发现,一起关于明尼苏达州法律的诉讼直接受到 LLM 幻觉的影响。提交支持该法律的宣誓书中发现包含了不存在的来源,这些来源可能是由 ChatGPT 或其他 LLM 生成的。这些幻觉可以轻松降低 LLM 的可靠性。

幻觉有三种主要形式:

  1. 输入冲突幻觉:当 LLM 的输出与用户提供的输入(包括任务说明和需要处理的实际内容)相矛盾时,就会发生这种情况。
  2. 上下文冲突幻觉:LLM 可能会在涉及多个对话或多次交互的场景中生成内部不一致的响应。这表明模型可能存在跟踪上下文或在多次交互中保持一致性的潜在缺陷。
  3. 事实冲突幻觉:这种幻觉发生在 LLM 生成的内容与已确立的事实知识相矛盾时。这种错误的来源多种多样,可能发生在 LLM 生命周期的各个阶段。

许多因素导致了这一现象,例如知识缺陷,这可以解释为什么 LLM 可能在预训练期间缺乏知识或无法正确吸收信息。另外,训练数据中的偏差或 LLM 的顺序生成策略(称为“幻觉雪球效应”)可以产生幻觉。

可以通过多种方法减轻幻觉,尽管它们将始终是 LLM 的特征。减轻幻觉的有用策略包括在预训练期间减轻(使用过滤技术手动精炼数据)或微调(策划训练数据)。然而,在推理期间减轻是最好的解决方案,因为它具有成本效益和可控性。

隐私

随着互联网的兴起,个人信息和其他私人数据的可访问性增加已成为一个广泛认可的担忧。研究发现,80% 的美国消费者担心他们的数据被用于训练 AI 模型。由于最著名的 LLM 来源于网站,我们必须考虑这如何构成隐私风险,并且仍然是 LLM 的一个未解决的问题。

防止 LLM 分发个人信息的最直接方法是从训练数据中清除它。然而,考虑到 LLM 中涉及的数据量,几乎不可能保证所有私人信息都被消除。另一个常见的替代方案是,依赖外部开发模型的组织可以选择使用开源 LLM 而不是像 ChatGPT 这样的服务。

通过这种方法,可以在内部部署模型的副本。用户的提示在组织的网络内保持安全,而不是暴露给第三方服务。虽然这大大减少了泄露敏感数据的风险,但也增加了显著的复杂性。考虑到完全保证私人数据保护的困难,应用程序开发人员仍然必须考虑这些模型如何将他们的用户置于风险之中。

LLM 的下一个前沿

随着我们继续通过减轻当前风险来发展和塑造 LLM 的后续演进,我们应该期待 LLM 代理的突破,我们已经看到像 H 的 Runner H 等公司开始发布。从纯语言模型到代理架构的转变代表了 AI 系统设计的变化;行业将从聊天界面和简单的检索增强生成的固有局限性中走出来。这些新的代理框架将具有复杂的规划模块,可以将复杂的目标分解为原子子任务,维护情景记忆以进行语境推理,并通过明确定义的 API 利用专用工具。这种方法为任务自动化提供了更强大的方法。架构的进步有助于缓解传统 LLM 实现中常见的任务和推理、工具集成以及执行监控的挑战。

除了 LLM 之外,还将更加注重训练较小的语言模型,因为它们具有成本效益、可访问性和易部署性。例如,领域特定的语言模型专门针对特定的行业或领域。这些模型使用特定领域的数据和术语进行了精细调整,使它们非常适合复杂和受监管的环境,例如医疗或法律领域,在这些领域中,精度至关重要。这种有针对性的方法降低了一般用途模型在处理专业内容时可能产生的错误和幻觉的可能性。

随着我们继续探索 LLM 的新前沿,推动创新边界并解决和减轻与其开发和部署相关的潜在风险至关重要。只有通过首先识别和积极解决与偏见、幻觉和隐私相关的挑战,我们才能为 LLM 在各个领域蓬勃发展创造更坚实的基础。

Uday Kamath 是 Smarsh 的首席分析官,Smarsh 是全球领先的通信数据和智能公司。他的职责包括领导对话式 AI 的数据科学和研究。凭借超过 25 年的分析开发经验和可扩展机器学习博士学位,Kamath 的重要贡献遍及众多期刊、会议、书籍和专利。他也是包括 Falkonry 和 GMU 人机合作中心在内的商业公司和学术机构的顾问委员会的活跃成员。