思想领袖
在大型语言模型中保持陈旧事实新鲜的 3 种方法
像 GPT3、ChatGPT 和 BARD 这样的大型语言模型 (LLM) 如今非常流行。 对于这些工具对社会的好坏以及它们对人工智能的未来意味着什么,每个人都有自己的看法。 谷歌因其新模型 BARD 在复杂的问题上(轻微)出错而受到了很多批评。 当被问到“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜的哪些新发现时?” – 聊天机器人提供了三个答案,其中 2 个是正确的,1 个是错误的。 错误的是第一张“系外行星”照片是由 JWST 拍摄的,这是不正确的。 所以基本上,该模型的知识库中存储了一个不正确的事实。 为了使大型语言模型有效,我们需要一种方法来更新这些事实或用新知识来增强事实。
我们先来看看大型语言模型 (LLM) 内部是如何存储事实的。大型语言模型并非像数据库或文件那样以传统方式存储信息和事实。相反,它们经过海量文本数据的训练,并学习了这些数据中的模式和关系。这使得它们能够像人类一样对问题做出回应,但它们没有专门的存储位置来存储所学习到的信息。在回答问题时,模型会利用其训练数据,根据接收到的输入生成响应。语言模型所拥有的信息和知识是其在训练数据中学习到的模式的结果,而不是明确存储在模型内存中的结果。大多数现代 LLM 所基于的 Transformers 架构对事实进行了内部编码,用于回答提示中提出的问题。

因此,如果 LLM 内存中的事实错误或陈旧,则需要通过提示提供新信息。 提示是发送给 LLM 的文本,其中包含查询和支持证据,可以是一些新的或更正的事实。 这里有 3 种方法来解决这个问题。
1. 纠正 LLM 编码事实的一种方法是使用外部知识库提供与上下文相关的新事实。 该知识库可以是 API 调用以获取相关信息或对 SQL、No-SQL 或 Vector 数据库进行查找。 可以从存储数据实体及其之间关系的知识图中提取更高级的知识。 根据用户查询的信息,可以检索相关上下文信息并将其作为附加事实提供给法学硕士。 这些事实也可以被格式化为看起来像训练示例,以改进学习过程。 例如,您可以向模型传递一堆问题答案对来学习如何提供答案。

2. 增强 LLM 的一种更具创新性(也更昂贵)的方法是使用训练数据进行实际微调。 因此,我们不是在知识库中查询要添加的特定事实,而是通过对知识库进行采样来构建训练数据集。 使用微调等监督学习技术,我们可以创建一个新版本的法学硕士,并根据这些附加知识进行培训。 这个过程通常很昂贵,在 OpenAI 中构建和维护微调模型可能需要数千美元。 当然,随着时间的推移,成本预计会变得更便宜。
3. 另一种选择是使用强化学习 (RL) 等方法来训练具有人类反馈的代理,并学习如何回答问题的策略。 这种方法在构建适合特定任务的更小足迹模型方面非常有效。 例如,OpenAI 发布的著名的 ChatGPT 就是结合监督学习和 RL 与人类反馈进行训练的。

总之,这是一个高度发展的领域,每个大公司都希望进入并展示自己的差异化。 我们很快就会看到零售、医疗保健和银行等大多数领域的主要法学硕士工具能够以类人的方式做出反应,理解语言的细微差别。 这些由法学硕士支持的工具与企业数据集成可以简化访问并在正确的时间向正确的人员提供正确的数据。










