存根 使用大型语言模型训练改进的文本嵌入 - Unite.AI
关注我们.

即时工程

使用大型语言模型训练改进的文本嵌入

mm

发布时间

 on

文本嵌入是单词、句子、段落或文档的向量表示,可捕获其语义。它们是当今许多自然语言处理 (NLP) 应用程序的核心构建块,包括信息检索、问答、语义搜索等。

向量嵌入

向量嵌入

GPT-3 等大型语言模型 (LLM) 的最新进展在小样本学习和自然语言生成方面表现出了令人印象深刻的能力。我们能否利用法学硕士来推进文本嵌入的发展?在他们的论文中“使用大型语言模型改进文本嵌入“,微软的研究人员提出了一种新颖的方法,通过使用法学硕士生成合成训练数据并对其进行微调,可以取得优异的结果。

现有方法的挑战

传统的文本嵌入技术(例如词向量加权平均值或 TF-IDF)无法充分捕获文本中丰富的上下文信息。基于预训练语言模型(如 BERT)的最新方法获得了更好的上下文感知嵌入。

然而,它们需要复杂的多阶段训练管道:

  • 对数十亿个弱标记或人工文本对进行预训练
  • 对有限的手工数据集进行微调

这需要大量的计算资源和人力来收集数据。训练数据还受到多样性和语言覆盖范围的限制。例如,BEIR 基准仅包含 15 个英语检索任务的数据集。

现有方法主要使用较小的 BERT 式架构作为骨干模型。他们无法利用更先进的法学硕士和相关技术。

方法论:利用法学硕士生成综合数据

为了克服这些限制,研究人员提出了一种新颖的单阶段训练方法,利用 GPT-3 和 GPT-4 等 LLM 来生成不同的合成训练数据。

关键步骤是:

  1. 任务分类: 定义一个分类法,将文本嵌入任务分为:
    • 非对称任务(查询和文档而不是释义,例如搜索)
    • 对称任务(查询和文档是释义,例如语义相似性)
  2. 提示设计: 创建适合每种任务类型的提示模板,指导法学硕士生成相关的培训示例。
  3. 综合数据生成: 使用设计的提示提示法学硕士生成数十万个(查询、文档)对,涵盖 93 种语言的各种语义任务。
  4. 模型训练: 使用对比损失对合成数据上的强大开源 LLM(例如 Mistral)进行微调。

这种方法允许为多种语言的不同任务创建充足的训练数据,而无需任何人工标记工作。通过在网络规模的语料库上进行预训练,利用法学硕士中已经嵌入的知识,我们可以合成为文本嵌入精确定制的高质量数据。

研究人员通过两步提示策略证明了这一点:

  • 提示 GPT-4 建议潜在的检索任务

提示生成高级检索任务

    提示生成高级检索任务
  • 再次提示它根据建议的任务生成(查询、文档)样本

n 生成(查询、正、硬负)三元组

    n 生成(查询、正、硬负)三元组

提示设计的一些关键方面:

  • 自然语言提示直观的类人指令
  • 鼓励多样性的占位符(例如查询长度、清晰度、文档长度)
  • 组合来自同一任务类型的多个模板的数据
  • 根据资源可用性对语言进行加权

总的来说,他们能够以 500 亿代币的计算成本生成 180 万个文本嵌入示例。主要语言是英语(43%),其次是波兰语、日语、意大利语等。

对于模型训练,他们选择了开源7B参数的微调 寒冷西北风 模型而不是更小的 BERT 风格的架构。由于 Mistral 已经在大量文本语料库上进行了预训练,因此不需要额外的对比预训练。添加它带来的改进可以忽略不计。

整个微调花费了不到 1 步,混合使用了合成数据和人工标记数据。这证明了所提出方法的样本效率。

成果

研究人员在 MTEB 基准上评估了他们的模型,该基准涵盖了分类、聚类、语义相似性、摘要和信息检索等多种任务。

他们的模特 平均得分比之前的最先进水平高出 2.4 分,几乎为每个类别创造了新记录:

型号以前的SOTA建议模型
分类76.078.5
聚类46.150.3
成对分类87.188.3
重新排名60.060.2
恢复54.356.9
STS83.184.6
概要31.631.4
一般64.266.6

值得注意的是,即使不使用任何标记数据并且仅对合成数据进行训练,它也能实现有竞争力的准确率——仅落后完全监督模型 3.5 个百分点。这证明了仅使用 LLM 生成文本嵌入的可行性,无需人工注释。

研究人员还对涵盖 18 种语言的多语言 MIRACL 基准进行了评估。他们的模型在高资源语言上的表现优于之前的最佳模型,但在低资源语言上表现较差。他们假设可以通过对法学硕士进行更广泛的低资源语言预训练来缓解这种情况。

总之,在 LLM 生成的合成数据上训练的文本嵌入建立了新的最先进的结果,同时与之前的多阶段方法相比使用更简单、更高效的训练。随着对快速工程和合成数据质量的进一步研究,这种方法可以极大地推进多语言文本嵌入。

分析

这项工作提供了几个有价值的结论:

  • GPT-3 和 GPT-4 等法学硕士具有令人印象深刻的能力,可以在适当的提示下为各种 NLP 任务生成高质量的合成训练数据。这可以减少对人工标记数据的依赖。
  • 对于文本嵌入,对比预训练比仅微调模型(例如 Mistral 已经进行了万亿级预训练)提供的收益可以忽略不计。这是对培训效率的重要见解。
  • 检索增强生成方法使法学硕士能够动态访问外部知识。因此,改进文本嵌入对于增强这些法学硕士非常有价值。
  • 资源匮乏的语言还有很大的改进空间。对更具代表性的数据进行预培训的多语言法学硕士可以帮助缩小这一差距。
  • 从概念上讲,语言建模和文本嵌入是同一枚硬币的两个侧面——理解语言语义。通过合成数据提示,法学硕士可以有机地微调为嵌入器,而无需复杂的管道。

未来工作的一些有希望的方向包括:

  • 利用 GPT-NeoX 等开源 LLM 生成合成数据
  • 探索轻量级后训练以使嵌入器适应更长的上下文
  • 开发及时的工程技术来控制质量和任务范围
  • 改善工业用途的推理延迟和存储成本的方法

除了超越基准之外,使用大型语言模型来增强文本嵌入还为未来开辟了有趣的可能性。随着法学硕士对自然语言的掌握不断进步,他们生成高保真合成数据的能力也可能会提高。

然而,关键的研究方向仍然是将这种潜力转化为现实世界的影响。

定制和控制

合成数据的一个主要好处是能够以编程方式生成适合特定需求的示例。正如论文所演示的,即时工程允许为数十万个嵌入任务创建训练数据。

然而,当前的提示设计实践仍然更多地是一门艺术而不是科学。开发系统的、可重复的方法来精确控制生成数据的属性将扩大该技术的适用性。

例如,调节示例的复杂性、模糊性和新颖性等因素的技术可以帮助解决下游任务中的稳健性问题。动态提示生成以匹配不断变化的现实世界分布是另一个开放的挑战。

大规模培训

虽然经过预训练的法学硕士已经编码了大量的语言知识,但他们的数据生成技能可能会随着规模的扩大而进一步增强。像 GPT-4 这样的模型在数万亿个互联网文本标记上进行训练,表现出强大的小样本学习能力,但尚未专门针对合成训练数据进行优化。

为网络规模引导自监督数据生成而定制的架构和目标可以大大提高该方法的质量和效率。有效整合检索到的知识来补充学到的知识是另一个有前途的方向。

多任务和多语言

正如该论文指出的那样,提高低资源语言的性能仍然是一个问题。另一种选择是训练一组专门针对特定数据模式或语言领域的小型专家模型,而不是预先训练单个大型法学硕士。

这种集成方法可以通过共享专家之间学习的表示来帮助提高对罕见任务和语言的覆盖率。随着时间的推移,不断学习以扩展语言和任务专业知识也是一个令人兴奋的前景。

总之,本文介绍了一种创新概念,即综合法学硕士的训练数据来创建高性能文本嵌入。他们的结果证明了这种方法的有效性,优于之前的基准。随着法学硕士和合成数据技术的进步,利用他们的知识来训练嵌入器可能成为一个非常有前途的方向。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。