随着大型语言模型的应用扩展到专业领域,需要高效且有效的适应技术变得越来越关键。进入RAFT(检索增强的微调),一种新颖的方法,它结合了检索增强生成(RAG)和微调的优势,专门针对领域特定的问题回答任务。
领域适应的挑战
虽然大型语言模型是在大量数据上预训练的,但它们在专业领域(如医学研究、法律文件或企业特定知识库)中的性能往往有限。这是因为预训练数据可能无法充分代表这些专业领域的细微差别和复杂性。为了解决这个挑战,研究人员传统上采用了两种主要技术:检索增强生成(RAG)和微调。
检索增强生成(RAG)
RAG
RAG 是一种技术,允许大型语言模型在推理过程中访问和利用外部知识源。
它通过将实时数据检索集成到生成过程中来实现这一点,从而使模型的输出更准确和及时。RAG由三个核心步骤组成:检索,相关文档被收集;生成,模型根据检索的数据生成输出;以及增强,进一步完善输出。
RAG中的检索过程从用户的查询开始。大型语言模型分析查询并从外部数据库中检索相关信息,提供一个数据池,模型可以从中提取信息以生成其响应。生成阶段将此输入合成为连贯的叙述或答案。增强步骤通过添加上下文或调整连贯性和相关性来完善生成。
RAG模型可以使用各种指标进行评估,评估其提供准确、相关和及时信息的能力。
微调
supervised-fine-tuning
微调 ,另一方面,涉及通过在较小的任务特定数据集上进一步训练预训练的大型语言模型来适应特定任务或领域。这种方法允许模型学习模式并将其输出与所需的任务或领域对齐。虽然微调可以提高模型的性能,但它通常无法有效地将外部知识源纳入推理过程中,或在推理过程中考虑检索不完善的情况。
RAFT方法
RAFT
RAFT 代表检索感知微调,是一种创新性的训练方法,专门为语言模型设计,以增强其在领域特定任务中的性能,特别是开放书籍考试。RAFT通过准备包含问题和相关文档混合以及从相关文本中派生的连贯思考风格答案的训练数据来区别于标准微调。这种方法旨在提高模型回忆信息、推理和从提供的内容中推导答案的能力。
从本质上讲,RAFT微调语言模型,使其在涉及从一组文档中阅读理解和知识提取的任务中更加熟练。通过训练模型同时使用“oracle”文档(包含答案)和“干扰”文档(不包含答案),模型学习区分和有效利用相关信息。
RAFT的训练过程还强调了推理过程的生成,这不仅有助于形成答案,还引用了来源,类似于人类通过引用所读材料来证明他们的回答。
训练数据准备
RAFT下的训练过程涉及将数据的一部分包含oracle文档,这些文档直接与答案相关,而剩余的数据只包含干扰文档。微调鼓励模型学习何时依赖其内部知识(类似于记忆)以及何时从提供的上下文中提取信息。
RAFT的训练计划还强调了连贯思考的生成,这不仅有助于形成答案,还引用了来源,类似于人类通过引用所读材料来证明他们的回答。这种方法不仅为模型在检索增强生成(RAG)设置中做好准备,在这种设置中,模型必须考虑前k个检索文档,还确保模型的训练独立于使用的检索器,从而允许灵活地应用于不同的检索系统。
这种方法有多种用途:
它训练模型识别和利用提供的上下文中的相关信息,模拟开放书籍考试设置。
它增强了模型忽略不相关信息的能力,这是一项对于有效RAG的关键技能。
它将模型暴露在答案不在上下文中的情况下,鼓励模型在必要时依赖自己的知识。
RAFT的另一个关键方面是将连贯思考推理纳入训练过程。与其简单地提供问题和答案对,RAFT生成详细的推理解释,包括相关文档的逐字引用。这些解释以连贯思考格式呈现,指导模型完成推理所需的逻辑步骤以得出正确答案。
通过训练模型使用这些推理链,RAFT鼓励强大的推理能力的发展,并增强了模型对如何有效利用外部知识源的理解。
评估和结果
RAFT论文的作者对各种数据集进行了广泛的评估,包括PubMed(生物医学研究)、HotpotQA(开放领域问题回答)和Gorilla APIBench(代码生成)。他们的结果表明,RAFT一致地优于基线,例如带有和不带RAG的领域特定微调,以及带有RAG的更大模型,如GPT-3.5。
RAFT improves RAG performance
例如,在HuggingFace数据集上,RAFT实现了74%的准确率,相比领域特定微调(DSF)提高了31.41%,相比GPT-3.5带RAG提高了44.92%。同样,在HotpotQA数据集上,RAFT表现出28.9%的准确率增益,相比DSF。
RAFT的一个关键优势是其对检索不完善的鲁棒性。通过训练模型同时使用相关和不相关的文档,RAFT增强了模型区分和优先考虑相关信息的能力,即使检索模块返回次优结果时也是如此。
作者证明,只使用oracle文档进行微调通常会导致性能较差,相比于包含干扰文档的配置。这个发现强调了在训练过程中将模型暴露在各种检索场景下的重要性,确保模型为现实世界应用做好准备。
实际应用和未来方向
RAFT技术对广泛的实际应用具有重大影响,包括:
问题回答系统:RAFT可以用于构建高度准确和领域特定的问题回答系统,利用模型的学习知识和外部知识源。
企业知识管理:拥有大量知识库的组织可以利用RAFT开发定制的问题回答系统,允许员工快速访问和利用相关信息。
医学和科学研究:RAFT在医学研究等领域尤其有价值,在这些领域,获取最新的发现和文献对于推进科学理解至关重要。
法律和金融服务:RAFT可以通过提供基于相关法律文件或财务报告的准确和上下文感知的回答来帮助这些领域的专业人士。
随着该领域的研究继续进行,我们可以期待RAFT技术的进一步进步和改进。潜在的未来方向包括:
探索更高效、更有效的检索模块,针对特定领域或文档结构进行定制。
将多模态信息(如图像或表格)纳入RAFT框架,以增强上下文理解。
开发专门的推理架构,以更好地利用训练过程中生成的连贯思考解释。
将RAFT适应于超出问题回答的其他自然语言任务,例如总结、翻译或对话系统。
结论
RAFT代表了语言模型在领域特定问题回答方面的一个重大突破。通过将检索增强生成和微调的优势和谐地融合,RAFT使大型语言模型能够有效地利用外部知识源,同时将其输出与领域特定的模式和偏好对齐。
通过其创新性的训练数据策划、连贯思考推理的纳入以及对检索不完善的鲁棒性,RAFT为希望解锁大型语言模型在专业领域全部潜力的组织和研究人员提供了一个强大的解决方案。
随着对领域特定自然语言处理能力的需求继续增长,像RAFT这样的技术将在实现更准确、更上下文感知和更适应性语言模型方面发挥关键作用,为人类与机器之间的无缝和领域无关的通信铺平道路。