通用人工智能

重排序器与两阶段检索在检索增强生成中的威力

Published April 15, 2024

Updated March 19, 2026

Aayush Mittal Mittal

在自然语言处理和信息检索领域，高效且准确地检索相关信息的能力至关重要。随着该领域的不断发展，新的技术和方法正在被开发出来，以提升检索系统的性能，尤其是在检索增强生成的背景下。其中一种被称为”带重排序器的两阶段检索”的技术，已成为解决传统检索方法固有局限性的强大方案。

在本文中，我们将探讨两阶段检索和重排序器的复杂性，探索其基本原理、实施策略，以及它们在提升RAG系统准确性和效率方面带来的好处。我们还将提供实际示例和代码片段来说明这些概念，并促进对这一尖端技术的更深入理解。

理解检索增强生成

在深入探讨两阶段检索和重排序器的具体细节之前，让我们先简要回顾一下检索增强生成的概念。RAG是一种通过为大型语言模型提供访问外部信息源（如数据库或文档集合）来扩展其知识和能力的技术。更多信息请参阅文章”深入探讨LLM中的检索增强生成“。

典型的RAG过程包括以下步骤：

查询：用户向系统提出问题或提供指令。
检索：系统查询向量数据库或文档集合，以查找与用户查询相关的信息。
增强：检索到的信息与用户的原始查询或指令相结合。
生成：语言模型处理增强后的输入并生成响应，利用外部信息来提高其输出的准确性和全面性。

虽然RAG已被证明是一种强大的技术，但它也并非没有挑战。其中一个关键问题在于检索阶段，传统检索方法可能无法识别最相关的文档，从而导致语言模型产生次优或不准确的响应。

对两阶段检索和重排序器的需求

传统的检索方法，例如基于关键词匹配或向量空间模型的方法，通常难以捕捉查询和文档之间细微的语义关系。这种局限性可能导致检索到的文档仅表面相关，或者遗漏了可能显著提高生成响应质量的关键信息。

为了应对这一挑战，研究人员和实践者转向了带重排序器的两阶段检索。这种方法涉及一个两步过程：

初始检索：在第一阶段，使用快速高效的检索方法（如向量空间模型或基于关键词的搜索）检索一个相对较大的潜在相关文档集。
重排序：在第二阶段，采用更复杂的重排序模型，根据文档与查询的相关性对初始检索到的文档进行重新排序，从而有效地将最相关的文档置于列表顶部。

重排序模型，通常是神经网络或基于Transformer的架构，经过专门训练以评估文档对给定查询的相关性。通过利用先进的自然语言理解能力，重排序器可以捕捉查询和文档之间的语义细微差别和上下文关系，从而实现更准确和相关的排序。

两阶段检索和重排序器的好处

在RAG系统中采用带重排序器的两阶段检索具有以下几个显著好处：

提高准确性：通过对初始检索到的文档进行重排序并将最相关的文档提升到顶部，系统可以向语言模型提供更准确和精确的信息，从而产生更高质量的生成响应。
缓解领域外问题：用于传统检索的嵌入模型通常在通用文本语料库上训练，可能无法充分捕捉特定领域的语言和语义。而重排序模型可以在特定领域的数据上进行训练，从而缓解”领域外”问题，并提高在专业领域内检索文档的相关性。
可扩展性：两阶段方法允许高效扩展，在初始阶段利用快速轻量的检索方法，同时将计算量更大的重排序过程保留给较小的文档子集。
灵活性：重排序模型可以独立于初始检索方法进行更换或更新，为系统不断变化的需求提供了灵活性和适应性。

ColBERT：高效有效的延迟交互

在重排序领域中，一个突出的模型是ColBERT（基于BERT的上下文化延迟交互）。ColBERT是一个文档重排序模型，它利用了BERT的深度语言理解能力，同时引入了一种称为”延迟交互”的新型交互机制。

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

ColBERT中的延迟交互机制允许通过分别处理查询和文档直到检索过程的最后阶段来实现高效和精确的检索。具体来说，ColBERT使用BERT独立编码查询和文档，然后采用一个轻量级但功能强大的交互步骤来建模它们的细粒度相似性。通过延迟但保留这种细粒度交互，ColBERT可以利用深度语言模型的表达能力，同时获得离线预计算文档表示的能力，从而显著加快查询处理速度。

ColBERT的延迟交互架构提供了几个好处，包括提高计算效率、随文档集合大小扩展的可扩展性以及在实际场景中的适用性。此外，ColBERT还通过去噪监督和残差压缩等技术（在ColBERTv2中）得到了进一步增强，这些技术改进了训练过程，并在保持高检索有效性的同时减少了模型的空间占用。

此代码片段演示了如何配置和使用jina-colbert-v1-en模型来索引文档集合，利用其高效处理长上下文的能力。

实现带重排序器的两阶段检索

现在我们已经了解了两阶段检索和重排序器背后的原理，让我们探索它们在RAG系统中的实际实现。我们将利用流行的库和框架来演示这些技术的集成。

环境设置

在深入代码之前，让我们先设置开发环境。我们将使用Python和几个流行的NLP库，包括Hugging Face Transformers、Sentence Transformers和LanceDB。

 # 安装所需库 !pip install datasets huggingface_hub sentence_transformers lancedb

数据准备

出于演示目的，我们将使用来自Hugging Face Datasets的”ai-arxiv-chunked”数据集，该数据集包含400多篇关于机器学习、自然语言处理和大型语言模型的ArXiv论文。

 from datasets import load_dataset dataset = load_dataset(&quot;jamescalam/ai-arxiv-chunked&quot;, split=&quot;train&quot;) &amp;lt;pre&amp;gt;

接下来，我们将对数据进行预处理，并将其分割成更小的块，以促进高效的检索和处理。

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") def chunk_text(text, chunk_size=512, overlap=64): tokens = tokenizer.encode(text, return_tensors="pt", truncation=True) chunks = tokens.split(chunk_size – overlap) texts = [tokenizer.decode(chunk) for chunk in chunks] return texts chunked_data = []

Aayush Mittal

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.