AGI

Kracht van Rerankers en Twee-Stadium Retrieval voor Retrieval Augmented Generation

Published April 15, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Wanneer het gaat om natuurlijke taalverwerking (NLP) en informatie-opname, is de mogelijkheid om efficiënt en nauwkeurig relevante informatie op te halen van het grootste belang. Naarmate het veld zich blijft ontwikkelen, worden nieuwe technieken en methoden ontwikkeld om de prestaties van opname-systemen te verbeteren, met name in de context van Retrieval Augmented Generation (RAG). Een van deze technieken, bekend als twee-stadium-opname met rerankers, is opgekomen als een krachtige oplossing om de inherente beperkingen van traditionele opnamemethoden aan te pakken.

In dit artikel bespreken we de nuances van twee-stadium-opname en rerankers, waarbij we de onderliggende principes, implementatiestrategieën en de voordelen die ze bieden voor het verbeteren van de nauwkeurigheid en efficiëntie van RAG-systemen onderzoeken. We zullen ook praktische voorbeelden en codefragmenten bieden om de concepten te illustreren en een dieper begrip van deze baanbrekende techniek te faciliteren.

Retrieval Augmented Generation (RAG) begrijpen

Voordat we de specificaties van twee-stadium-opname en rerankers ingaan, laten we eerst het concept van Retrieval Augmented Generation (RAG) kort herzien. RAG is een techniek die de kennis en mogelijkheden van grote taalmodellen (LLM’s) uitbreidt door ze toegang te geven tot externe informatiebronnen, zoals databases of documentcollecties. Raadpleeg meer uit het artikel “A Deep Dive into Retrieval Augmented Generation in LLM“.

Het typische RAG-proces omvat de volgende stappen:

Query: Een gebruiker stelt een vraag of geeft een instructie aan het systeem.
Opname: Het systeem vraagt een vector-database of documentcollectie op om informatie te vinden die relevant is voor de query van de gebruiker.
Uitbreiding: De opgehaalde informatie wordt gecombineerd met de oorspronkelijke query of instructie van de gebruiker.
Generatie: Het taalmodel verwerkt de uitgebreide invoer en genereert een antwoord, waarbij het externe informatie gebruikt om de nauwkeurigheid en volledigheid van de uitvoer te verbeteren.

Hoewel RAG zich heeft bewezen als een krachtige techniek, is het niet zonder uitdagingen. Een van de belangrijkste problemen ligt in het opname-stadium, waar traditionele opnamemethoden mogelijk geen relevante documenten kunnen identificeren, waardoor het taalmodel suboptimale of onnauwkeurige antwoorden kan geven.

De noodzaak van twee-stadium-opname en rerankers

Traditionele opnamemethoden, zoals die gebaseerd zijn op trefwoordovereenkomst of vectorruimtemodellen, hebben vaak moeite om de nuances van semantische relaties tussen queries en documenten te vangen. Deze beperking kan ertoe leiden dat documenten die alleen oppervlakkig relevant zijn, worden opgehaald, of dat cruciale informatie die de kwaliteit van het gegenereerde antwoord aanzienlijk kan verbeteren, wordt gemist.

Om deze uitdaging aan te pakken, zijn onderzoekers en beoefenaars overgestapt op twee-stadium-opname met rerankers. Deze aanpak omvat een tweestapsproces:

Initiële opname: In het eerste stadium wordt een relatief grote set van potentieel relevante documenten opgehaald met een snelle en efficiënte opnamemethode, zoals een vectorruimtemodel of een trefwoordgebaseerde zoekopdracht.
Reranking: In het tweede stadium wordt een meer geavanceerd rerankingsmodel gebruikt om de oorspronkelijk opgehaalde documenten opnieuw te rangschikken op basis van hun relevantie voor de query, waardoor de meest relevante documenten bovenaan de lijst komen te staan.

Het rerankingsmodel, vaak een neurale netwerk of een transformer-gebaseerde architectuur, is specifiek getraind om de relevantie van een document voor een bepaalde query te beoordelen. Door geavanceerde natuurlijke taalbegripsvermogens te gebruiken, kan de reranker de semantische nuances en contextuele relaties tussen de query en de documenten vangen, waardoor een nauwkeurigere en relevantere rangschikking ontstaat.

Voordelen van twee-stadium-opname en rerankers

De adoptie van twee-stadium-opname met rerankers biedt verschillende significante voordelen in de context van RAG-systemen:

Verbeterde nauwkeurigheid: Door de oorspronkelijk opgehaalde documenten opnieuw te rangschikken en de meest relevante naar de top te brengen, kan het systeem meer nauwkeurige en precieze informatie aan het taalmodel bieden, waardoor de gegenereerde antwoorden van hogere kwaliteit zijn.
Vermindering van uit-domeinproblemen: Embeddingsmodellen die voor traditionele opname worden gebruikt, zijn vaak getraind op algemene tekstcorpora, die mogelijk de domeinspecifieke taal en semantiek niet voldoende vangen. Rerankingsmodellen, aan de andere kant, kunnen op domeinspecifieke gegevens worden getraind, waardoor het “uit-domein”-probleem wordt vermindert en de relevantie van de opgehaalde documenten binnen gespecialiseerde domeinen wordt verbeterd.
Schaalbaarheid: De twee-stadium-aanpak maakt efficiënte schaalbaarheid mogelijk door snelle en lichtgewicht opnamemethoden in het eerste stadium te gebruiken, terwijl het meer computationeel intensieve rerankingsproces wordt gereserveerd voor een kleinere subset van documenten.
Flexibiliteit: Rerankingsmodellen kunnen onafhankelijk van de initiële opnamemethode worden gewisseld of bijgewerkt, waardoor flexibiliteit en aanpasbaarheid aan de evoluerende behoeften van het systeem wordt geboden.

ColBERT: Efficiënte en effectieve late interactie

Een van de opvallende modellen in het domein van rerankers is ColBERT (Contextualized Late Interaction over BERT). ColBERT is een document-rerankingsmodel dat de diepe taalbegripsvermogens van BERT gebruikt en een novum interactiemechanisme introduceert, bekend als “late interactie”.

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Het late interactiemechanisme in ColBERT maakt efficiënte en precieze opname mogelijk door queries en documenten afzonderlijk te verwerken tot de laatste stadia van het opnameproces. Specifiek codeert ColBERT de query en het document onafhankelijk met BERT en gebruikt vervolgens een lichtgewicht maar krachtig interactiestap dat de fijne-granulaire overeenkomst tussen de query en de documenten modelleert. Door deze fijne-granulaire interactie uit te stellen maar te behouden, kan ColBERT de expressiviteit van diepe taalmodellen benutten en tegelijkertijd de mogelijkheid krijgen om documentrepresentaties offline voor te berekenen, waardoor de queryverwerking aanzienlijk wordt versneld.

De late interactie-architectuur van ColBERT biedt verschillende voordelen, waaronder verbeterde computationele efficiëntie, schaalbaarheid met de grootte van de documentcollectie en praktische toepasbaarheid voor real-world scenario’s. Bovendien is ColBERT verder verfijnd met technieken als denoised supervisie en residu-compressie (in ColBERTv2), die het trainingsproces verfijnen en de ruimte-voetafdruk van het model verkleinen, terwijl de hoge opname-effectiviteit wordt behouden.

Dit codefragment toont hoe u het jina-colbert-v1-en-model kunt configureren en gebruiken voor het indexeren van een collectie documenten, waarbij het vermogen om lange contexten efficiënt te verwerken, wordt benut.

Implementatie van twee-stadium-opname met rerankers

Nu we een begrip hebben van de principes achter twee-stadium-opname en rerankers, laten we de praktische implementatie van deze technieken in de context van een RAG-systeem onderzoeken. We zullen populaire bibliotheken en frameworks gebruiken om de integratie van deze technieken te demonstreren.

Omgevingsinstellingen

Voordat we in de code duiken, stellen we onze ontwikkelomgeving in. We zullen Python en verschillende populaire NLP-bibliotheken gebruiken, waaronder Hugging Face Transformers, Sentence Transformers en LanceDB.

# Installeer vereiste bibliotheken
!pip install datasets huggingface_hub sentence_transformers lancedb

Datapreparatie

Voor demonstratiedoeleinden zullen we de “ai-arxiv-chunked”-dataset van Hugging Face Datasets gebruiken, die meer dan 400 ArXiv-papers over machine learning, natuurlijke taalverwerking en grote taalmodellen bevat.

from datasets import load_dataset

dataset = load_dataset("jamescalam/ai-arxiv-chunked", split="train")

&amp;lt;pre&amp;gt;

Vervolgens zullen we de gegevens voorbereiden en opsplitsen in kleinere stukken om efficiënte opname en verwerking te faciliteren.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

 Voor het initiële opname-stadium zullen we een Sentence Transformer-model gebruiken om onze documenten en queries om te zetten in dense vector-representaties en vervolgens approximatieve nearest neighbor-zoekopdrachten uitvoeren met een vector-database zoals LanceDB.

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Laad Sentence Transformer-model
model = SentenceTransformer('all-MiniLM-L6-v2')

# Maak LanceDB-vectoropslag
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Indexeer documenten
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Laad Sentence Transformer-model
model = SentenceTransformer('all-MiniLM-L6-v2')

# Maak LanceDB-vectoropslag
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Indexeer documenten
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

Met onze documenten geïndexeerd, kunnen we de initiële opname uitvoeren door de dichtstbijzijnde buren van een gegeven query-vector te vinden.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Reranking

Na de initiële opname, zullen we een rerankingsmodel gebruiken om de opgehaalde documenten opnieuw te rangschikken op basis van hun relevantie voor de query. In dit voorbeeld zullen we het ColBERT-rerankingsmodel gebruiken, een snelle en nauwkeurige transformer-gebaseerde model specifiek ontworpen voor document-rangschikking.

from lancedb.rerankers import ColbertReranker

reranker = ColbertReranker()

# Rerank initiële documenten
reranked_docs = reranker.rerank(query, initial_docs)

De reranked_docs-lijst bevat nu de documenten opnieuw gerangschikt op basis van hun relevantie voor de query, zoals bepaald door het ColBERT-rerankingsmodel.

Uitbreiding en generatie

Met de gerangschikte en relevante documenten in handen, kunnen we overgaan tot de uitbreidings- en generatiestadia van de RAG-pijplijn. We zullen een taalmodel uit de Hugging Face Transformers-bibliotheek gebruiken om het definitieve antwoord te genereren.

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")

# Breid query uit met gerangschikte documenten
augmented_query = query + " " + " ".join(reranked_docs[:3])

# Genereer antwoord van taalmodel
input_ids = tokenizer.encode(augmented_query, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=500)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(response)

In het bovenstaande codefragment wordt de oorspronkelijke query uitgebreid met de top drie gerangschikte documenten, waardoor een augmented_query ontstaat. Vervolgens wordt deze uitgebreide query doorgegeven aan een T5-taalmodel, dat een antwoord genereert op basis van de verstrekte context.

De response-variabele zal het definitieve uitvoer bevatten, waarbij de externe informatie van de opgehaalde en gerangschikte documenten wordt gebruikt om een nauwkeuriger en meer omvattend antwoord te geven op de oorspronkelijke query.

Geavanceerde technieken en overwegingen

Hoewel de implementatie die we hebben behandeld een solide basis biedt voor de integratie van twee-stadium-opname en rerankers in een RAG-systeem, zijn er verschillende geavanceerde technieken en overwegingen die de prestaties en robuustheid van de aanpak verder kunnen verbeteren.

Query-uitbreiding: Om het initiële opname-stadium te verbeteren, kunt u query-uitbreidingstechnieken gebruiken, die het oorspronkelijke query uitbreiden met verwante termen of zinnen. Dit kan helpen om een meer diverse set van potentieel relevante documenten op te halen.
Ensemble-reranking: In plaats van te vertrouwen op een enkel rerankingsmodel, kunt u meerdere rerankers combineren in een ensemble, waarbij de sterktes van verschillende modellen worden benut om de algehele prestaties te verbeteren.
Fine-tuning van rerankers: Hoewel vooraf getrainde rerankingsmodellen effectief kunnen zijn, kan fine-tuning op domeinspecifieke gegevens de mogelijkheid van de modellen verder verbeteren om domeinspecifieke semantiek en relevantiesignalen te vangen.
Iteratieve opname en reranking: In sommige gevallen kan één iteratie van opname en reranking niet voldoende zijn. U kunt iteratieve benaderingen onderzoeken, waarbij de uitvoer van het taalmodel wordt gebruikt om de query en het opnameproces te verfijnen, waardoor een meer interactief en dynamisch systeem ontstaat.
Balans tussen relevantie en diversiteit: Hoewel rerankers ernaar streven de meest relevante documenten te promoten, is het essentieel om een balans te vinden tussen relevantie en diversiteit. Het incorporeren van diversiteit-bevorderende technieken kan helpen voorkomen dat het systeem te smal of bevooroordeeld is in zijn informatiebronnen.
Evaluatiemetrics: Om de effectiviteit van uw twee-stadium-opname- en rerankingsaanpak te beoordelen, moet u geschikte evaluatiemetrics definiëren. Deze kunnen traditionele informatie-opnamemetrics omvatten zoals precisie, recall en gemiddelde reciproke rang (MRR), evenals taakspecifieke metrics die zijn aangepast aan uw gebruiksscenario.

Conclusie

Retrieval Augmented Generation (RAG) is opgekomen als een krachtige techniek voor het verbeteren van de mogelijkheden van grote taalmodellen door externe informatiebronnen te benutten. Echter, traditionele opnamemethoden hebben vaak moeite om de meest relevante documenten te identificeren, waardoor suboptimale prestaties ontstaan.

Twee-stadium-opname met rerankers biedt een overtuigende oplossing voor deze uitdaging. Door een initiële snelle opname te combineren met een meer geavanceerd rerankingsmodel, kan deze aanpak de nauwkeurigheid en relevantie van de opgehaalde documenten aanzienlijk verbeteren, waardoor hogere kwaliteit gegenereerde antwoorden van het taalmodel ontstaan.

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.