AGI

Die Macht von Rerankern und Zwei-Stufen-Retrieval für Retrieval-ergänzte Generierung

Veröffentlicht am 15. April 2024

Aktualisiert am 21. Mai 2026

Von

Aayush Mittal Mittal

Wenn es um die Verarbeitung von natürlicher Sprache (NLP) und Informationsabruf geht, ist die Fähigkeit, relevante Informationen effizient und genau abzurufen, von entscheidender Bedeutung. Da sich das Feld weiterentwickelt, werden neue Techniken und Methoden entwickelt, um die Leistung von Abrufsystemen zu verbessern, insbesondere im Kontext von Retrieval-ergänzter Generierung (RAG). Eine solche Technik, bekannt als Zwei-Stufen-Abruf mit Rerankern, hat sich als leistungsstarke Lösung erwiesen, um die inhärenten Einschränkungen traditioneller Abrufmethoden zu überwinden.

In diesem Artikel diskutieren wir die Feinheiten von Zwei-Stufen-Abruf und Rerankern, indem wir ihre zugrunde liegenden Prinzipien, Implementierungsstrategien und die Vorteile, die sie bieten, um die Genauigkeit und Effizienz von RAG-Systemen zu verbessern, erforschen. Wir werden auch praktische Beispiele und Code-Snippets bereitstellen, um die Konzepte zu veranschaulichen und ein tieferes Verständnis dieser bahnbrechenden Technik zu ermöglichen.

Verständnis von Retrieval-ergänzter Generierung (RAG)

Bevor wir uns mit den spezifischen Aspekten von Zwei-Stufen-Abruf und Rerankern befassen, sollten wir das Konzept der Retrieval-ergänzten Generierung (RAG) kurz wiederholen. RAG ist eine Technik, die die Kenntnisse und Fähigkeiten großer Sprachmodelle (LLM) erweitert, indem sie ihnen Zugang zu externen Informationsquellen wie Datenbanken oder Dokumentsammlungen bietet. Weitere Informationen finden Sie im Artikel “Ein tiefer Einblick in die Retrieval-ergänzte Generierung in LLM“.

Der typische RAG-Prozess umfasst die folgenden Schritte:

Abfrage: Ein Benutzer stellt eine Frage oder gibt eine Anweisung an das System.
Abruf: Das System fragt eine Vektordatenbank oder Dokumentsammlung ab, um Informationen zu finden, die relevant für die Abfrage des Benutzers sind.
Ergänzung: Die abgerufenen Informationen werden mit der ursprünglichen Abfrage oder Anweisung des Benutzers kombiniert.
Generierung: Das Sprachmodell verarbeitet die ergänzte Eingabe und generiert eine Antwort, indem es die externe Information nutzt, um die Genauigkeit und Vollständigkeit seiner Ausgabe zu verbessern.

Obwohl RAG sich als leistungsstarke Technik erwiesen hat, ist sie nicht ohne Herausforderungen. Eines der Schlüsselprobleme liegt in der Abrufphase, in der traditionelle Abrufmethoden möglicherweise nicht in der Lage sind, die relevantesten Dokumente zu identifizieren, was zu suboptimalen oder ungenauen Antworten des Sprachmodells führen kann.

Die Notwendigkeit von Zwei-Stufen-Abruf und Rerankern

Traditionelle Abrufmethoden, wie solche, die auf Schlüsselwortübereinstimmung oder Vektorraummodellen basieren, haben oft Schwierigkeiten, die nuancierten semantischen Beziehungen zwischen Abfragen und Dokumenten zu erfassen. Diese Einschränkung kann dazu führen, dass Dokumente abgerufen werden, die nur oberflächlich relevant sind oder wichtige Informationen vermissen, die die Qualität der generierten Antwort erheblich verbessern könnten.

Um diese Herausforderung zu überwinden, haben Forscher und Praktiker den Zwei-Stufen-Abruf mit Rerankern entwickelt. Dieser Ansatz umfasst einen zweistufigen Prozess:

Initialer Abruf: In der ersten Phase wird eine relativ große Menge potenziell relevanter Dokumente mithilfe einer schnellen und effizienten Abrufmethode, wie einem Vektorraummodell oder einer keyword-basierten Suche, abgerufen.
Reranking: In der zweiten Phase wird ein komplexeres Reranking-Modell eingesetzt, um die zunächst abgerufenen Dokumente basierend auf ihrer Relevanz für die Abfrage neu zu ordnen, wodurch die relevantesten Dokumente an die Spitze der Liste gesetzt werden.

Das Reranking-Modell, oft ein neuronales Netzwerk oder eine transformer-basierte Architektur, wird speziell trainiert, um die Relevanz eines Dokuments für eine gegebene Abfrage zu bewerten. Durch die Nutzung fortschrittlicher Sprachverständigungsfähigkeiten kann der Reranker die semantischen Nuancen und kontextuellen Beziehungen zwischen der Abfrage und den Dokumenten erfassen, was zu einer genaueren und relevanten Rangliste führt.

Vorteile von Zwei-Stufen-Abruf und Rerankern

Die Verwendung von Zwei-Stufen-Abruf mit Rerankern bietet mehrere signifikante Vorteile im Kontext von RAG-Systemen:

Verbesserte Genauigkeit: Durch das Reranking der zunächst abgerufenen Dokumente und das Vorziehen der relevantesten Dokumente kann das System genauere und präzisere Informationen an das Sprachmodell liefern, was zu höherwertigen generierten Antworten führt.
Mildere Out-of-Domain-Probleme: Die in traditionellen Abrufmethoden verwendeten Einbettungsmodelle werden oft auf allgemeine Textkorpora trainiert, die möglicherweise nicht in der Lage sind, domänen-spezifische Sprache und Semantik zu erfassen. Reranking-Modelle können hingegen auf domänen-spezifischen Daten trainiert werden, was das “Out-of-Domain”-Problem mildert und die Relevanz der abgerufenen Dokumente innerhalb spezifischer Domänen verbessert.
Skalierbarkeit: Der Zwei-Stufen-Ansatz ermöglicht eine effiziente Skalierung, indem er schnelle und leichte Abrufmethoden in der initialen Phase nutzt, während der komplexere Reranking-Prozess nur für eine kleinere Teilmenge der Dokumente reserviert wird.
Flexibilität: Reranking-Modelle können unabhängig von der initialen Abrufmethode ausgetauscht oder aktualisiert werden, was Flexibilität und Anpassungsfähigkeit an die sich ändernden Anforderungen des Systems bietet.

ColBERT: Effizienter und Effektiver Später Interaktionsmechanismus

Eines der herausragenden Modelle im Bereich der Reranker ist ColBERT (Contextualized Late Interaction over BERT). ColBERT ist ein Dokument-Reranking-Modell, das die tiefen Sprachverständigungsfähigkeiten von BERT nutzt und einen neuen Interaktionsmechanismus namens “später Interaktion” einführt.

ColBERT: Effizienter und Effektiver Passage-Suche via Kontextualisierte Späte Interaktion über BERT

Der späte Interaktionsmechanismus in ColBERT ermöglicht einen effizienten und präzisen Abruf, indem er Abfragen und Dokumente bis zum finalen Stadium des Abrufprozesses getrennt verarbeitet. Insbesondere codiert ColBERT die Abfrage und das Dokument unabhängig mithilfe von BERT und wendet dann einen leichten, aber leistungsstarken Interaktions-Schritt an, der ihre feinkörnige Ähnlichkeit modelliert. Durch die Verzögerung, aber Beibehaltung dieser feinkörnigen Interaktion kann ColBERT die Ausdrucksstärke tiefer Sprachmodelle nutzen und gleichzeitig die Fähigkeit erlangen, Dokumentenrepräsentationen offline vorzuberechnen, was die Abfrageverarbeitung erheblich beschleunigt.

Die Architektur von ColBERT mit spätem Interaktionsmechanismus bietet mehrere Vorteile, darunter verbesserte Rechenleistung, Skalierbarkeit mit der Größe der Dokumentsammlung und praktische Anwendbarkeit in realen Szenarien. Darüber hinaus wurde ColBERT mit Techniken wie geräuschreduzierter Aufsicht und Restkomprimierung (in ColBERTv2) weiterentwickelt, die den Trainingsprozess verfeinern und den Modellumfang reduzieren, während die hohe Abrufeffektivität beibehalten wird.

Dieser Code-Snippet zeigt, wie man das jina-colbert-v1-en-Modell für die Indizierung einer Dokumentsammlung konfiguriert und verwendet, wobei es die Fähigkeit des Modells nutzt, lange Kontexte effizient zu verarbeiten.

Implementierung von Zwei-Stufen-Abruf mit Rerankern

Nachdem wir nun die Prinzipien hinter Zwei-Stufen-Abruf und Rerankern verstanden haben, sollten wir ihre praktische Implementierung im Kontext eines RAG-Systems betrachten. Wir werden populäre Bibliotheken und Frameworks nutzen, um die Integration dieser Techniken zu demonstrieren.

Einrichtung der Umgebung

Bevor wir in den Code eintauchen, sollten wir unsere Entwicklungsumgebung einrichten. Wir werden Python und mehrere beliebte NLP-Bibliotheken verwenden, darunter Hugging Face Transformers, Sentence Transformers und LanceDB.

# Installiere erforderliche Bibliotheken
!pip install datasets huggingface_hub sentence_transformers lancedb

Datenpräparation

Zu Demonstrationszwecken werden wir das “ai-arxiv-chunked”-Dataset von Hugging Face Datasets verwenden, das über 400 ArXiv-Artikel zu Maschinellem Lernen, NLP und großen Sprachmodellen enthält.

from datasets import load_dataset

<p>dataset = load_dataset(&quot;jamescalam/ai-arxiv-chunked&quot;, split=&quot;train&quot;)</p>

&amp;lt;pre&amp;gt;

Als nächstes werden wir die Daten vorverarbeiten und in kleinere Chunks aufteilen, um einen effizienten Abruf und die Verarbeitung zu erleichtern.

from transformers import AutoTokenizer

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;bert-base-uncased&quot;)</p>

<p>def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors=&quot;pt&quot;, truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts</p>

<p>chunked_data = []
for doc in dataset:
text = doc[&quot;chunk&quot;]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)</p>

Für die initiale Abrufphase werden wir ein Sentence-Transformer-Modell verwenden, um unsere Dokumente und Abfragen in dichte Vektorrepräsentationen zu kodieren, und dann eine approximative Nachbarsuche mit einer Vektordatenbank wie LanceDB durchführen.

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

<p># Lade Sentence-Transformer-Modell
model = SentenceTransformer(&#039;all-MiniLM-L6-v2&#039;)</p>

<p># Erstelle LanceDB-Vektor-Speicher
db = lancedb.lancedb(&#039;/path/to/store&#039;)
db.create_collection(&#039;docs&#039;, vector_dimension=model.get_sentence_embedding_dimension())</p>

<p># Indiziere Dokumente
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document(&#039;docs&#039;, vector, text)</p>

<p>from sentence_transformers import SentenceTransformer
from lancedb import lancedb</p>

<p># Lade Sentence-Transformer-Modell
model = SentenceTransformer(&#039;all-MiniLM-L6-v2&#039;)</p>

<p># Erstelle LanceDB-Vektor-Speicher
db = lancedb.lancedb(&#039;/path/to/store&#039;)
db.create_collection(&#039;docs&#039;, vector_dimension=model.get_sentence_embedding_dimension())</p>

<p># Indiziere Dokumente
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document(&#039;docs&#039;, vector, text)

Wenn unsere Dokumente indiziert sind, können wir den initialen Abruf durchführen, indem wir die nächsten Nachbarn zu einer gegebenen Abfragevektor finden.

from transformers import AutoTokenizer

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;bert-base-uncased&quot;)</p>

<p>def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors=&quot;pt&quot;, truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts</p>

<p>chunked_data = []
for doc in dataset:
text = doc[&quot;chunk&quot;]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Reranking

Nach dem initialen Abruf werden wir ein Reranking-Modell einsetzen, um die abgerufenen Dokumente basierend auf ihrer Relevanz für die Abfrage neu zu ordnen. In diesem Beispiel werden wir den ColBERT-Reranker verwenden, ein schnelles und genaues transformer-basiertes Modell, das speziell für Dokumentenrangliste entwickelt wurde.

from lancedb.rerankers import ColbertReranker

reranker = ColbertReranker()

<p># Rerank initial Dokumente
reranked_docs = reranker.rerank(query, initial_docs)

Die reranked_docs-Liste enthält nun die Dokumente, die basierend auf ihrer Relevanz für die Abfrage neu geordnet sind, wie vom ColBERT-Reranker bestimmt.

Ergänzung und Generierung

Mit den rerangierten und relevanten Dokumenten können wir nun zur Ergänzungs- und Generierungsphase des RAG-Pipelines fortschreiten. Wir werden ein Sprachmodell aus der Hugging Face Transformers-Bibliothek verwenden, um die finale Antwort zu generieren.

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;t5-base&quot;)
model = AutoModelForSeq2SeqLM.from_pretrained(&quot;t5-base&quot;)</p>

<p># Ergänze Abfrage mit rerangierten Dokumenten
augmented_query = query + &quot; &quot; + &quot; &quot;.join(reranked_docs[:3])</p>

<p># Generiere Antwort aus Sprachmodell
input_ids = tokenizer.encode(augmented_query, return_tensors=&quot;pt&quot;)
output_ids = model.generate(input_ids, max_length=500)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)</p>

print(response)

Im obigen Code-Snippet ergänzen wir die ursprüngliche Abfrage mit den drei obersten rerangierten Dokumenten, um eine augmented_query zu erstellen. Dann übergeben wir diese ergänzte Abfrage an ein T5-Sprachmodell, das eine Antwort basierend auf dem bereitgestellten Kontext generiert.

Die response-Variable enthält die finale Ausgabe, die die externe Information aus den abgerufenen und rerangierten Dokumenten nutzt, um eine genauere und umfassendere Antwort auf die ursprüngliche Abfrage zu liefern.

Erweiterte Techniken und Überlegungen

Während die Implementierung, die wir abgedeckt haben, eine solide Grundlage für die Integration von Zwei-Stufen-Abruf und Rerankern in ein RAG-System bietet, gibt es mehrere erweiterte Techniken und Überlegungen, die die Leistung und Robustheit des Ansatzes weiter verbessern können.

Abfrage-Erweiterung: Um die initiale Abrufphase zu verbessern, können Sie Abfrage-Erweiterungstechniken einsetzen, die die ursprüngliche Abfrage mit verwandten Begriffen oder Phrasen ergänzen. Dies kann dazu beitragen, eine vielfältigere Menge potenziell relevanter Dokumente abzurufen.
Ensemble-Reranking: Anstatt sich auf ein einzelnes Reranking-Modell zu verlassen, können Sie mehrere Reranker zu einem Ensemble kombinieren, um die Stärken verschiedener Modelle zu nutzen und die Gesamtleistung zu verbessern.
Feinabstimmung von Rerankern: Während vorgefertigte Reranking-Modelle effektiv sein können, kann ihre Feinabstimmung auf domänen-spezifischen Daten ihre Fähigkeit, domänen-spezifische Semantik und Relevanzsignale zu erfassen, weiter verbessern.
Iteratives Abrufen und Reranken: In einigen Fällen kann eine einzelne Iteration des Abrufs und Rerankens nicht ausreichen. Sie können iterative Ansätze erkunden, bei denen die Ausgabe des Sprachmodells verwendet wird, um die Abfrage und den Abrufprozess zu verfeinern, was zu einem interaktiveren und dynamischeren System führt.
Ausgleich zwischen Relevanz und Vielfalt: Während Reranker darauf abzielen, die relevantesten Dokumente zu fördern, ist es wichtig, einen Ausgleich zwischen Relevanz und Vielfalt zu finden. Die Integration von Techniken, die die Vielfalt fördern, kann dazu beitragen, dass das System nicht zu eng oder voreingenommen in seinen Informationsquellen wird.
Bewertungsmetriken: Um die Effektivität Ihres Zwei-Stufen-Abruf- und Reranking-Ansatzes zu bewerten, müssen Sie geeignete Bewertungsmetriken definieren. Dazu gehören traditionelle Informationsabrufmetriken wie Präzision, Recall und mittlerer rekursiver Rang (MRR) sowie metriken, die speziell auf Ihre Anwendung zugeschnitten sind.

Schlussfolgerung

Retrieval-ergänzte Generierung (RAG) hat sich als leistungsstarke Technik erwiesen, um die Fähigkeiten großer Sprachmodelle durch die Nutzung externer Informationsquellen zu erweitern. Allerdings haben traditionelle Abrufmethoden oft Schwierigkeiten, die relevantesten Dokumente zu identifizieren, was zu suboptimalen Leistungen führen kann.

Zwei-Stufen-Abruf mit Rerankern bietet eine überzeugende Lösung für diese Herausforderung. Durch die Kombination einer initialen schnellen Abrufphase mit einem komplexeren Reranking-Modell kann dieser Ansatz die Genauigkeit und Relevanz der abgerufenen Dokumente erheblich verbessern, was letztendlich zu höherwertigen generierten Antworten des Sprachmodells führt.

Aayush Mittal, Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Mein Engagement und meine Expertise haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mit einem besonderen Fokus auf AI/ML beizutragen. Meine anhaltende Neugier hat mich auch zum Bereich der Natural Language Processing hingezogen, einem Feld, das ich weiter erforschen möchte.