AGI

Potęga Rerankers i Dwuetapowego Pobierania dla Wzmocnionej Generacji Pobierania

Opublikowano 15 kwietnia 2024

Zaktualizowano 15 maja 2026

Przez

Aayush Mittal Mittal

Jeśli chodzi o przetwarzanie języka naturalnego (NLP) i pobieranie informacji, zdolność do efektywnego i dokładnego pobierania istotnych informacji jest niezwykle ważna. Wraz z rozwojem tej dziedziny, powstają nowe techniki i metody, które poprawiają wydajność systemów pobierania, szczególnie w kontekście Wzmocnionej Generacji Pobierania (RAG). Jedną z takich technik jest dwuetapowe pobieranie z rerankersami, które okazało się skutecznym rozwiązaniem ograniczeń tradycyjnych metod pobierania.

W tym artykule omówimy szczegóły dwuetapowego pobierania i rerankersów, eksplorując ich podstawowe zasady, strategie wdrożeniowe oraz korzyści, które oferują w poprawie dokładności i wydajności systemów RAG. Zaprezentujemy również praktyczne przykłady i fragmenty kodu, aby zilustrować te pojęcia i ułatwić głębsze zrozumienie tej nowatorskiej techniki.

Zrozumienie Wzmocnionej Generacji Pobierania (RAG)

Przed zagłębieniem się w szczegóły dwuetapowego pobierania i rerankersów, przypomnijmy krótko pojęcie Wzmocnionej Generacji Pobierania (RAG). RAG jest techniką, która rozszerza wiedzę i możliwości dużych modeli językowych (LLM) poprzez dostarczanie im dostępu do zewnętrznych źródeł informacji, takich jak bazy danych lub kolekcje dokumentów. Dowiedz się więcej z artykułu “A Deep Dive into Retrieval Augmented Generation in LLM“.

Typowy proces RAG obejmuje następujące etapy:

Zapytanie: Użytkownik zadaje pytanie lub podaje polecenie systemowi.
Pobieranie: System wyszukuje w bazie danych lub kolekcji dokumentów informacje istotne dla zapytania użytkownika.
Uzupełnienie: Pobrane informacje są łączone z oryginalnym zapytaniem lub poleceniem użytkownika.
Generowanie: Model językowy przetwarza uzupełnione dane wejściowe i generuje odpowiedź, wykorzystując zewnętrzne informacje, aby poprawić dokładność i kompletność swojego wyjścia.

Chociaż RAG okazał się skuteczną techniką, nie jest pozbawiony wyzwań. Jednym z kluczowych problemów jest etap pobierania, w którym tradycyjne metody pobierania mogą nie być w stanie zidentyfikować najbardziej istotnych dokumentów, prowadząc do nieoptymalnych lub niedokładnych odpowiedzi modelu językowego.

Potrzeba Dwuetapowego Pobierania i Rerankersów

Tradycyjne metody pobierania, takie jak te oparte na dopasowaniu słów kluczowych lub modelach wektorowych, często mają trudności z uchwyceniem nuansów semantycznych między zapytaniami i dokumentami. To ograniczenie może skutkować pobraniem dokumentów, które są tylko powierzchownie istotne lub pominięciem istotnych informacji, które mogłyby znacząco poprawić jakość wygenerowanej odpowiedzi.

Aby rozwiązać to wyzwanie, badacze i praktycy zwrócili się ku dwuetapowemu pobieraniu z rerankersami. Ten podejście obejmuje dwuetapowy proces:

Początkowe Pobieranie: W pierwszym etapie pobierany jest stosunkowo duży zbiór potencjalnie istotnych dokumentów przy użyciu szybkiej i wydajnej metody pobierania, takiej jak model wektorowy lub wyszukiwanie oparte na słowach kluczowych.
Reranking: W drugim etapie zastosowany jest bardziej zaawansowany model rerankingu, który ponownie ustala kolejność dokumentów pobranych w pierwszym etapie, efektywnie przesuwając najbardziej istotne dokumenty na górę listy.

Model rerankingu, często sieć neuronowa lub architektura oparta na transformatorze, jest specjalnie opracowany do oceny istotności dokumentu w odniesieniu do zapytania. Wykorzystując zaawansowane możliwości zrozumienia języka naturalnego, model rerankingu może uchwycić nuansów semantycznych i relacji kontekstowych między zapytaniem i dokumentami, prowadząc do bardziej dokładnej i istotnej klasyfikacji.

Korzyści z Dwuetapowego Pobierania i Rerankersów

Zastosowanie dwuetapowego pobierania z rerankersami oferuje kilka istotnych korzyści w kontekście systemów RAG:

Poprawiona Dokładność: Przez ponowne ustalenie kolejności dokumentów pobranych w pierwszym etapie i promowanie najbardziej istotnych dokumentów, system może dostarczyć bardziej dokładne i precyzyjne informacje modelowi językowemu, prowadząc do wyższej jakości generowanych odpowiedzi.
Zmniejszenie Problemów Pozasystemowych: Modele wektorowe używane w tradycyjnym pobieraniu są często szkolone na ogólnych korpusach tekstowych, które mogą nie adekwatnie ujmować specyfikę języka i semantyki w określonych dziedzinach. Modele rerankingu, z drugiej strony, mogą być szkolone na danych specyficznych dla danej dziedziny, co pomaga w zmniejszeniu problemu “pozasystemowego” i poprawie istotności pobranych dokumentów w ramach specyficznych dziedzin.
Skalowalność: Dwuetapowe podejście pozwala na efektywną skalowalność, wykorzystując szybkie i lekkie metody pobierania w pierwszym etapie, przy jednoczesnym zarezerwowaniu bardziej obliczeniowo wymagającego procesu rerankingu dla mniejszego podzbioru dokumentów.
Elastyczność: Modele rerankingu mogą być wymieniane lub aktualizowane niezależnie od metody pobierania, zapewniając elastyczność i adaptacyjność do ewoluujących potrzeb systemu.

ColBERT: Wydajne i Skuteczne Późne Współdziałanie

Jednym z wyróżniających się modeli w dziedzinie rerankingu jest ColBERT (Contextualized Late Interaction over BERT). ColBERT jest modelem rerankingu dokumentów, który wykorzystuje głębokie możliwości zrozumienia języka BERT, wprowadzając nowy mechanizm interakcji znany jako “późne współdziałanie”.

ColBERT: Wydajne i Skuteczne Wyszukiwanie Pasażów za pomocą Kontekstowego Późnego Współdziałania nad BERT

Mechanizm późnego współdziałania w ColBERT pozwala na wydajne i precyzyjne pobieranie, przetwarzając zapytania i dokumenty oddzielnie aż do końcowych etapów procesu pobierania. Konkretnie, ColBERT koduje niezależnie zapytanie i dokument przy użyciu BERT, a następnie stosuje lekki, lecz potężny krok interakcji, który modeluje ich drobne podobieństwo. Przez opóźnienie, ale zachowanie tego drobnego współdziałania, ColBERT może wykorzystać wyrażalność głębokich modeli językowych, jednocześnie zyskując możliwość pre-komputowania reprezentacji dokumentów w trybie offline, znacznie przyspieszając przetwarzanie zapytań.

Architektura późnego współdziałania ColBERT oferuje kilka korzyści, w tym poprawioną wydajność obliczeniową, skalowalność wraz z rozmiarem kolekcji dokumentów oraz praktyczną przydatność w scenariuszach rzeczywistych. Dodatkowo, ColBERT został dalej udoskonalony za pomocą technik takich jak nadzorowane denoising i kompresja resztkowa (w ColBERTv2), które rafinują proces szkolenia i redukują ślad pamięci modelu, jednocześnie utrzymując wysoką skuteczność pobierania.

Poniższy fragment kodu pokazuje, jak skonfigurować i użyć modelu jina-colbert-v1-en do indeksowania kolekcji dokumentów, wykorzystując jego zdolność do efektywnego radzenia sobie z długimi kontekstami.

Wdrożenie Dwuetapowego Pobierania z Rerankersami

Teraz, gdy mamy zrozumienie zasad dwuetapowego pobierania i rerankersów, przejdźmy do ich praktycznego wdrożenia w kontekście systemu RAG. Wykorzystamy popularne biblioteki i ramy, aby zademonstrować integrację tych technik.

Konfigurowanie Środowiska

Przed rozpoczęciem kodu, skonfigurujmy nasze środowisko programistyczne. Będziemy używać Pythona oraz kilku popularnych bibliotek NLP, w tym Hugging Face Transformers, Sentence Transformers i LanceDB.

# Zainstaluj wymagane biblioteki
!pip install datasets huggingface_hub sentence_transformers lancedb

Przygotowanie Danych

Do celów demonstracyjnych, wykorzystamy zestaw danych “ai-arxiv-chunked” z Hugging Face Datasets, który zawiera ponad 400 artykułów z serwisu ArXiv na temat uczenia maszynowego, przetwarzania języka naturalnego i dużych modeli językowych.

from datasets import load_dataset

<p>dataset = load_dataset(&quot;jamescalam/ai-arxiv-chunked&quot;, split=&quot;train&quot;)</p>

&amp;lt;pre&amp;gt;

Następnie, przetworzymy dane i podzielimy je na mniejsze fragmenty, aby ułatwić efektywne pobieranie i przetwarzanie.

from transformers import AutoTokenizer

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;bert-base-uncased&quot;)</p>

<p>def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors=&quot;pt&quot;, truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts</p>

<p>chunked_data = []
for doc in dataset:
text = doc[&quot;chunk&quot;]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)</p>

Do etapu początkowego pobierania, wykorzystamy model Sentence Transformer do zakodowania naszych dokumentów i zapytań w gęste reprezentacje wektorowe, a następnie wykonamy przybliżoną wyszukiwanie najbliższych sąsiadów przy użyciu bazy danych wektorowej, takiej jak LanceDB.

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

<p># Załaduj model Sentence Transformer
model = SentenceTransformer(&#039;all-MiniLM-L6-v2&#039;)</p>

<p># Utwórz magazyn wektorowy LanceDB
db = lancedb.lancedb(&#039;/path/to/store&#039;)
db.create_collection(&#039;docs&#039;, vector_dimension=model.get_sentence_embedding_dimension())</p>

<p># Zindeksuj dokumenty
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document(&#039;docs&#039;, vector, text)</p>

<p>from sentence_transformers import SentenceTransformer
from lancedb import lancedb</p>

<p># Załaduj model Sentence Transformer
model = SentenceTransformer(&#039;all-MiniLM-L6-v2&#039;)</p>

<p># Utwórz magazyn wektorowy LanceDB
db = lancedb.lancedb(&#039;/path/to/store&#039;)
db.create_collection(&#039;docs&#039;, vector_dimension=model.get_sentence_embedding_dimension())</p>

<p># Zindeksuj dokumenty
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document(&#039;docs&#039;, vector, text)

Ze zindeksowanymi dokumentami, możemy wykonać etap początkowego pobierania, wyszukując najbliższych sąsiadów dla danego wektora zapytania.

from transformers import AutoTokenizer

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;bert-base-uncased&quot;)</p>

<p>def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors=&quot;pt&quot;, truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts</p>

<p>chunked_data = []
for doc in dataset:
text = doc[&quot;chunk&quot;]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Reranking

Po etapie początkowego pobierania, zastosujemy model rerankingu, aby ponownie ustalić kolejność pobranych dokumentów na podstawie ich istotności względem zapytania. W tym przykładzie, wykorzystamy model rerankingu ColBERT, szybki i dokładny model transformatorowy, specjalnie zaprojektowany do rankingu dokumentów.

from lancedb.rerankers import ColbertReranker

reranker = ColbertReranker()

<p># Rerankuj dokumenty początkowe
reranked_docs = reranker.rerank(query, initial_docs)

Lista reranked_docs zawiera teraz dokumenty ponownie ustalone na podstawie ich istotności względem zapytania, określonej przez model rerankingu ColBERT.

Uzupełnienie i Generowanie

Z rerankowanymi i istotnymi dokumentami, możemy przejść do etapów uzupełnienia i generowania potoku RAG. Wykorzystamy model językowy z biblioteki Hugging Face Transformers do wygenerowania ostatecznej odpowiedzi.

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

<p>tokenizer = AutoTokenizer.from_pretrained(&quot;t5-base&quot;)
model = AutoModelForSeq2SeqLM.from_pretrained(&quot;t5-base&quot;)</p>

<p># Uzupełnij zapytanie z rerankowanymi dokumentami
augmented_query = query + &quot; &quot; + &quot; &quot;.join(reranked_docs[:3])</p>

<p># Wygeneruj odpowiedź z modelu językowego
input_ids = tokenizer.encode(augmented_query, return_tensors=&quot;pt&quot;)
output_ids = model.generate(input_ids, max_length=500)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)</p>

print(response)

W powyższym fragmencie kodu, uzupełniamy oryginalne zapytanie z trzema najwyżej rerankowanymi dokumentami, tworząc augmented_query. Następnie, podajemy to uzupełnione zapytanie modelowi językowemu T5, który generuje odpowiedź na podstawie dostarczonego kontekstu.

Zmienna response zawiera ostateczną odpowiedź, wykorzystując zewnętrzne informacje z pobranych i rerankowanych dokumentów, aby dostarczyć bardziej dokładną i kompletną odpowiedź na oryginalne zapytanie.

Zaawansowane Techniki i Rozważania

Chociaż wdrożenie, które omówiliśmy, zapewnia solidną podstawę do integracji dwuetapowego pobierania i rerankersów w systemie RAG, istnieją kilka zaawansowanych technik i rozważań, które mogą dalej poprawić wydajność i niezawodność tego podejścia.

Rozszerzenie Zapytania: Aby poprawić etap początkowego pobierania, można zastosować techniki rozszerzania zapytania, które polegają na uzupełnieniu oryginalnego zapytania o powiązane terminy lub frazy. To może pomóc w pobraniu bardziej zróżnicowanego zestawu potencjalnie istotnych dokumentów.
Ensemble Reranking: Zamiast polegać na jednym modelu rerankingu, można połączyć kilka modeli w ensemble, wykorzystując ich mocne strony, aby poprawić ogólną wydajność.
Doskonalenie Rerankersów: Chociaż wstępnie wytrenowane modele rerankingu mogą być skuteczne, ich dalsze doskonalenie na danych specyficznych dla danej dziedziny może jeszcze bardziej poprawić ich zdolność do uchwycenia specyfiki dziedziny i sygnałów istotności.
Iteracyjne Pobieranie i Reranking: W niektórych przypadkach, jednorazowe pobieranie i reranking może nie być wystarczające. Można rozważyć iteracyjne podejście, w którym wyjście modelu językowego jest wykorzystywane do uzupełnienia zapytania i procesu pobierania, prowadząc do bardziej interaktywnego i dynamicznego systemu.
Równowaga między Istotnością a Różnorodnością: Chociaż modele rerankingu dążą do promowania najbardziej istotnych dokumentów, ważne jest znalezienie równowagi między istotnością a różnorodnością. Włączenie technik promujących różnorodność może pomóc w uniknięciu zbyt wąskiego lub tendencyjnego zakresu źródeł informacji.
Wskaźniki Oceny: Aby ocenić skuteczność podejścia dwuetapowego pobierania i rerankingu, należy zdefiniować odpowiednie wskaźniki oceny. Mogą one obejmować tradycyjne wskaźniki pobierania, takie jak precyzja, recall i średni odwrotny rang, a także wskaźniki specyficzne dla zadania, dostosowane do konkretnego przypadku użycia.

Podsumowanie

Wzmocniona Generacja Pobierania (RAG) wyłoniła się jako potężna technika do poprawy możliwości dużych modeli językowych, wykorzystując zewnętrzne źródła informacji. Jednak tradycyjne metody pobierania często mają trudności z identyfikacją najbardziej istotnych dokumentów, prowadząc do nieoptymalnej wydajności.

Dwuetapowe pobieranie z rerankersami oferuje kuszące rozwiązanie tego wyzwania. Łącząc szybki etap początkowego pobierania z bardziej zaawansowanym modelem rerankingu, to podejście może znacząco poprawić dokładność i istotność pobranych dokumentów, prowadząc ostatecznie do wyższej jakości generowanych odpowiedzi z modelu językowego.

Aayush Mittal, Mittal

Przez ostatnie pięć lat zanurzałem się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnorodnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę dalej eksplorować.