AGI

Potere dei Rerankers e Recupero a Due Stadi per la Generazione Assistita dal Recupero

Published April 15, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Quando si tratta di elaborazione del linguaggio naturale (NLP) e recupero delle informazioni, la capacità di recuperare efficientemente e con precisione le informazioni rilevanti è fondamentale. Man mano che il settore continua a evolversi, vengono sviluppate nuove tecniche e metodologie per migliorare le prestazioni dei sistemi di recupero, in particolare nel contesto della Generazione Assistita dal Recupero (RAG). Una di queste tecniche, conosciuta come recupero a due stadi con rerankers, è emersa come una soluzione potente per affrontare le limitazioni innate dei metodi di recupero tradizionali.

In questo articolo discutiamo le sfumature del recupero a due stadi e dei rerankers, esplorando i loro principi fondamentali, le strategie di implementazione e i vantaggi che offrono nel migliorare la precisione e l’efficienza dei sistemi RAG. Forniremo anche esempi pratici e snippet di codice per illustrare i concetti e facilitare una comprensione più profonda di questa tecnica all’avanguardia.

Comprendere la Generazione Assistita dal Recupero (RAG)

Prima di addentrarci nei dettagli del recupero a due stadi e dei rerankers, rivisitiamo brevemente il concetto di Generazione Assistita dal Recupero (RAG). RAG è una tecnica che estende le conoscenze e le capacità dei grandi modelli linguistici (LLM) fornendo loro l’accesso a fonti di informazione esterne, come database o raccolte di documenti. Consulta ulteriori informazioni dall’articolo “Un’analisi approfondita della Generazione Assistita dal Recupero in LLM“.

Il processo RAG tipico coinvolge i seguenti passaggi:

Query: Un utente pone una domanda o fornisce un’istruzione al sistema.
Recupero: Il sistema interroga un database vettoriale o una raccolta di documenti per trovare informazioni rilevanti per la query dell’utente.
Estensione: Le informazioni recuperate vengono combinate con la query o l’istruzione originale dell’utente.
Generazione: Il modello linguistico elabora l’input esteso e genera una risposta, sfruttando le informazioni esterne per migliorare la precisione e la completezza della sua output.

Sebbene RAG abbia dimostrato di essere una tecnica potente, non è senza sfide. Una delle questioni chiave risiede nella fase di recupero, dove i metodi di recupero tradizionali potrebbero non riuscire a identificare i documenti più rilevanti, portando a risposte subottimali o inaccurate del modello linguistico.

La necessità del recupero a due stadi e dei rerankers

I metodi di recupero tradizionali, come quelli basati sull’abbinamento delle parole chiave o sui modelli di spazio vettoriale, spesso lottano per catturare le relazioni semantiche sfumate tra query e documenti. Questa limitazione può portare al recupero di documenti che sono solo superficialmente rilevanti o perdere informazioni cruciali che potrebbero migliorare significativamente la qualità della risposta generata.

Per affrontare questa sfida, ricercatori e pratici si sono rivolti al recupero a due stadi con rerankers. Questo approccio coinvolge un processo a due fasi:

Recupero iniziale: Nella prima fase, viene recuperato un insieme relativamente grande di documenti potenzialmente rilevanti utilizzando un metodo di recupero rapido ed efficiente, come un modello di spazio vettoriale o una ricerca basata su parole chiave.
Reranking: Nella seconda fase, viene impiegato un modello di reranking più sofisticato per riordinare i documenti recuperati inizialmente in base alla loro rilevanza per la query, portando efficacemente i documenti più rilevanti in cima alla lista.

Il modello di reranking, spesso una rete neurale o un’architettura basata su transformer, è specificamente addestrato per valutare la rilevanza di un documento per una query data. Sfruttando le avanzate capacità di comprensione del linguaggio naturale, il reranker può catturare le sfumature semantiche e le relazioni contestuali tra la query e i documenti, portando a una classificazione più precisa e rilevante.

Vantaggi del recupero a due stadi e dei rerankers

L’adozione del recupero a due stadi con rerankers offre diversi vantaggi significativi nel contesto dei sistemi RAG:

Precisione migliorata: Rerankando i documenti recuperati inizialmente e promuovendo quelli più rilevanti in cima, il sistema può fornire informazioni più accurate e precise al modello linguistico, portando a risposte generate di alta qualità.
Problemi di dominio mitigati: I modelli di incorporamento utilizzati per il recupero tradizionale sono spesso addestrati su corpora di testo di scopo generale, che potrebbero non catturare adeguatamente il linguaggio e la semantica specifici del dominio. I modelli di reranking, d’altra parte, possono essere addestrati su dati specifici del dominio, mitigando il problema “fuori dal dominio” e migliorando la rilevanza dei documenti recuperati all’interno di domini specializzati.
Scalabilità: L’approccio a due stadi consente una scalabilità efficiente sfruttando metodi di recupero rapidi e leggeri nella fase iniziale, mentre si riserva il processo di reranking più computazionalmente intenso per un subset più piccolo di documenti.
Flessibilità: I modelli di reranking possono essere sostituiti o aggiornati indipendentemente dal metodo di recupero iniziale, fornendo flessibilità e adattabilità alle esigenze evolutive del sistema.

ColBERT: Interazione tardiva efficiente ed efficace

Uno dei modelli di spicco nel campo dei rerankers è ColBERT (Interazione tardiva contestualizzata su BERT). ColBERT è un modello di reranking di documenti che sfrutta le profonde capacità di comprensione del linguaggio di BERT, introducendo un nuovo meccanismo di interazione noto come “interazione tardiva.”

ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT

Il meccanismo di interazione tardiva in ColBERT consente un recupero efficiente e preciso elaborando query e documenti separatamente fino alle fasi finali del processo di recupero. In particolare, ColBERT codifica indipendentemente la query e il documento utilizzando BERT, e poi impiega un passo di interazione leggero ma potente che modella la loro somiglianza fine-grana. Ritardando ma mantenendo questa interazione fine-grana, ColBERT può sfruttare l’espressività dei modelli linguistici profondi, guadagnando contemporaneamente la capacità di pre-calcolare le rappresentazioni dei documenti offline, accelerando notevolmente l’elaborazione delle query.

L’architettura di interazione tardiva di ColBERT offre diversi vantaggi, tra cui una maggiore efficienza computazionale, scalabilità con la dimensione della raccolta di documenti e praticabilità per scenari reali. Inoltre, ColBERT è stato ulteriormente migliorato con tecniche come la supervisione denoised e la compressione residuale (in ColBERTv2), che raffinano il processo di addestramento e riducono l’impronta spaziale del modello, mantenendo un’alta efficacia di recupero.

In questo snippet di codice viene dimostrato come configurare e utilizzare il modello jina-colbert-v1-en per indicizzare una raccolta di documenti, sfruttando la sua capacità di gestire contesti lunghi in modo efficiente.

Implementazione del recupero a due stadi con rerankers

Ora che abbiamo una comprensione dei principi alla base del recupero a due stadi e dei rerankers, esploriamo la loro implementazione pratica all’interno del contesto di un sistema RAG. Sfrutteremo librerie e framework popolari per dimostrare l’integrazione di queste tecniche.

Impostazione dell’ambiente

Prima di addentrarci nel codice, impostiamo il nostro ambiente di sviluppo. Utilizzeremo Python e diverse librerie NLP popolari, tra cui Hugging Face Transformers, Sentence Transformers e LanceDB.

# Installa le librerie richieste
!pip install datasets huggingface_hub sentence_transformers lancedb

Preparazione dei dati

A scopo dimostrativo, utilizzeremo il set di dati “ai-arxiv-chunked” da Hugging Face Datasets, che contiene oltre 400 articoli di ArXiv su apprendimento automatico, elaborazione del linguaggio naturale e grandi modelli linguistici.

from datasets import load_dataset

dataset = load_dataset("jamescalam/ai-arxiv-chunked", split="train")

&amp;lt;pre&amp;gt;

Successivamente, pre-elaboreremo i dati e li divideremo in chunk più piccoli per facilitare il recupero e l’elaborazione efficienti.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Per la fase di recupero iniziale, utilizzeremo un modello Sentence Transformer per codificare i nostri documenti e query in rappresentazioni vettoriali dense, e poi eseguiremo una ricerca del vicino più prossimo approssimativo utilizzando un database vettoriale come LanceDB.

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Carica il modello Sentence Transformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Crea il negozio di vettori LanceDB
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Indicizza i documenti
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

from sentence_transformers import SentenceTransformer
from lancedb import lancedb

# Carica il modello Sentence Transformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Crea il negozio di vettori LanceDB
db = lancedb.lancedb('/path/to/store')
db.create_collection('docs', vector_dimension=model.get_sentence_embedding_dimension())

# Indicizza i documenti
for text in chunked_data:
vector = model.encode(text).tolist()
db.insert_document('docs', vector, text)

Con i documenti indicizzati, possiamo eseguire il recupero iniziale trovando i vicini più prossimi a un vettore di query dato.

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

def chunk_text(text, chunk_size=512, overlap=64):
tokens = tokenizer.encode(text, return_tensors="pt", truncation=True)
chunks = tokens.split(chunk_size - overlap)
texts = [tokenizer.decode(chunk) for chunk in chunks]
return texts

chunked_data = []
for doc in dataset:
text = doc["chunk"]
chunked_texts = chunk_text(text)
chunked_data.extend(chunked_texts)

Reranking

Dopo il recupero iniziale, impiegheremo un modello di reranking per riordinare i documenti recuperati in base alla loro rilevanza per la query. In questo esempio, utilizzeremo il reranker ColBERT, un modello basato su transformer veloce e preciso specificamente progettato per il ranking dei documenti.

from lancedb.rerankers import ColbertReranker

reranker = ColbertReranker()

# Reranking dei documenti iniziali
reranked_docs = reranker.rerank(query, initial_docs)

La lista reranked_docs contiene ora i documenti riordinati in base alla loro rilevanza per la query, come determinato dal reranker ColBERT.

Estensione e generazione

Con i documenti riordinati e rilevanti a portata di mano, possiamo procedere alle fasi di estensione e generazione del pipeline RAG. Utilizzeremo un modello linguistico dalla libreria Hugging Face Transformers per generare la risposta finale.

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")

# Estensione della query con i documenti riordinati
augmented_query = query + " " + " ".join(reranked_docs[:3])

# Generazione della risposta dal modello linguistico
input_ids = tokenizer.encode(augmented_query, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=500)
response = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(response)

Nel codice snippet sopra, estendiamo la query originale con i primi tre documenti riordinati, creando una query_estesa. Poi passiamo questa query estesa a un modello linguistico T5, che genera una risposta in base al contesto fornito.

La variabile risposta conterrà l’output finale, sfruttando le informazioni esterne dai documenti recuperati e riordinati per fornire una risposta più precisa e completa alla query originale.

Tecniche avanzate e considerazioni

Mentre l’implementazione che abbiamo coperto fornisce una solida base per l’integrazione del recupero a due stadi e dei rerankers in un sistema RAG, ci sono diverse tecniche avanzate e considerazioni che possono ulteriormente migliorare le prestazioni e la robustezza dell’approccio.

Estensione della query: Per migliorare la fase di recupero iniziale, è possibile impiegare tecniche di estensione della query, che coinvolgono l’aggiunta di termini o frasi correlate alla query originale. Ciò può aiutare a recuperare un insieme più diversificato di documenti potenzialmente rilevanti.
Reranking ensemble: Invece di affidarsi a un singolo modello di reranking, è possibile combinare più rerankers in un ensemble, sfruttando i punti di forza dei diversi modelli per migliorare le prestazioni generali.
Regolazione fine dei rerankers: Sebbene i modelli di reranking pre-addestrati possano essere efficaci, la regolazione fine su dati specifici del dominio può ulteriormente migliorare la loro capacità di catturare la semantica e i segnali di rilevanza specifici del dominio.
Recupero e reranking iterativi: In alcuni casi, un’unica iterazione del recupero e del reranking potrebbe non essere sufficiente. È possibile esplorare approcci iterativi, dove l’output del modello linguistico viene utilizzato per raffinare la query e il processo di recupero, portando a un sistema più interattivo e dinamico.
Equilibrio tra rilevanza e diversità: Sebbene i rerankers cerchino di promuovere i documenti più rilevanti, è essenziale trovare un equilibrio tra rilevanza e diversità. L’incorporazione di tecniche che promuovono la diversità può aiutare a prevenire che il sistema sia troppo limitato o distorto nelle sue fonti di informazione.
Metri di valutazione: Per valutare l’efficacia dell’approccio di recupero a due stadi e del reranking, sarà necessario definire metriche di valutazione appropriate. Queste possono includere metriche di recupero delle informazioni tradizionali come precisione, richiamo e media reciproca del rank (MRR), nonché metriche specifiche del compito adattate al caso d’uso.

Conclusione

La Generazione Assistita dal Recupero (RAG) è emersa come una tecnica potente per migliorare le capacità dei grandi modelli linguistici sfruttando fonti di informazione esterne. Tuttavia, i metodi di recupero tradizionali spesso lottano per identificare i documenti più rilevanti, portando a prestazioni subottimali.

Il recupero a due stadi con rerankers offre una soluzione convincente a questa sfida. Combinando una fase di recupero iniziale rapida con un modello di reranking più sofisticato, questo approccio può migliorare significativamente la precisione e la rilevanza dei documenti recuperati, portando a risposte generate di alta qualità dal modello linguistico.

Aayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.