Intelligenza Artificiale

Miglioramento dei modelli linguistici aumentati di recupero: auto-ragionamento e aumento adattivo per i sistemi conversazionali

Pubblicato il 15 Agosto 2024

aggiornato 15 Novembre 2024

Ayush Mittal Mittale

strutture auto-ragionanti e generazione adattiva di recupero-aumento

I modelli linguistici di grandi dimensioni spesso hanno difficoltà a fornire informazioni precise e aggiornate, in particolare in compiti complessi basati sulla conoscenza. Per superare questi ostacoli, i ricercatori stanno studiando metodi per migliorare questi modelli integrandoli con fonti di dati esterne.

Due nuovi approcci emersi in questo campo sono quadri di auto-ragionamento generazione aumentata di recupero adattivo per sistemi conversazionaliIn questo articolo approfondiremo queste tecniche innovative e scopriremo come stanno ampliando i confini di ciò che è possibile realizzare con i modelli linguistici.

La promessa e le insidie dei modelli linguistici aumentati di recupero

Cerchiamo di comprendere il concetto di Retrieval-Augmented Language Models (RALM). L'idea alla base dei RALM è quella di combinare la vasta conoscenza e le capacità di comprensione del linguaggio dei modelli linguistici pre-addestrati con la capacità di accedere e incorporare informazioni esterne aggiornate durante l'inferenza.

Ecco una semplice illustrazione di come potrebbe funzionare un RALM di base:

Un utente pone una domanda: “Qual è stato il risultato dei Giochi Olimpici del 2024?”
Il sistema recupera i documenti rilevanti da una base di conoscenza esterna.
Il LLM elabora la domanda insieme alle informazioni recuperate.
Il modello genera una risposta basata sia sulla sua conoscenza interna che sui dati esterni.

Questo approccio si è rivelato molto promettente nel migliorare l'accuratezza e la pertinenza dei risultati del LLM, in particolare per le attività che richiedono l'accesso a informazioni attuali o conoscenze specifiche del dominio. Tuttavia, i RALM non sono esenti da sfide. Due questioni chiave con cui i ricercatori si sono confrontati sono:

L’affidabilità: Come possiamo garantire che le informazioni recuperate siano pertinenti e utili?
Tracciabilità: Come possiamo rendere il processo di ragionamento del modello più trasparente e verificabile?

Ricerche recenti hanno proposto soluzioni innovative a queste sfide, che esploreremo in dettaglio.

Autoragionamento: potenziamento dei RALM con traiettorie di ragionamento esplicite

Questa è l'architettura e il processo alla base dei LLM con recupero potenziato, incentrati su un framework chiamato Self-Reasoning. Questo approccio utilizza traiettorie per migliorare la capacità del modello di ragionare sui documenti recuperati.

Quando viene posta una domanda, i documenti rilevanti vengono recuperati ed elaborati attraverso una serie di passaggi di ragionamento. Il meccanismo di auto-ragionamento applica processi di analisi delle evidenze e della traiettoria per filtrare e sintetizzare le informazioni prima di generare la risposta finale. Questo metodo non solo migliora l’accuratezza dell’output, ma garantisce anche che il ragionamento alla base delle risposte sia trasparente e tracciabile.

Negli esempi forniti sopra, come la determinazione della data di uscita del film "Prova a prendermi" o l'identificazione degli artisti che hanno dipinto il soffitto del Duomo di Firenze, il modello filtra efficacemente i documenti recuperati per produrre risposte accurate e contestualizzate.

Questa tabella presenta un'analisi comparativa di diverse varianti LLM, inclusi i modelli LLaMA2 e altri modelli con recupero aumentato in attività come NaturalQuestions, PopQA, FEVER e ASQA. I risultati sono suddivisi tra linee di base senza recupero e quelle migliorate con funzionalità di recupero.

Questa immagine presenta uno scenario in cui un LLM ha il compito di fornire suggerimenti basati sulle query degli utenti, dimostrando come l'uso di conoscenze esterne possa influenzare la qualità e la pertinenza delle risposte. Il diagramma evidenzia due approcci: uno in cui il modello utilizza un frammento di conoscenza e uno in cui non lo fa. Il confronto sottolinea come l'integrazione di informazioni specifiche possa personalizzare le risposte per renderle più in linea con le esigenze dell'utente, fornendo profondità e accuratezza che altrimenti potrebbero mancare in un modello puramente generativo.

Un approccio innovativo per migliorare i RALM è l'introduzione di framework di auto-ragionamento. L'idea alla base di questo metodo è sfruttare le capacità proprie del modello linguistico per generare traiettorie di ragionamento esplicite, che possono poi essere utilizzate per migliorare la qualità e l'affidabilità dei suoi output.

Analizziamo i componenti chiave di un framework di auto-ragionamento:

Processo consapevole della pertinenza (MUSICA RAP)
Processo selettivo consapevole delle prove (E AP)
Processo di analisi della traiettoria (RUBINETTO)

Processo sensibile alla pertinenza (RAP)

Il RAP è progettato per affrontare una delle sfide fondamentali dei RALM: determinare se i documenti recuperati siano effettivamente pertinenti alla domanda posta. Ecco come funziona:

Il sistema recupera una serie di documenti potenzialmente rilevanti utilizzando un modello di recupero (ad esempio, DPR o Contriever).
Il modello linguistico viene quindi incaricato di giudicare la rilevanza di questi documenti rispetto alla domanda.
Il modello genera esplicitamente ragioni che spiegano perché i documenti sono considerati rilevanti o irrilevanti.

Ad esempio, data la domanda “Quando è stata costruita la Torre Eiffel?”, il RAP potrebbe produrre risultati come questo:

Relevant: True

Relevant Reason: The retrieved documents contain specific information about the construction dates of the Eiffel Tower, including its commencement in 1887 and completion in 1889.

Questo processo aiuta a filtrare le informazioni irrilevanti nelle prime fasi della pipeline, migliorando la qualità complessiva delle risposte del modello.

Processo selettivo basato sull'evidenza (EAP)

L'EAP porta la valutazione della pertinenza a un livello superiore, istruendo il modello a identificare e citare prove specifiche dai documenti pertinenti. Questo processo imita il modo in cui gli esseri umani potrebbero affrontare un compito di ricerca, selezionando frasi chiave e spiegandone la rilevanza. Ecco come potrebbe apparire il risultato dell'EAP:

Cite content: "Construction of the Eiffel Tower began on January 28, 1887, and was completed on March 31, 1889."

Reason to cite: This sentence provides the exact start and end dates for the construction of the Eiffel Tower, directly answering the question about when it was built.

Citando esplicitamente le fonti e spiegando la rilevanza di ogni elemento di prova, l'EAP migliora la tracciabilità e l'interpretabilità dei risultati del modello.

Processo di analisi della traiettoria (TAP)

Il TAP è la fase finale del quadro di autoragionamento, in cui il modello consolida tutte le traiettorie di ragionamento generate nei passaggi precedenti. Analizza queste traiettorie e produce un riassunto conciso insieme a una risposta finale. L'output del TAP potrebbe assomigliare a questo:

Analysis: The Eiffel Tower was built between 1887 and 1889. Construction began on January 28, 1887, and was completed on March 31, 1889. This information is supported by multiple reliable sources that provide consistent dates for the tower's construction period.

Risposta: La Torre Eiffel fu costruita dal 1887 al 1889.

Questo processo consente al modello di fornire sia una spiegazione dettagliata del suo ragionamento sia una risposta concisa, adatta alle diverse esigenze degli utenti.

Implementare l'autoragionamento nella pratica

Per implementare questo quadro di auto-ragionamento, i ricercatori hanno esplorato vari approcci, tra cui:

Promuovere modelli linguistici pre-addestrati
Ottimizzazione dei modelli linguistici con tecniche efficienti in termini di parametri come QLoRA
Sviluppo di architetture neurali specializzate, come modelli di attenzione multi-testa

Ciascuno di questi approcci presenta i propri compromessi in termini di prestazioni, efficienza e facilità di implementazione. Ad esempio, l’approccio basato sui suggerimenti è il più semplice da implementare ma potrebbe non produrre sempre risultati coerenti. La messa a punto con QLoRA offre un buon equilibrio tra prestazioni ed efficienza, mentre le architetture specializzate possono fornire le migliori prestazioni ma richiedono più risorse computazionali per l'addestramento.

Ecco un esempio semplificato di come potresti implementare il RAP utilizzando un approccio di prompt con un modello linguistico come GPT-3:

import openai

def relevance_aware_process(question, documents):
    prompt = f"""
    Question: {question}
    
    Retrieved documents:
    {documents}
    
    Task: Determine if the retrieved documents are relevant to answering the question.
    Output format:
    Relevant: [True/False]
    Relevant Reason: [Explanation]
    
    Your analysis:
    """
    
    response = openai.Completion.create(
        engine="text-davinci-002",
        prompt=prompt,
        max_tokens=150
    )
    
    return response.choices[0].text.strip()

# Example usage
question = "When was the Eiffel Tower built?"
documents = "The Eiffel Tower is a wrought-iron lattice tower on the Champ de Mars in Paris, France. It is named after the engineer Gustave Eiffel, whose company designed and built the tower. Constructed from 1887 to 1889 as the entrance arch to the 1889 World's Fair, it was initially criticized by some of France's leading artists and intellectuals for its design, but it has become a global cultural icon of France."

result = relevance_aware_process(question, documents)
print(result)

Questo esempio dimostra come il RAP possa essere implementato utilizzando un semplice approccio di suggerimento. In pratica, verrebbero utilizzate tecniche più sofisticate per garantire la coerenza e gestire i casi limite.

Generazione aumentata di recupero adattivo per sistemi conversazionali

Mentre il quadro dell’autoragionamento si concentra sul miglioramento della qualità e dell’interpretabilità delle risposte individuali, un’altra linea di ricerca ha esplorato come rendere la generazione aumentata con il recupero più adattiva nel contesto dei sistemi conversazionali. Questo approccio, noto come generazione aumentata con recupero adattivo, mira a determinare quando la conoscenza esterna dovrebbe essere utilizzata in una conversazione e come incorporarla in modo efficace.

L'intuizione chiave alla base di questo approccio è che non ogni svolta in una conversazione richiede un ampliamento delle conoscenze esterne. In alcuni casi, affidarsi eccessivamente alle informazioni recuperate può portare a risposte innaturali o eccessivamente verbose. La sfida, quindi, è sviluppare un sistema in grado di decidere dinamicamente quando utilizzare le conoscenze esterne e quando affidarsi alle capacità intrinseche del modello.

Componenti della generazione aumentata di recupero adattivo

Per affrontare questa sfida, i ricercatori hanno proposto un framework chiamato RAGate, che consiste di diversi componenti chiave:

Un meccanismo binario di porta della conoscenza
Un processo consapevole della rilevanza
Un processo selettivo consapevole delle evidenze
Un processo di analisi della traiettoria

Il meccanismo binario della porta della conoscenza

Il nucleo del sistema RAGate è una porta di conoscenza binaria che decide se utilizzare la conoscenza esterna per un dato turno di conversazione. Questo cancello tiene conto del contesto della conversazione e, facoltativamente, dei frammenti di conoscenza recuperati per prendere una decisione.

Ecco un'illustrazione semplificata di come potrebbe funzionare la porta della conoscenza binaria:

def knowledge_gate(context, retrieved_knowledge=None):
    # Analyze the context and retrieved knowledge
    # Return True if external knowledge should be used, False otherwise
    pass

def generate_response(context, knowledge=None):
    if knowledge_gate(context, knowledge):
        # Use retrieval-augmented generation
        return generate_with_knowledge(context, knowledge)
    else:
        # Use standard language model generation
        return generate_without_knowledge(context)

Questo meccanismo di controllo consente al sistema di essere più flessibile e consapevole del contesto nell’uso della conoscenza esterna.

Implementazione di RAGate

Questa immagine illustra il framework RAGate, un sistema avanzato progettato per incorporare la conoscenza esterna nei LLM per una migliore generazione di risposte. Questa architettura mostra come un LLM di base possa essere integrato con contesto o conoscenza, tramite input diretto o integrando database esterni durante il processo di generazione. Questo duplice approccio, che utilizza sia le funzionalità del modello interno che i dati esterni, consente al LLM di fornire risposte più accurate e contestualmente rilevanti. Questo metodo ibrido colma il divario tra la potenza computazionale grezza e le competenze specifiche del settore.

Questo mostra le metriche prestazionali per varie varianti di modello nell'ambito del framework RAGate, che si concentra sull'integrazione del recupero con la regolazione fine efficiente dei parametri (PEFT). I risultati evidenziano la superiorità dei modelli integrati nel contesto, in particolare quelli che utilizzano incorporamenti ner-know e ner-source.

I modelli RAGate-PEFT e RAGate-MHA dimostrano miglioramenti sostanziali nella precisione, nel ricordo e nei punteggi F1, sottolineando i vantaggi derivanti dall'incorporamento sia del contesto che degli input di conoscenza. Queste strategie di perfezionamento consentono ai modelli di funzionare in modo più efficace su attività ad alta intensità di conoscenza, fornendo una soluzione più solida e scalabile per le applicazioni del mondo reale.

Per implementare RAGate, i ricercatori hanno esplorato diversi approcci, tra cui:

Utilizzo di modelli linguistici di grandi dimensioni con suggerimenti attentamente realizzati
Ottimizzazione dei modelli linguistici utilizzando tecniche efficienti in termini di parametri
Sviluppo di architetture neurali specializzate, come modelli di attenzione multi-testa

Ciascuno di questi approcci ha i suoi punti di forza e di debolezza. Ad esempio, l’approccio basato sui suggerimenti è relativamente semplice da implementare ma potrebbe non produrre sempre risultati coerenti. La messa a punto offre un buon equilibrio tra prestazioni ed efficienza, mentre le architetture specializzate possono fornire le migliori prestazioni ma richiedono più risorse computazionali per l'addestramento.

Ecco un esempio semplificato di come potresti implementare un sistema simile a RAGate utilizzando un modello linguistico ottimizzato:

 
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

class RAGate:
    def __init__(self, model_name):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForSequenceClassification.from_pretrained(model_name)
        
    def should_use_knowledge(self, context, knowledge=None):
        inputs = self.tokenizer(context, knowledge or "", return_tensors="pt", truncation=True, max_length=512)
        with torch.no_grad():
            outputs = self.model(**inputs)
        probabilities = torch.softmax(outputs.logits, dim=1)
        return probabilities[0][1].item() &amp;gt; 0.5  # Assuming binary classification (0: no knowledge, 1: use knowledge)

class ConversationSystem:
    def __init__(self, ragate, lm, retriever):
        self.ragate = ragate
        self.lm = lm
        self.retriever = retriever
        
    def generate_response(self, context):
        knowledge = self.retriever.retrieve(context)
        if self.ragate.should_use_knowledge(context, knowledge):
            return self.lm.generate_with_knowledge(context, knowledge)
        else:
            return self.lm.generate_without_knowledge(context)

# Example usage
ragate = RAGate("path/to/fine-tuned/model")
lm = LanguageModel()  # Your preferred language model
retriever = KnowledgeRetriever()  # Your knowledge retrieval system

conversation_system = ConversationSystem(ragate, lm, retriever)

context = "User: What's the capital of France?\nSystem: The capital of France is Paris.\nUser: Tell me more about its famous landmarks."
response = conversation_system.generate_response(context)
print(response)

Questo esempio dimostra come un sistema simile a RAGate potrebbe essere implementato nella pratica. IL RAGate la classe utilizza un modello ottimizzato per decidere se utilizzare la conoscenza esterna, mentre il ConversationSystem La classe orchestra l'interazione tra gate, modello linguistico e retriever.

Sfide e direzioni future

Sebbene i sistemi di auto-ragionamento e la generazione aumentata di recupero adattivo mostrino grandi promesse, ci sono ancora diverse sfide che i ricercatori stanno lavorando per affrontare:

Efficienza computazionale: Entrambi gli approcci possono essere computazionalmente intensivi, soprattutto quando si tratta di grandi quantità di informazioni recuperate o si generano lunghe traiettorie di ragionamento. L'ottimizzazione di questi processi per le applicazioni in tempo reale rimane un'area di ricerca attiva.
Robustezza: è fondamentale garantire che questi sistemi funzionino in modo coerente in un’ampia gamma di argomenti e tipi di domande. Ciò include la gestione di casi limite e input contraddittori che potrebbero confondere il giudizio di pertinenza o i meccanismi di controllo.
Supporto multilingue e multilingue: L’estensione di questi approcci per lavorare efficacemente su più lingue e per gestire il recupero e il ragionamento di informazioni multilinguistiche è una direzione importante per il lavoro futuro.
Integrazione con altre tecnologie di intelligenza artificiale: Esplorare come questi approcci possano essere combinati con altre tecnologie di intelligenza artificiale, come i modelli multimodali o l’apprendimento per rinforzo, potrebbe portare a sistemi ancora più potenti e flessibili.

Conclusione

Lo sviluppo di strutture di auto-ragionamento e di generazione aumentata di recupero adattivo rappresenta un significativo passo avanti nel campo dell'elaborazione del linguaggio naturale. Consentendo ai modelli linguistici di ragionare esplicitamente sulle informazioni che utilizzano e di adattare dinamicamente le loro strategie di aumento della conoscenza, questi approcci promettono di rendere i sistemi di intelligenza artificiale più affidabili, interpretabili e consapevoli del contesto.

Poiché la ricerca in questo settore continua ad evolversi, possiamo aspettarci di vedere queste tecniche perfezionate e integrate in un’ampia gamma di applicazioni, dai sistemi di risposta alle domande e agli assistenti virtuali agli strumenti didattici e agli ausili alla ricerca. La capacità di combinare la vasta conoscenza codificata in grandi modelli linguistici con informazioni aggiornate e recuperate dinamicamente ha il potenziale per rivoluzionare il modo in cui interagiamo con i sistemi di intelligenza artificiale e accediamo alle informazioni.

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.

Unite.AI