Intelligenza Artificiale

LLM-as-a-Judge: una soluzione scalabile per la valutazione dei modelli linguistici utilizzando modelli linguistici

Pubblicato il 14 Novembre 2024

Ayush Mittal Mittale

LLM-as-a-Judge per una valutazione automatizzata e scalabile

Il framework LLM-as-a-Judge è un'alternativa scalabile e automatizzata alle valutazioni umane, che sono spesso costose, lente e limitate dal volume di risposte che possono valutare in modo fattibile. Utilizzando un LLM per valutare gli output di un altro LLM, i team possono monitorare in modo efficiente accuratezza, pertinenza, tono e aderenza a linee guida specifiche in modo coerente e replicabile.

La valutazione del testo generato crea sfide uniche che vanno oltre le tradizionali metriche di accuratezza. Un singolo pronto può produrre più risposte corrette che differiscono per stile, tono o formulazione, rendendo difficile valutare la qualità utilizzando semplici parametri quantitativi.

Qui, l'approccio LLM-as-a-Judge si distingue: consente valutazioni sfumate su qualità complesse come tono, disponibilità e coerenza conversazionale. Sia che vengano utilizzati per confrontare versioni di modelli o valutare output in tempo reale, gli LLM come giudici offrono un modo flessibile per approssimare il giudizio umano, rendendoli una soluzione ideale per scalare gli sforzi di valutazione su grandi set di dati e interazioni dal vivo.

Questa guida esplorerà il funzionamento del programma LLM-as-a-Judge, i diversi tipi di valutazione e i passaggi pratici per implementarlo efficacemente in diversi contesti. Parleremo di come definire i criteri, progettare i prompt di valutazione e stabilire un ciclo di feedback per miglioramenti continui.

Concetto di LLM come giudice

LLM-come-giudice usa gli LLM per valutare gli output di testo da altri sistemi di intelligenza artificiale. Agendo come valutatori imparziali, gli LLM possono valutare il testo generato in base a criteri personalizzati, come pertinenza, concisione e tono. Questo processo di valutazione è simile ad avere un valutatore virtuale che esamina ogni output in base a linee guida specifiche fornite in un prontoÈ un framework particolarmente utile per applicazioni con molti contenuti, in cui la revisione umana è impraticabile a causa di vincoli di volume o di tempo.

Come funziona

Un LLM-as-a-Judge è progettato per valutare le risposte di testo in base alle istruzioni all'interno di un prompt di valutazione. Il prompt definisce in genere qualità come utilità, pertinenza o chiarezza che l'LLM dovrebbe considerare quando valuta un output. Ad esempio, un prompt potrebbe chiedere all'LLM di decidere se una risposta del chatbot è "utile" o "non utile", con indicazioni su cosa comporta ciascuna etichetta.

. LLM usa la sua conoscenza interna e i modelli linguistici appresi per valutare il testo fornito, abbinando i criteri di richiesta alle qualità della risposta. Definendo aspettative chiare, i valutatori possono adattare l'attenzione dell'LLM per catturare qualità sfumate come cortesia o specificità che altrimenti potrebbero essere difficili da misurare. A differenza delle metriche di valutazione tradizionali, LLM-as-a-Judge fornisce un'approssimazione flessibile e di alto livello del giudizio umano che è adattabile a diversi tipi di contenuto ed esigenze di valutazione.

Tipi di valutazione

Confronto a coppie: In questo metodo, all'LLM vengono fornite due risposte allo stesso prompt e gli viene chiesto di scegliere quella "migliore" in base a criteri come pertinenza o accuratezza. Questo tipo di valutazione è spesso utilizzato nei test A/B, in cui gli sviluppatori confrontano diverse versioni di un modello o configurazioni di prompt. Chiedendo all'LLM di giudicare quale risposta funziona meglio in base a criteri specifici, il confronto a coppie offre un modo semplice per determinare la preferenza negli output del modello.
Punteggio diretto: Il punteggio diretto è una valutazione senza riferimenti in cui l'LLM assegna un punteggio a un singolo output in base a qualità predefinite come cortesia, tono o chiarezza. Il punteggio diretto funziona bene sia nelle valutazioni offline che online, offrendo un modo per monitorare costantemente la qualità in varie interazioni. Questo metodo è utile per tracciare qualità coerenti nel tempo e viene spesso utilizzato per monitorare le risposte in tempo reale in produzione.
Valutazione basata sui riferimenti: Questo metodo introduce un contesto aggiuntivo, come una risposta di riferimento o materiale di supporto, rispetto al quale viene valutata la risposta generata. Questo è comunemente usato in Generazione aumentata di recupero (RAG), dove la risposta deve allinearsi strettamente con la conoscenza recuperata. Confrontando l'output con un documento di riferimento, questo approccio aiuta a valutare l'accuratezza fattuale e l'aderenza a contenuti specifici, come il controllo delle allucinazioni nel testo generato.

Casi d'uso

LLM-as-a-Judge è adattabile a diverse applicazioni:

chatbots: Valutare le risposte in base a criteri quali pertinenza, tono e utilità per garantire una qualità costante.
Riassunto: Valutazione dei riassunti in termini di concisione, chiarezza e allineamento con il documento originale per mantenerne la fedeltà.
Generazione di codice: Revisione di frammenti di codice per verificarne la correttezza, la leggibilità e l'aderenza alle istruzioni fornite o alle best practice.

Questo metodo può fungere da valutatore automatico per migliorare queste applicazioni monitorando e migliorando costantemente le prestazioni del modello senza una revisione umana esaustiva.

Costruire il tuo giudice LLM – Una guida passo passo

Creare un'impostazione di valutazione basata su LLM richiede un'attenta pianificazione e linee guida chiare. Segui questi passaggi per creare un solido sistema di valutazione LLM-as-a-Judge:

Fase 1: Definizione dei criteri di valutazione

Inizia definendo le qualità specifiche che vuoi che l'LLM valuti. I tuoi criteri di valutazione potrebbero includere fattori come:

Rilevanza: La risposta affronta direttamente la domanda o il suggerimento?
Tono: Il tono è appropriato al contesto (ad esempio, professionale, amichevole, conciso)?
Precisione: Le informazioni fornite sono fattualmente corrette, in particolare nelle risposte basate sulla conoscenza?

Ad esempio, se si valuta un chatbot, si potrebbe dare priorità alla pertinenza e all'utilità per garantire che fornisca risposte utili e pertinenti. Ogni criterio dovrebbe essere definito chiaramente, poiché linee guida vaghe possono portare a valutazioni incoerenti. Definire criteri binari o scalati semplici (come "rilevante" vs. "irrilevante" o una scala Likert per l'utilità) può migliorare la coerenza.

Fase 2: preparazione del set di dati di valutazione

Per calibrare e testare il giudice LLM, avrai bisogno di un set di dati rappresentativo con esempi etichettati. Ci sono due approcci principali per preparare questo set di dati:

Dati di produzione: Utilizza i dati degli output storici della tua applicazione. Seleziona esempi che rappresentano risposte tipiche, che coprono una gamma di livelli di qualità per ogni criterio.
Dati sintetici: Se i dati di produzione sono limitati, puoi creare esempi sintetici. Questi esempi dovrebbero imitare le caratteristiche di risposta previste e coprire casi limite per test più completi.

Una volta che hai un set di dati, etichettalo manualmente in base ai tuoi criteri di valutazione. Questo set di dati etichettato fungerà da tua verità di base, consentendoti di misurare la coerenza e l'accuratezza del giudice LLM.

Fase 3: creazione di prompt efficaci

Ingegneria rapida è fondamentale per guidare efficacemente il giudice LLM. Ogni richiesta deve essere chiara, specifica e allineata con i tuoi criteri di valutazione. Di seguito sono riportati esempi per ogni tipo di valutazione:

Richiesta di confronto a coppie

 
You will be shown two responses to the same question. Choose the response that is more helpful, relevant, and detailed. If both responses are equally good, mark them as a tie.

Question: [Insert question here]
Response A: [Insert Response A]
Response B: [Insert Response B]

Output: "Better Response: A" or "Better Response: B" or "Tie"

Richiesta di punteggio diretto

 
Evaluate the following response for politeness. A polite response is respectful, considerate, and avoids harsh language. Return "Polite" or "Impolite."

Response: [Insert response here]

Output: "Polite" or "Impolite"

Richiesta di valutazione basata sui riferimenti

 
Compare the following response to the provided reference answer. Evaluate if the response is factually correct and conveys the same meaning. Label as "Correct" or "Incorrect."

Reference Answer: [Insert reference answer here]
Generated Response: [Insert generated response here]

Output: "Correct" or "Incorrect"

Creare prompt in questo modo riduce l'ambiguità e consente al giudice LLM di capire esattamente come valutare ogni risposta. Per migliorare ulteriormente la chiarezza dei prompt, limitare l'ambito di ogni valutazione a una o due qualità (ad esempio, pertinenza e dettaglio) anziché mescolare più fattori in un singolo prompt.

Fase 4: test e iterazione

Dopo aver creato il prompt e il dataset, valuta il giudice LLM eseguendolo sul tuo dataset etichettato. Confronta gli output dell'LLM con le etichette di verità di base che hai assegnato per verificarne la coerenza e l'accuratezza. Le metriche chiave per la valutazione includono:

Precisione: La percentuale di valutazioni positive corrette.
Richiamo: La percentuale di risultati positivi di base correttamente identificati dall'LLM.
Precisione: La percentuale complessiva di valutazioni corrette.

I test aiutano a identificare eventuali incongruenze nelle prestazioni del giudice LLM. Ad esempio, se il giudice etichetta spesso erroneamente le risposte utili come non utili, potrebbe essere necessario perfezionare il prompt di valutazione. Inizia con un piccolo campione, quindi aumenta la dimensione del dataset man mano che esegui l'iterazione.

In questa fase, prendi in considerazione di sperimentare diverse strutture di prompt o di usare più LLM per la convalida incrociata. Ad esempio, se un modello tende a essere prolisso, prova a testare con un modello LLM più conciso per vedere se i risultati si allineano più strettamente con la tua verità di base. Le revisioni dei prompt possono comportare l'adeguamento delle etichette, la semplificazione del linguaggio o persino la suddivisione di prompt complessi in prompt più piccoli e più gestibili.

Implementazione del codice: mettere in pratica LLM-as-a-Judge

Questa sezione ti guiderà attraverso l'impostazione e l'implementazione del framework LLM-as-a-Judge utilizzando Python e Abbracciare il visoDall'impostazione del client LLM all'elaborazione dei dati e all'esecuzione delle valutazioni, questa sezione coprirà l'intera pipeline.

Impostazione del client LLM

Per utilizzare un LLM come valutatore, dobbiamo prima configurarlo per le attività di valutazione. Ciò comporta la configurazione di un client modello LLM per eseguire attività di inferenza e valutazione con un modello pre-addestrato disponibile sull'hub di Hugging Face. Qui, useremo huggingface_hub per semplificare la configurazione.

 
import pandas as pd
from huggingface_hub import InferenceClient

# Initialize the LLM client with a specific model repository
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

In questa configurazione, il modello viene inizializzato con un limite di timeout per gestire richieste di valutazione estese. Assicurati di sostituire repo_id con l'ID repository corretto per il modello scelto.

Caricamento e preparazione dei dati

Dopo aver configurato il client LLM, il passo successivo è caricare e preparare i dati per la valutazione. Useremo pandas per la manipolazione dei dati e la datasets libreria per caricare qualsiasi dataset preesistente. Di seguito, prepariamo un piccolo dataset contenente domande e risposte per la valutazione.

 
import pandas as pd
from datasets import load_dataset

# Load a sample dataset (replace with your dataset)
data = load_dataset("your_dataset_id")["train"]

# Extract relevant fields for evaluation
df = pd.DataFrame({
    'question': data['question_field'],
    'answer': data['answer_field']
})
df.head()

Assicurati che il set di dati contenga campi pertinenti ai tuoi criteri di valutazione, come coppie domanda-risposta o formati di output previsti.

Valutazione con un giudice LLM

Una volta caricati e preparati i dati, possiamo creare funzioni per valutare le risposte. Questo esempio illustra una funzione che valuta la pertinenza e l'accuratezza di una risposta in base a una coppia domanda-risposta fornita.

 
def evaluate_answer(question, answer):
    # Craft a prompt to evaluate relevance and accuracy
    prompt = f"Evaluate the response's relevance and accuracy:\nQuestion: {question}\nAnswer: {answer}"
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
    return result

# Test the function with an example
question = "How does the FED's actions impact inflation?"
answer = "When the FED buys bonds, it can lead to..."
evaluation = evaluate_answer(question, answer)
print("LLM Evaluation:", evaluation)

Questa funzione invia una coppia domanda-risposta all'LLM, che risponde con un giudizio basato sul prompt di valutazione. È possibile adattare questo prompt ad altre attività di valutazione modificando i criteri specificati nel prompt, come "rilevanza e tono" o "concisione".

Implementazione di confronti a coppie

Nei casi in cui si desidera confrontare due output del modello, l'LLM può fungere da giudice tra le risposte. Adattiamo il prompt di valutazione per istruire l'LLM a scegliere la risposta migliore tra due in base a criteri specificati.

 
def evaluate_pairwise(question, answer_a, answer_b):
    # Craft a prompt for pairwise comparison
    prompt = (
        f"Given the question below, determine which response is more relevant and detailed.\n\n"
        f"Question: {question}\n\n"
        f"Response A: {answer_a}\n\n"
        f"Response B: {answer_b}\n\n"
        "Choose the better response: A or B."
    )
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
    return result

# Example pairwise comparison
question = "What is the impact of the FED's bond-buying actions?"
answer_a = "The FED's actions can increase the money supply."
answer_b = "The FED's bond purchases generally raise inflation."
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("Better Response:", comparison)

Questa funzione fornisce un modo pratico per valutare e classificare le risposte, il che risulta particolarmente utile negli scenari di test A/B per ottimizzare le risposte del modello.

Suggerimenti pratici e sfide

Sebbene il framework LLM-as-a-Judge sia uno strumento potente, diverse considerazioni pratiche possono aiutare a migliorarne le prestazioni e a mantenerne l'accuratezza nel tempo.

Buone pratiche per la creazione di prompt

Creare prompt efficaci è la chiave per valutazioni accurate. Ecco alcuni consigli pratici:

Evitare pregiudizi: Gli LLM possono mostrare pregiudizi di preferenza basati sulla struttura del prompt. Evita di suggerire la risposta "corretta" all'interno del prompt e assicurati che la domanda sia neutrale.
Ridurre il pregiudizio della verbosità: Gli LLM potrebbero favorire risposte più verbose. Specificare la concisione se la verbosità non è un criterio.
Ridurre al minimo il pregiudizio di posizione: Nei confronti a coppie, randomizzare periodicamente l'ordine delle risposte per ridurre qualsiasi distorsione posizionale verso la prima o la seconda risposta.

Ad esempio, anziché dire "Scegli la risposta migliore qui sotto", specifica direttamente i criteri: "Scegli la risposta che fornisce una spiegazione chiara e concisa".

Limitazioni e strategie di mitigazione

Sebbene i giudici LLM possano replicare il giudizio umano, presentano anche delle limitazioni:

Complessità del compito: Alcuni compiti, in particolare quelli che richiedono matematica o ragionamento approfondito, potrebbero superare le capacità di un LLM. Potrebbe essere utile utilizzare modelli più semplici o validatori esterni per compiti che richiedono una conoscenza fattuale precisa.
Bias non intenzionali: I giudici LLM possono mostrare pregiudizi basati sulla formulazione, noti come "bias di posizione" (favorire risposte in determinate posizioni) o "bias di auto-miglioramento" (favorire risposte simili a quelle precedenti). Per mitigarli, evita ipotesi di posizione e monitora le tendenze di valutazione per individuare incongruenze.
Ambiguità nell'output: Se l'LLM produce valutazioni ambigue, si può prendere in considerazione l'utilizzo di prompt binari che richiedono classificazioni sì/no o positivo/negativo per le attività più semplici.

Conclusione

Il framework LLM-as-a-Judge offre un approccio flessibile, scalabile e conveniente per valutare gli output di testo generati dall'intelligenza artificiale. Con una configurazione appropriata e un design di prompt ponderato, può imitare il giudizio umano in varie applicazioni, dai chatbot ai riassuntivi ai sistemi QA.

Grazie a un attento monitoraggio, a un'iterazione tempestiva e alla consapevolezza dei limiti, i team possono garantire che i giudici del loro LLM rimangano allineati alle esigenze applicative del mondo reale.

Argomenti correlati:alternativa automatizzata alle valutazioni umane Costruisci il tuo giudice LLM chatbot sistema di valutazione revisione umana LLM-come-giudice scalabile

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.

Unite.AI