Intelligenza artificiale

Valutazione dei Modelli Linguistici di Grande Scala: Una Guida Tecnica

Published January 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

I modelli linguistici di grande scala (LLM) come GPT-4, Claude e LLaMA hanno esplodato in popolarità. Grazie alla loro capacità di generare testi impressionantemente simili a quelli umani, questi sistemi di intelligenza artificiale sono ora utilizzati per tutto, dalla creazione di contenuti ai chatbot di servizio clienti.

Ma come facciamo a sapere se questi modelli sono effettivamente validi? Con nuovi LLM che vengono annunciati costantemente, tutti affermando di essere più grandi e migliori, come possiamo valutare e confrontare le loro prestazioni?

In questa guida completa, esploreremo le principali tecniche per valutare i modelli linguistici di grande scala. Esamineremo i pro e i contro di ogni approccio, quando sono migliori da applicare e come puoi sfruttarli nei tuoi test LLM.

Metriche Specifiche per Compito

Uno dei modi più diretti per valutare un LLM è testarlo su compiti NLP stabiliti utilizzando metriche standardizzate. Ad esempio:

Riepilogo

Per i compiti di riepilogo, metriche come ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sono comunemente utilizzate. ROUGE confronta il riepilogo generato dal modello con un riepilogo “di riferimento” scritto da un uomo, contando la sovrapposizione di parole o frasi.

Ci sono diverse varianti di ROUGE, ognuna con i propri pro e contro:

ROUGE-N: Confronta la sovrapposizione di n-grammi (sequenze di N parole). ROUGE-1 utilizza unigrammi (parole singole), ROUGE-2 utilizza bigrammi, ecc. Il vantaggio è che cattura l’ordine delle parole, ma può essere troppo rigido.
ROUGE-L: Basato sulla più lunga sottosequenza comune (LCS). Più flessibile nell’ordine delle parole, ma si concentra sui punti principali.
ROUGE-W: Pondera le corrispondenze LCS per la loro importanza. Tentativo di migliorare ROUGE-L.

In generale, le metriche ROUGE sono veloci, automatiche e funzionano bene per classificare i riepiloghi dei sistemi. Tuttavia, non misurano la coerenza o il significato. Un riepilogo potrebbe ottenere un punteggio ROUGE alto e comunque essere insensato.

La formula per ROUGE-N è:

$ROUGE-N = \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Reference Summaries}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Dove:

Count_{match}(gram_n) è il conteggio di n-grammi sia nella somma generata che nel riepilogo di riferimento.
Count(gram_n) è il conteggio di n-grammi nel riepilogo di riferimento.

Ad esempio, per ROUGE-1 (unigrammi):

Riepilogo generato: “Il gatto si è seduto.”
Riepilogo di riferimento: “Il gatto si è seduto sul tappeto.”
Unigrammi sovrapposti: “Il”, “gatto”, “si è seduto”
Punteggio ROUGE-1 = 3/5 = 0,6

ROUGE-L utilizza la più lunga sottosequenza comune (LCS). È più flessibile nell’ordine delle parole. La formula è:

$ROUGE-L = max(length(generated), length(reference)) L CS ( generated , reference )$

Dove LCS è la lunghezza della più lunga sottosequenza comune.

ROUGE-W pondera le corrispondenze LCS. Considera l’importanza di ogni corrispondenza nella LCS.

Traduzione

Per i compiti di traduzione automatica, BLEU (Bilingual Evaluation Understudy) è una metrica popolare. BLEU misura la somiglianza tra la traduzione di output del modello e le traduzioni professionali umane, utilizzando la precisione degli n-grammi e una penalità per la brevità.

Aspetti chiave di come funziona BLEU:

Confronta le sovrapposizioni degli n-grammi per n fino a 4 (unigrammi, bigrammi, trigrammi, 4-grammi).
Calcola una media geometrica delle precisioni degli n-grammi.
Applica una penalità per la brevità se la traduzione è molto più breve del riferimento.
Di solito varia da 0 a 1, con 1 che rappresenta una corrispondenza perfetta al riferimento.

BLEU correla ragionevolmente bene con i giudizi umani sulla qualità della traduzione. Ma ha ancora limitazioni:

Misura solo la precisione contro i riferimenti, non la ricordanza o F1.
Fatica con traduzioni creative che utilizzano un linguaggio diverso.
Suscettibile a “trucchi” di traduzione.

Altre metriche di traduzione come METEOR e TER tentano di migliorare le debolezze di BLEU. Ma in generale, le metriche automatiche non catturano completamente la qualità della traduzione.

Altri Compiti

Oltre al riepilogo e alla traduzione, metriche come F1, accuratezza, MSE e più possono essere utilizzate per valutare le prestazioni LLM su compiti come:

Classificazione del testo
Estrazione di informazioni
Risposta alle domande
Analisi del sentimento
Rilevamento degli errori grammaticali

Il vantaggio delle metriche specifiche per compito è che la valutazione può essere completamente automatizzata utilizzando set di dati standardizzati come SQuAD per la risposta alle domande e GLUE benchmark per una serie di compiti. I risultati possono essere facilmente tracciati nel tempo man mano che i modelli migliorano.

Tuttavia, queste metriche sono a foco stretto e non possono misurare la qualità linguistica complessiva. Gli LLM che si esibiscono bene nelle metriche per un singolo compito possono fallire nella generazione di testi coerenti, logici e utili in generale.

Benchmark di Ricerca

Un modo popolare per valutare gli LLM è testarli contro ampi benchmark di ricerca che coprono argomenti e abilità diversi. Questi benchmark consentono di testare i modelli a scala.

Alcuni benchmark noti includono:

SuperGLUE – Un insieme impegnativo di 11 compiti linguistici diversi.
GLUE – Una raccolta di 9 compiti di comprensione delle frasi. Più semplice di SuperGLUE.
MMLU – 57 diversi compiti di scienze, scienze sociali e umanità. Testa la conoscenza e la capacità di ragionamento.
Winograd Schema Challenge – Problemi di risoluzione dei pronomi che richiedono ragionamento comune.
ARC – Compiti di ragionamento linguistico impegnativi.
Hellaswag – Ragionamento comune su situazioni.
PIQA – Domande di fisica che richiedono diagrammi.

Valutando su benchmark come questi, i ricercatori possono testare rapidamente i modelli sulla loro capacità di eseguire matematica, logica, ragionamento, codifica, senso comune e molto altro. La percentuale di domande risposte correttamente diventa una metrica di benchmark per confrontare i modelli.

Tuttavia, un problema importante con i benchmark è la contaminazione dei dati di allenamento. Molti benchmark contengono esempi che sono già stati visti dai modelli durante l’allenamento pre-trattamento. Ciò consente ai modelli di “memorizzare” le risposte a domande specifiche e performare meglio delle loro vere capacità.

Si tenta di “decontaminare” i benchmark rimuovendo esempi sovrapposti. Ma ciò è difficile da fare in modo completo, soprattutto quando i modelli possono aver visto parafrasi o traduzioni di domande.

Quindi, mentre i benchmark possono testare un’ampia gamma di abilità in modo efficiente, non possono misurare in modo affidabile le vere capacità di ragionamento o evitare l’inflazione del punteggio a causa della contaminazione. Sono necessari metodi di valutazione complementari.

Autovalutazione LLM

Un approccio intrigante è far valutare un LLM da un altro LLM. L’idea è sfruttare il concetto di “compito più facile”:

Produrre un output di alta qualità può essere difficile per un LLM.
Ma determinare se un dato output è di alta qualità può essere un compito più facile.

Ad esempio, mentre un LLM potrebbe faticare a generare un paragrafo fattuale e coerente da zero, può più facilmente giudicare se un paragrafo dato ha senso logico e si adatta al contesto.

Quindi il processo è:

Passa il prompt di input al primo LLM per generare l’output.
Passa il prompt di input + output generato al secondo LLM “valutatore”.
Chiedi all’LLM valutatore una domanda per valutare la qualità dell’output. Ad esempio, “Il risposta sopra ha senso logico?”

Questo approccio è veloce da implementare e automatizza la valutazione LLM. Tuttavia, ci sono alcune sfide:

Le prestazioni dipendono fortemente dalla scelta dell’LLM valutatore e dalla formulazione del prompt.
Vincolato dalla difficoltà del compito originale. Valutare il ragionamento complesso è ancora difficile per gli LLM.
Può essere computazionalmente costoso se si utilizzano LLM basati su API.

L’autovalutazione è particolarmente promettente per valutare le informazioni recuperate nei sistemi RAG (retrieval-augmented generation). Ulteriori query LLM possono convalidare se il contesto recuperato viene utilizzato in modo appropriato.

Nel complesso, l’autovalutazione mostra potenziale, ma richiede attenzione nell’implementazione. Complementa, piuttosto che sostituisce, la valutazione umana.

Valutazione Umana

Data le limitazioni delle metriche automatiche e dei benchmark, la valutazione umana è ancora lo standard di riferimento per valutare rigorosamente la qualità degli LLM.

Gli esperti possono fornire valutazioni qualitative dettagliate su:

Precisione e correttezza fattuale
Logica, ragionamento e senso comune
Coerenza, coesione e leggibilità
Adeguatezza di tono, stile e voce
Grammaticalità e fluidità
Creatività e sfumatura

Per valutare un modello, agli esseri umani vengono forniti un set di prompt di input e le risposte generate dall’LLM. Valutano la qualità delle risposte, spesso utilizzando scale di valutazione e rubriche.

Lo svantaggio è che la valutazione manuale umana è costosa, lenta e difficile da scalare. Richiede anche lo sviluppo di criteri standardizzati e l’addestramento di valutatori per applicarli in modo coerente.

Alcuni ricercatori hanno esplorato modi creativi per finanziare le valutazioni umane degli LLM utilizzando sistemi di tipo torneo in cui le persone scommettono e giudicano le partite tra modelli. Ma la copertura è ancora limitata rispetto alle valutazioni manuali complete.

Per i casi d’uso aziendali in cui la qualità conta più della scala grezza, la valutazione umana da parte di esperti rimane lo standard di riferimento nonostante i costi. Ciò è particolarmente vero per applicazioni più rischiose degli LLM.

Conclusione

Valutare i modelli linguistici di grande scala in modo approfondito richiede l’utilizzo di una gamma diversificata di metodi complementari, piuttosto che affidarsi a una singola tecnica.

Combinando approcci automatici per la velocità con una rigorosa supervisione umana per l’accuratezza, possiamo sviluppare metodologie di test affidabili per i modelli linguistici di grande scala. Con una valutazione robusta, possiamo sbloccare il potenziale enorme degli LLM gestendo responsabilmente i loro rischi.

Unite.AI