Intelligenza artificiale
Valutazione dei Modelli Linguistici di Grande Scala: Una Guida Tecnica

I modelli linguistici di grande scala (LLM) come GPT-4, Claude e LLaMA hanno esplodato in popolarità. Grazie alla loro capacità di generare testi impressionantemente simili a quelli umani, questi sistemi di intelligenza artificiale sono ora utilizzati per tutto, dalla creazione di contenuti ai chatbot di servizio clienti.
Ma come facciamo a sapere se questi modelli sono effettivamente validi? Con nuovi LLM che vengono annunciati costantemente, tutti affermando di essere più grandi e migliori, come valutiamo e confrontiamo le loro prestazioni?
In questa guida completa, esploreremo le principali tecniche per valutare i modelli linguistici di grande scala. Esamineremo i pro e i contro di ciascun approccio, quando sono meglio applicati e come puoi utilizzarli per testare i tuoi LLM.
Metriche Specifiche per Compito
Uno dei modi più diretti per valutare un LLM è testarlo su compiti NLP stabiliti utilizzando metriche standardizzate. Ad esempio:
Riepilogo
Per i compiti di riepilogo, metriche come ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sono comunemente utilizzate. ROUGE confronta il riepilogo generato dal modello con un riepilogo “di riferimento” scritto da un umano, contando la sovrapposizione di parole o frasi.
Ci sono diverse varianti di ROUGE, ognuna con i propri pro e contro:
- ROUGE-N: Confronta la sovrapposizione di n-grammi (sequenze di N parole). ROUGE-1 utilizza unigrammi (singole parole), ROUGE-2 utilizza bigrammi, ecc. Il vantaggio è che cattura l’ordine delle parole, ma può essere troppo rigido.
- ROUGE-L: Si basa sulla lunghezza della sottosequenza comune (LCS). È più flessibile nell’ordine delle parole, ma si concentra sui punti principali.
- ROUGE-W: Pondera le corrispondenze LCS per la loro importanza. Cerca di migliorare ROUGE-L.
In generale, le metriche ROUGE sono veloci, automatiche e funzionano bene per la classifica dei riepilogi dei sistemi. Tuttavia, non misurano la coerenza o il significato. Un riepilogo potrebbe ottenere un punteggio ROUGE alto e comunque essere insensato.
La formula per ROUGE-N è:
ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑
Dove:
Count_{match}(gram_n)è il conteggio degli n-grammi sia nel riepilogo generato che in quello di riferimento.Count(gram_n)è il conteggio degli n-grammi nel riepilogo di riferimento.
Ad esempio, per ROUGE-1 (unigrammi):
- Riepilogo generato: “Il gatto si è seduto.”
- Riepilogo di riferimento: “Il gatto si è seduto sul tappeto.”
- Unigrammi sovrapposti: “Il”, “gatto”, “si è seduto”
- Punteggio ROUGE-1 = 3/5 = 0,6
ROUGE-L utilizza la sottosequenza comune più lunga (LCS). È più flessibile nell’ordine delle parole. La formula è:
ROUGE-L=���(generated,reference)max(length(generated), length(reference))
Dove LCS è la lunghezza della sottosequenza comune più lunga.
ROUGE-W pondera le corrispondenze LCS. Considera l’importanza di ogni corrispondenza nella LCS.
Traduzione
Per i compiti di traduzione automatica, BLEU (Bilingual Evaluation Understudy) è una metrica popolare. BLEU misura la somiglianza tra l’output di traduzione del modello e le traduzioni professionali umane, utilizzando la precisione degli n-grammi e una penalità per la brevità.
Aspetti chiave di come funziona BLEU:
- Confronta le sovrapposizioni degli n-grammi per n fino a 4 (unigrammi, bigrammi, trigrammi, 4-grammi).
- Calcola la media geometrica delle precisioni degli n-grammi.
- Applica una penalità per la brevità se la traduzione è molto più breve del riferimento.
- In generale, varia da 0 a 1, con 1 che rappresenta una corrispondenza perfetta con il riferimento.
BLEU correla ragionevolmente bene con i giudizi umani sulla qualità della traduzione. Ma ha ancora limitazioni:
- Misura solo la precisione contro i riferimenti, non la ricordanza o F1.
- Fatica con le traduzioni creative che utilizzano un linguaggio diverso.
- Suscettibile a “trucchi” di traduzione.
Altre metriche di traduzione come METEOR e TER cercano di migliorare le debolezze di BLEU. Ma in generale, le metriche automatiche non catturano completamente la qualità della traduzione.
Altri Compiti
In aggiunta al riepilogo e alla traduzione, metriche come F1, accuratezza, MSE e altre possono essere utilizzate per valutare le prestazioni dei LLM su compiti come:
- Classificazione del testo
- Estrazione di informazioni
- Risposta alle domande
- Analisi del sentimento
- Rilevamento degli errori grammaticali
Il vantaggio delle metriche specifiche per compito è che la valutazione può essere completamente automatizzata utilizzando dataset standardizzati come SQuAD per le domande e risposte e GLUE benchmark per una serie di compiti. I risultati possono essere facilmente tracciati nel tempo mentre i modelli migliorano.
Tuttavia, queste metriche sono focalizzate in modo ristretto e non possono misurare la qualità linguistica generale. I LLM che si eseguono bene su metriche per un singolo compito possono fallire nella generazione di testi coerenti, logici e utili in generale.
Benchmark di Ricerca
Un modo popolare per valutare i LLM è testarli contro ampi benchmark di ricerca che coprono argomenti e abilità diversi. Questi benchmark consentono di testare rapidamente i modelli su larga scala.
Alcuni benchmark noti includono:
- SuperGLUE – Un insieme impegnativo di 11 compiti linguistici diversi.
- GLUE – Una raccolta di 9 compiti di comprensione delle frasi. Più semplice di SuperGLUE.
- MMLU – 57 diversi compiti di scienze, sociali e umanistiche. Testa la conoscenza e la capacità di ragionamento.
- Winograd Schema Challenge – Problemi di risoluzione dei pronomi che richiedono ragionamento comune.
- ARC – Compiti di ragionamento linguistico naturale impegnativi.
- Hellaswag – Ragionamento comune su situazioni.
- PIQA – Domande di fisica che richiedono diagrammi.
Valutando su benchmark come questi, i ricercatori possono testare rapidamente i modelli sulla loro capacità di eseguire matematica, logica, ragionamento, codifica, senso comune e molto altro. La percentuale di domande risposte correttamente diventa una metrica di benchmark per confrontare i modelli.
Tuttavia, un problema principale con i benchmark è la contaminazione dei dati di addestramento. Molti benchmark contengono esempi che sono già stati visti dai modelli durante l’addestramento pregresso. Ciò consente ai modelli di “memorizzare” le risposte a domande specifiche e di eseguire meglio delle loro vere capacità.
Si tenta di “decontaminare” i benchmark rimuovendo esempi sovrapposti. Ma è difficile farlo in modo completo, specialmente quando i modelli possono aver visto versioni parafrasate o tradotte di domande.
Quindi, mentre i benchmark possono testare un’ampia gamma di abilità in modo efficiente, non possono misurare in modo affidabile le vere capacità di ragionamento o evitare l’inflazione dei punteggi a causa della contaminazione. Sono necessari metodi di valutazione complementari.
Autovalutazione dei LLM
Un approccio intrigante è far valutare un LLM da un altro LLM. L’idea è sfruttare il concetto di “compito più facile”:
- Produrre un output di alta qualità può essere difficile per un LLM.
- Ma determinare se un dato output è di alta qualità può essere un compito più facile.
Ad esempio, mentre un LLM potrebbe faticare a generare un paragrafo coerente e logico da zero, può più facilmente giudicare se un paragrafo dato ha senso logico e si adatta al contesto.
Quindi il processo è:
- Passa il prompt di input al primo LLM per generare l’output.
- Passa il prompt di input + output generato al secondo LLM “valutatore”.
- Chiedi al LLM valutatore una domanda per valutare la qualità dell’output. Ad esempio, “La risposta sopra ha senso logico?”
Questo approccio è veloce da implementare e automatizza la valutazione dei LLM. Ma ci sono alcune sfide:
- Le prestazioni dipendono fortemente dalla scelta del LLM valutatore e dalla formulazione del prompt.
- È limitato dalla difficoltà del compito originale. Valutare il ragionamento complesso è ancora difficile per i LLM.
- Può essere computazionalmente costoso se si utilizzano LLM basati su API.
L’autovalutazione è particolarmente promettente per valutare le informazioni recuperate nei sistemi di generazione aumentata (RAG). Ulteriori query dei LLM possono validare se il contesto recuperato viene utilizzato in modo appropriato.
Nel complesso, l’autovalutazione mostra potenziale ma richiede attenzione nell’implementazione. Complementa, piuttosto che sostituisce, la valutazione umana.
Valutazione Umana
Data la limitazione delle metriche automatiche e dei benchmark, la valutazione umana è ancora lo standard di riferimento per valutare rigorosamente la qualità dei LLM.
Gli esperti possono fornire valutazioni qualitative dettagliate su:
- Precisione e correttezza fattuale
- Logica, ragionamento e senso comune
- Coerenza, coesione e leggibilità
- Adeguatezza del tono, stile e voce
- Grammaticalità e fluidità
- Creatività e sottigliezza
Per valutare un modello, agli umani vengono forniti un set di prompt di input e le risposte generate dai LLM. Valutano la qualità delle risposte, spesso utilizzando scale di valutazione e rubriche.
Lo svantaggio è che la valutazione manuale umana è costosa, lenta e difficile da scalare. Richiede anche lo sviluppo di criteri standardizzati e la formazione di valutatori per applicarli in modo coerente.
Alcuni ricercatori hanno esplorato modi creativi per finanziare la valutazione umana dei LLM utilizzando sistemi di tipo torneo in cui le persone scommettono e giudicano le partite tra modelli. Ma la copertura è ancora limitata rispetto alle valutazioni manuali complete.
Per i casi d’uso aziendali in cui la qualità conta più della scala grezza, la valutazione umana da parte di esperti rimane lo standard di riferimento nonostante i costi. Ciò è particolarmente vero per le applicazioni più rischiose dei LLM.
Conclusione
Valutare i modelli linguistici di grande scala in modo approfondito richiede l’utilizzo di un insieme diversificato di metodi complementari, piuttosto che affidarsi a una singola tecnica.
Combinando approcci automatici per la velocità con una rigorosa supervisione umana per l’accuratezza, possiamo sviluppare metodologie di test affidabili per i modelli linguistici di grande scala. Con una valutazione robusta, possiamo sbloccare il potenziale enorme dei LLM gestendo responsabilmente i loro rischi.












