Leader di pensiero

Benchmark per LLM

Published August 28, 2024

Updated May 20, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Comprendere il ruolo e i limiti dei benchmark nella valutazione delle prestazioni degli LLM. Esplorare le tecniche per sviluppare LLM robusti.

I Large Language Model hanno guadagnato una grande popolarità negli ultimi anni. Io credo che li abbiate visti. La capacità eccezionale degli LLM di comprendere i comandi del linguaggio umano li ha resi l’integrazione perfetta per le aziende, supportando flussi di lavoro critici e automatizzando attività per massimizzare l’efficienza. Inoltre, oltre alla comprensione media dell’utente, c’è molto di più che gli LLM possono fare. E poiché la nostra dipendenza da loro cresce, dobbiamo prestare molta più attenzione alle misure per garantire l’accuratezza e l’affidabilità necessarie. Questo è un compito globale che riguarda intere istituzioni, ma nel settore aziendale ci sono ora diversi benchmark che possono essere utilizzati per valutare le prestazioni degli LLM in vari domini. Questi possono testare le capacità del modello in comprensione, logica, matematica e così via, e i risultati determinano se un LLM è pronto per il deploy aziendale.

In questo articolo, ho raccolto un elenco completo dei benchmark più popolari per la valutazione degli LLM. Discuteremo ogni benchmark in dettaglio e vedremo come diversi LLM si comportano rispetto ai criteri di valutazione. Ma prima, analizziamo la valutazione degli LLM in maggior dettaglio.

Cos’è la valutazione degli LLM?

Come altri modelli di intelligenza artificiale, anche gli LLM devono essere valutati rispetto a benchmark specifici che valutano vari aspetti delle prestazioni del modello linguistico: conoscenza, accuratezza, affidabilità e coerenza. Lo standard tipico prevede:

Comprensione delle query degli utenti: Valutare la capacità del modello di comprendere e interpretare una vasta gamma di input degli utenti.
Verifica dell’output: Verificare le risposte generate dal modello rispetto a una base di conoscenza affidabile per assicurarsi che siano corrette e rilevanti.
Robustezza: Misurare quanto bene il modello si comporta con input ambigui, incompleti o rumorosi.

La valutazione degli LLM dà ai sviluppatori il potere di identificare e affrontare le limitazioni in modo efficiente, in modo che possano migliorare l’esperienza dell’utente complessiva. Se un LLM è valutato a fondo, sarà abbastanza preciso e robusto per gestire diverse applicazioni del mondo reale, anche quelle con input ambigui o inaspettati.

Benchmark

Gli LLM sono una delle tecnologie più complesse attuali e possono alimentare anche le applicazioni più complesse. Quindi, il processo di valutazione deve essere altrettanto complesso, mettendo alla prova il processo di pensiero e l’accuratezza tecnica.

Un benchmark utilizza set di dati specifici, metriche e compiti di valutazione per testare le prestazioni degli LLM, consentendo di confrontare diversi LLM e misurare la loro accuratezza, il che a sua volta guida i progressi nel settore attraverso prestazioni migliorate.

Ecco alcuni degli aspetti più comuni delle prestazioni degli LLM:

Conoscenza: La conoscenza del modello deve essere testata in vari domini. È qui che entra in gioco il benchmark della conoscenza. Valuta quanto efficacemente il modello possa richiamare informazioni da diversi campi, come Fisica, Programmazione, Geografia, ecc.
Ragionamento logico: Significa testare la capacità del modello di “pensare” passo dopo passo e derivare una conclusione logica, che di solito coinvolge scenari in cui il modello deve selezionare la continuazione più plausibile o la spiegazione in base alla conoscenza quotidiana e al ragionamento logico.
Comprensione della lettura: I modelli devono essere eccellenti nell’interpretazione del linguaggio naturale e generare risposte di conseguenza. Il test assomiglia a rispondere a domande basate su passaggi per valutare la comprensione, l’inferenza e la memorizzazione dei dettagli. Come un test di lettura scolastico.
Comprensione del codice: È necessario misurare la competenza del modello nel comprendere, scrivere e debuggere il codice. Questi benchmark forniscono al modello compiti di programmazione o problemi che il modello deve risolvere con accuratezza, spesso coprendo una gamma di linguaggi di programmazione e paradigmi.
Conoscenza del mondo: Per valutare la presa del modello sulla conoscenza generale del mondo. Questi set di dati di solito hanno domande che richiedono una conoscenza enciclopedica ampia per essere risposte correttamente, il che li rende diversi dai benchmark di conoscenza più specifici e specializzati.

Benchmark della conoscenza

MMLU (Multimodal Language Understanding)

Questo benchmark è stato creato per testare la presa degli LLM sulla conoscenza fattuale in vari argomenti, come scienze umane, scienze sociali, storia, informatica e anche legge. 57 domande e 15.000 compiti, tutti diretti a garantire che il modello abbia ottime capacità di ragionamento. Ciò rende MMLU uno strumento valido per valutare la conoscenza fattuale e il ragionamento del modello su vari argomenti.

Recentemente è diventato un benchmark chiave per valutare gli LLM per le aree sopra menzionate. Gli sviluppatori vogliono sempre ottimizzare i loro modelli per superare gli altri in questo benchmark, il che lo rende uno standard de facto per valutare il ragionamento avanzato e la conoscenza negli LLM. I modelli aziendali di grandi dimensioni hanno mostrato punteggi impressionanti in questo benchmark, tra cui GPT-4-omni al 88,7%, Claude 3 Opus all’86,8%, Gemini 1.5 Pro all’85,9% e Llama-3 70B all’82%. I modelli più piccoli di solito non si comportano altrettanto bene in questo benchmark, di solito non superando il 60-65%, ma le recenti prestazioni di Phi-3-Small-7b all’75,3% sono degne di nota.

Tuttavia, MMLU non è senza contro: presenta problemi noti come domande ambigue, risposte errate e contesto mancante. Inoltre, molti ritengono che alcuni dei suoi compiti siano troppo facili per una valutazione adeguata degli LLM.

Vorrei sottolineare che i benchmark come MMLU non rappresentano perfettamente gli scenari del mondo reale. Se un LLM ottiene un punteggio elevato in questo, non significa necessariamente che sia diventato un esperto in materia. I benchmark sono limitati nella loro portata e spesso si basano su domande a risposta multipla, che non possono catturare appieno la complessità e il contesto delle interazioni del mondo reale. La vera comprensione richiede la conoscenza dei fatti e l’applicazione di tale conoscenza in modo dinamico, il che coinvolge il pensiero critico, la risoluzione dei problemi e la comprensione del contesto. Per questi motivi, gli LLM devono essere costantemente raffinati e aggiornati in modo che il modello mantenga la rilevanza e l’efficacia del benchmark.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Questo benchmark valuta gli LLM sul ragionamento logico utilizzando un dataset con solo 448 domande. È stato sviluppato da esperti di domini e copre argomenti in biologia, fisica e chimica.

Ogni domanda passa attraverso il seguente processo di convalida:

Un esperto nello stesso argomento risponde alla domanda e fornisce un feedback dettagliato.
L’autore della domanda rivisita la domanda in base a questo feedback.
Un secondo esperto risponde alla domanda rivista.

Questo processo può effettivamente garantire che le domande siano oggettive, accurate e impegnative per un modello linguistico. Anche studiosi di dottorato esperti raggiungono solo un’accuratezza del 65% su queste domande, mentre GPT-4-omni raggiunge solo il 53,6%, evidenziando il divario tra l’intelligenza umana e quella artificiale.

A causa dei requisiti di qualificazione elevati, il set di dati è in realtà abbastanza piccolo, il che limita leggermente la sua potenza statistica per il confronto dell’accuratezza e richiede effetti di grandi dimensioni. Gli esperti che hanno creato e validato queste domande provenivano da Upwork, quindi potrebbero aver introdotto pregiudizi basati sulla loro esperienza e sugli argomenti trattati.

Benchmark del codice

HumanEval

164 problemi di programmazione, una vera prova per le capacità di codifica degli LLM. È HumanEval. È progettato per testare le capacità di codifica di base dei grandi modelli linguistici. Utilizza la metrica pass@k per giudicare l’accuratezza funzionale del codice generato, che produce la probabilità che almeno uno dei primi k campioni di codice generato dagli LLM superi i test dei casi.

Mentre il set di dati HumanEval include firme di funzioni, docstring, corpi di codice e diversi test unitari, non include l’intera gamma di problemi di programmazione del mondo reale, che non testerà adeguatamente la capacità del modello di generare codice corretto per scenari diversi.

MBPP (Mostly Basic Python Programming)

Mbpp è un benchmark composto da 1.000 domande di programmazione Python crowdsourced. Questi sono problemi di livello base e si concentrano sulle competenze di programmazione fondamentali. Utilizza approcci di few-shot e fine-tuning per valutare le prestazioni del modello, con modelli più grandi che di solito si comportano meglio su questo set di dati. Tuttavia, poiché il set di dati contiene principalmente programmi di livello base, non rappresenta appieno le complessità e le sfide delle applicazioni del mondo reale.

Benchmark matematici

Mentre la maggior parte degli LLM è abbastanza brava a strutturare risposte standard, il ragionamento matematico è un problema molto più grande per loro. Perché? Perché richiede competenze relative alla comprensione delle domande, a un approccio logico passo dopo passo con ragionamento matematico e alla derivazione della risposta corretta.

Il metodo “Chain of Thought” (CoT) è stato creato per valutare gli LLM sui benchmark relativi alla matematica, coinvolgendo la richiesta ai modelli di spiegare il loro processo di ragionamento passo dopo passo durante la risoluzione di un problema. Ci sono diversi vantaggi in questo. Rende il processo di ragionamento più trasparente, aiuta a identificare i difetti nella logica del modello e consente una valutazione più granulare delle competenze di risoluzione dei problemi. Scomponendo problemi complessi in una serie di passaggi più semplici, CoT può migliorare le prestazioni del modello sui benchmark matematici e fornire approfondimenti più profondi sulle sue capacità di ragionamento.

GSM8K: Un benchmark matematico popolare

Uno dei benchmark noti per valutare le capacità matematiche degli LLM è il set di dati GSM8K. GSM8K consiste in 8.500 problemi di matematica di livello medio-scolastico, che richiedono diversi passaggi per essere risolti, e le soluzioni implicano principalmente l’esecuzione di una sequenza di calcoli elementari. Di solito, modelli più grandi o quelli specificamente addestrati per il ragionamento matematico tendono a comportarsi meglio su questo benchmark, ad esempio i modelli GPT-4 vantano un punteggio del 96,5%, mentre DeepSeekMATH-RL-7B è leggermente indietro all’88,2%.

Mentre GSM8K è utile per valutare la capacità del modello di gestire problemi di matematica di livello scolastico, potrebbe non catturare appieno la capacità del modello di risolvere sfide matematiche più avanzate o diverse, limitando così la sua efficacia come misura complessiva delle capacità matematiche.

Il set di dati matematici: un’alternativa completa

Il set di dati matematici ha affrontato le carenze dei benchmark come GSM8K. Questo set di dati è più esteso, coprendo l’aritmetica elementare fino alla matematica di livello universitario. È anche confrontato con gli esseri umani, con uno studente di dottorato in informatica che non ama la matematica che raggiunge un’accuratezza del 40% e un medaglia d’oro che raggiunge un’accuratezza del 90%.

Fornisce una valutazione più completa delle capacità matematiche degli LLM. Garantisce che il modello sia competente nell’aritmetica di base e competente in aree complesse come algebra, geometria e calcolo. Tuttavia, la maggiore complessità e diversità dei problemi possono rendere difficile per i modelli raggiungere un’alta accuratezza, specialmente quelli non addestrati esplicitamente su una vasta gamma di concetti matematici. Inoltre, i formati di problemi diversi nel set di dati matematici possono introdurre incongruenze nelle prestazioni del modello, rendendo più difficile trarre conclusioni definitive sulla sua profonda competenza matematica.

Utilizzare il metodo Chain of Thought con il set di dati matematici può migliorare la valutazione, poiché rivela le capacità di ragionamento passo dopo passo degli LLM su una vasta gamma di sfide matematiche. Un approccio combinato come questo garantisce una valutazione più robusta e dettagliata delle vere capacità matematiche degli LLM.

Benchmark di comprensione della lettura

Una valutazione della comprensione della lettura valuta la capacità del modello di comprendere e elaborare testi complessi, fondamentale per applicazioni come il supporto clienti, la generazione di contenuti e il recupero delle informazioni. Ci sono diversi benchmark progettati per valutare questa competenza, ognuno con attributi unici che contribuiscono a una valutazione completa delle capacità del modello.

RACE (Reading Comprehension dataset from Examinations)

I benchmark RACE hanno quasi 28.000 passaggi e 100.000 domande raccolte dagli esami in inglese per studenti cinesi di età compresa tra 12 e 18 anni. Non limita le domande e le risposte a essere estratte solo dai passaggi dati, rendendo i compiti ancora più impegnativi.

Copre una vasta gamma di argomenti e tipi di domande, il che consente una valutazione approfondita e include domande a diversi livelli di difficoltà. Inoltre, le domande in RACE sono progettate specificamente per testare le competenze di lettura umane e sono create da esperti di domini.

Tuttavia, il benchmark ha alcuni svantaggi. Poiché è stato sviluppato su materiali educativi cinesi, è incline a introdurre pregiudizi culturali che non riflettono un contesto globale. Inoltre, il livello di difficoltà elevato in alcune domande non è rappresentativo dei compiti del mondo reale. Quindi, le valutazioni delle prestazioni potrebbero non essere molto accurate.

DROP (Discrete Reasoning Over Paragraphs)

Un altro approccio significativo è DROP (Discrete Reasoning Over Paragraphs), che sfida i modelli a eseguire ragionamento discreto su paragrafi. Ha 96.000 domande per testare le capacità di ragionamento degli LLM e le domande sono estratte da Wikipedia e crowdsourced da Amazon Mechanical Turk. Le domande DROP spesso richiedono ai modelli di eseguire operazioni matematiche come addizione, sottrazione e confronto in base alle informazioni sparse nel passaggio.

Le domande sono impegnative. Richiedono agli LLM di localizzare più numeri nel passaggio e aggiungerli o sottrarli per ottenere la risposta finale. I grandi modelli come GPT-4 e Palm raggiungono l’80% e l’85%, mentre gli esseri umani raggiungono il 96% nel set di dati DROP.

Benchmark del senso comune

Testare il senso comune nei modelli linguistici è interessante ma anche fondamentale, poiché valuta la capacità del modello di fare giudizi e inferenze che si allineano con il ragionamento umano. A differenza nostra, che sviluppiamo un modello del mondo complessivo attraverso esperienze pratiche, i modelli linguistici sono addestrati su grandi set di dati senza una comprensione intrinseca del contesto. Ciò significa che i modelli lottano con compiti che richiedono una comprensione intuitiva di situazioni quotidiane, ragionamento logico e conoscenza pratica, che sono molto importanti per applicazioni di intelligenza artificiale robuste e affidabili.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag è stato sviluppato da Rowan Zellers e colleghi all’Università di Washington e all’Istituto di intelligenza artificiale Allen. È progettato per testare la capacità del modello di prevedere la continuazione più plausibile di uno scenario dato. Questo benchmark è costruito utilizzando la filtrazione avversariale (AF), dove una serie di discriminatori seleziona iterativamente risposte avversarie generate dal computer. Questo metodo crea un set di dati con esempi banali per gli esseri umani ma impegnativi per i modelli, risultando in una “zona d’oro” di difficoltà.

Mentre Hellaswag ha messo alla prova i modelli precedenti, i modelli all’avanguardia come GPT-4 hanno raggiunto livelli di prestazione vicini all’accuratezza umana, indicando un notevole progresso nel settore. Tuttavia, questi risultati suggeriscono la necessità di benchmark in continua evoluzione per stare al passo con gli avanzamenti nelle capacità di intelligenza artificiale.

Openbook

Il set di dati Openbook consiste in 5.957 domande a scelta multipla di livello elementare di scienze. Le domande sono raccolte da esami con libro aperto e sviluppate per valutare la comprensione umana della materia.

Il benchmark Openbook richiede una capacità di ragionamento che va oltre il recupero delle informazioni. GPT-4 raggiunge l’accuratezza più alta del 95,9% al momento.

OpenbookQA è modellato sugli esami con libro aperto e consiste in 5.957 domande a scelta multipla di scienze di livello elementare. Queste domande sono progettate per testare la comprensione di 1.326 fatti scientifici di base e la loro applicazione a situazioni nuove.

Allo stesso modo di Hellaswag, i modelli precedenti hanno trovato OpenbookQA impegnativo, ma i modelli moderni come GPT-4 hanno raggiunto livelli di prestazione vicini a quelli umani. Questo progresso sottolinea l’importanza di sviluppare benchmark ancora più complessi e sfumati per continuare a spingere i confini della comprensione dell’intelligenza artificiale.

Sono sufficienti i benchmark per la valutazione delle prestazioni degli LLM?

Sì, mentre forniscono un approccio standardizzato per valutare le prestazioni degli LLM, possono anche essere fuorvianti. L’organizzazione dei sistemi di modelli di grandi dimensioni afferma che un buon benchmark per LLM dovrebbe essere scalabile, in grado di valutare nuovi modelli con un numero relativamente piccolo di prove, e fornire un ordine di classificazione unico per tutti i modelli. Tuttavia, ci sono motivi per cui potrebbero non essere sufficienti. Ecco alcuni:

Perdita di benchmark

Questo è un incontro comune e si verifica quando i dati di addestramento si sovrappongono con i dati di test, portando a una valutazione fuorviante. Se un modello ha già incontrato alcune domande di test durante l’addestramento, il suo risultato potrebbe non riflettere accuratamente le sue vere capacità. Ma un benchmark ideale dovrebbe minimizzare la memorizzazione e riflettere gli scenari del mondo reale.

Bias di valutazione

Le classifiche dei benchmark degli LLM sono utilizzate per confrontare le prestazioni degli LLM in vari compiti. Tuttavia, fare affidamento a queste classifiche per il confronto dei modelli può essere fuorviante. Cambiamenti semplici nei test dei benchmark, come alterare l’ordine delle domande, possono spostare la classificazione dei modelli di fino a otto posizioni. Inoltre, gli LLM possono comportarsi diversamente a seconda dei metodi di punteggio, sottolineando l’importanza di considerare i pregiudizi di valutazione.

Apertura

L’interazione degli LLM nel mondo reale coinvolge la progettazione di prompt per generare output di intelligenza artificiale desiderati. Gli output degli LLM dipendono dall’efficacia dei prompt e i benchmark sono progettati per testare la consapevolezza del contesto degli LLM. Tuttavia, i benchmark non si traducono sempre direttamente in prestazioni del mondo reale. Ad esempio, un modello che raggiunge un punteggio del 100% su un set di dati di benchmark, come il test LSAT, non garantisce lo stesso livello di accuratezza in applicazioni pratiche. Ciò sottolinea l’importanza di considerare la natura aperta delle attività del mondo reale nella valutazione degli LLM.

Valutazione efficace per LLM robusti

Quindi, adesso sai che i benchmark non sono sempre la scelta migliore perché non possono generalizzare su tutti i problemi. Ma ci sono altri modi.

Benchmark personalizzati

Questi sono perfetti per testare comportamenti e funzionalità specifiche in scenari specifici delle attività. Ad esempio, se un LLM è progettato per gli ufficiali medici, i set di dati raccolti da ambienti medici rappresenteranno efficacemente gli scenari del mondo reale. Questi benchmark personalizzati possono concentrarsi sulla comprensione del linguaggio specifico del dominio, sulle prestazioni e sui requisiti contestuali unici. Allineando i benchmark con gli scenari del mondo reale possibili, puoi assicurarti che l’LLM si comporti bene in generale ed eccella nelle attività specifiche per cui è destinato. Ciò può aiutare a identificare e affrontare eventuali lacune o debolezze nelle capacità del modello in anticipo.

Pipeline di rilevamento della perdita di dati

Se desideri che le tue valutazioni “mostrino” integrità, avere una pipeline di benchmark senza perdita di dati è molto importante. La perdita di dati si verifica quando i dati del benchmark sono inclusi nel corpus di pre-addestramento del modello, portando a punteggi di prestazione artificialmente alti. Per evitare ciò, i benchmark dovrebbero essere verificati incrociati con i dati di pre-addestramento. Inoltre, passaggi per evitare informazioni viste in precedenza. Ciò può coinvolgere l’uso di set di dati proprietari o appena curati che vengono mantenuti separati dal pipeline di addestramento del modello – ciò assicurerà che le metriche di prestazione che ottieni riflettano la capacità del modello di generalizzare bene.

Valutazione umana

Le metriche automatiche da sole non possono catturare l’intero spettro delle prestazioni del modello, specialmente quando si tratta di aspetti sfumati e soggettivi della comprensione e generazione del linguaggio. Qui, la valutazione umana fornisce una valutazione molto migliore:

Assunzione di professionisti che possono fornire valutazioni dettagliate e affidabili, specialmente per domini specializzati.
Crowdsourcing! Piattaforme come Amazon Mechanical Turk consentono di raccogliere giudizi umani diversificati rapidamente e a basso costo.
Feedback della comunità: Utilizzare piattaforme come l’arena di valutazione LMSYS, dove gli utenti possono votare e confrontare modelli, aggiunge un ulteriore livello di insight. L’arena di chatbot LMSYS Hard, ad esempio, è particolarmente efficace nel mettere in evidenza le sottili differenze tra i migliori modelli attraverso interazioni dirette degli utenti e voti.

Conclusione

Senza valutazione e benchmarking, non avremmo modo di sapere se la capacità degli LLM di gestire attività del mondo reale è così precisa e applicabile come pensiamo. Ma, come ho detto, i benchmark non sono un modo infallibile per verificare ciò, possono portare a lacune nelle prestazioni degli LLM. Ciò può anche rallentare lo sviluppo di LLM che sono veramente robusti per il lavoro.

Ecco come dovrebbe essere in un mondo ideale. Gli LLM comprendono le query degli utenti, identificano gli errori nei prompt, completano le attività come istruito e generano output affidabili. I risultati sono già grandi ma non ideali. È qui che i benchmark specifici delle attività sono molto utili, proprio come la valutazione umana e il rilevamento della perdita di benchmark. Utilizzandoli, abbiamo la possibilità di produrre LLM veramente robusti.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, è una rinomata scienziata dei dati con oltre un decennio di esperienza, che comprende sia l'analisi dei prodotti che l'analisi per tecnologie all'avanguardia. Ha guidato la creazione e l'analisi per Yasmina, il primo assistente vocale basato su intelligenza artificiale completamente funzionale e localizzato per l'Arabia Saudita, gestendo la complessa localizzazione dei dati e l'etichettatura per l'arabo moderno standard e i dialetti sauditi. Attualmente, Irina dirige l'analisi della qualità presso Yandex, guidando i progressi nelle tecnologie di intelligenza artificiale.