Seguici sui social

Leader del pensiero

Benchmark per i LLM

mm

Comprendere il ruolo e i limiti dei benchmark nella valutazione delle prestazioni LLM. Esplorare le tecniche per sviluppare LLM robusti.

I modelli linguistici di grandi dimensioni hanno guadagnato enorme popolarità negli ultimi anni. Voglio dire, l'avete visto. L'eccezionale capacità degli LLM di comprendere i comandi del linguaggio umano li ha resi l'integrazione assolutamente perfetta per le aziende, supportando flussi di lavoro critici e automatizzando le attività con la massima efficienza. Inoltre, oltre alla comprensione dell'utente medio, gli LLM possono fare molto di più. E con la crescente dipendenza da loro, dobbiamo davvero prestare maggiore attenzione alle misure per garantire l'accuratezza e l'affidabilità necessarie. Si tratta di un compito globale che riguarda intere istituzioni, ma nel mondo aziendale ora esistono diversi benchmark che possono essere utilizzati per valutare le prestazioni degli LLM in vari ambiti. Questi possono testare le capacità del modello in termini di comprensione, costruzione logica, matematica e così via, e i risultati determinano se un LLM è pronto per l'implementazione aziendale.

In questo articolo, ho raccolto un elenco completo dei benchmark più popolari per la valutazione LLM. Discuteremo ciascun benchmark in dettaglio e vedremo come si comportano i diversi LLM rispetto ai criteri di valutazione. Ma prima, comprendiamo la valutazione LLM in modo più dettagliato.

Cos'è la valutazione LLM?

Come altri modelli di intelligenza artificiale, anche gli LLM devono essere valutati in base a parametri di riferimento specifici che valutano vari aspetti delle prestazioni del modello linguistico: conoscenza, accuratezza, affidabilità e coerenza. Lo standard in genere prevede:

  1. Comprendere le query degli utenti: Valutare la capacità del modello di comprendere e interpretare accuratamente un'ampia gamma di input dell'utente.
  2. Verifica dell'output: Verificare le risposte generate dall'intelligenza artificiale rispetto a una base di conoscenza attendibile per garantire che siano corrette e pertinenti.
  3. Robustezza: Misurare il rendimento del modello con input ambigui, incompleti o rumorosi.

La valutazione LLM offre agli sviluppatori il potere di identificare e affrontare le limitazioni in modo efficiente, in modo che possano migliorare l'esperienza utente complessiva. Se un LLM viene valutato attentamente, sarà sufficientemente accurato e robusto da gestire diverse applicazioni del mondo reale, comprese quelle con input ambigui o inaspettati.

Parametri di riferimento

Gli LLM sono uno degli strumenti tecnologici più complicati fino ad oggi e possono alimentare anche le applicazioni più complicate. Quindi il processo di valutazione deve essere altrettanto complesso, mettendo alla prova il processo di pensiero e l’accuratezza tecnica.

Un benchmark utilizza set di dati, metriche e attività di valutazione specifici per testare le prestazioni LLM e consente di confrontare diversi LLM e misurarne l'accuratezza, il che a sua volta guida il progresso nel settore migliorando le prestazioni.

Ecco alcuni degli aspetti più tipici delle prestazioni LLM:

  • Articoli tecnici: La conoscenza del modello deve essere testata in diversi ambiti. È a questo che serve il benchmark della conoscenza. Valuta l'efficacia con cui il modello riesce a richiamare informazioni da diversi campi, come fisica, programmazione, geografia, ecc.
  • logico Ragionamento: Significa testare la capacità di un modello di "pensare" passo dopo passo e di trarre una conclusione logica; in genere comportano scenari in cui il modello deve selezionare la continuazione o la spiegazione più plausibile sulla base della conoscenza quotidiana e del ragionamento logico.
  • Comprensione della lettura: I modelli devono essere eccellenti nell'interpretazione del linguaggio naturale e quindi generare risposte di conseguenza. Il test consiste nel rispondere a domande basate su passaggi per valutare la comprensione, l'inferenza e la memorizzazione dei dettagli. Come un test di lettura a scuola.
  • Comprensione del codice: Ciò è necessario per misurare la competenza di un modello nella comprensione, scrittura ed debug del codice. Questi benchmark assegnano al modello compiti o problemi di codifica che il modello deve risolvere in modo accurato, spesso coprendo una gamma di linguaggi e paradigmi di programmazione.
  • Conoscenza del mondo: Per valutare la comprensione da parte del modello della conoscenza generale del mondo. Questi set di dati in genere presentano domande che richiedono una conoscenza ampia ed enciclopedica per essere risolte correttamente, il che li rende diversi dai benchmark di conoscenza più specifici e specializzati.

Benchmark della “conoscenza”.

MMLU (Comprensione del linguaggio multimodale)

Questo punto di riferimento è stato creato per testare la conoscenza fattuale del LLM in vari argomenti come discipline umanistiche, scienze sociali, storia, informatica e persino diritto. 57 domande e 15 compiti, tutti volti a garantire che il modello abbia grandi capacità di ragionamento. Ciò rende MMLU un buon strumento per valutare la conoscenza fattuale e il ragionamento di un LLM che tratta vari argomenti.

Recentemente è diventato un punto di riferimento chiave per la valutazione degli LLM per le aree sopra menzionate. Gli sviluppatori desiderano sempre ottimizzare i propri modelli per sovraperformare gli altri in questo benchmark, il che lo rende uno standard di fatto per valutare il ragionamento e la conoscenza avanzati nei LLM. Lo hanno dimostrato i grandi modelli di livello aziendale punteggi impressionanti su questo benchmark, incluso GPT-4-omni all'88.7%, Claude 3 Opus all'86.8%, Gemini 1.5 Pro all'85.9% e Llama-3 70B all'82%. I modelli piccoli in genere non funzionano altrettanto bene su questo benchmark, di solito non superano il 60-65%, ma la recente performance di Phi-3-Small-7b al 75.3% è qualcosa a cui pensare.

Tuttavia, MMLU non è privo di svantaggi: ha problemi noti come domande ambigue, risposte errate, e contesto mancante. E molti pensano che alcuni dei suoi compiti siano troppo facili per una corretta valutazione LLM.

Vorrei chiarire che parametri di riferimento come MMLU non rappresentano perfettamente scenari reali. Se un LLM ottiene un punteggio elevato in questo ambito, non significa necessariamente che sia diventato un esperto della materia. I parametri di riferimento hanno una portata piuttosto limitata e spesso si basano su domande a risposta multipla, che non riescono mai a cogliere appieno la complessità e il contesto delle interazioni nel mondo reale. Una vera comprensione richiede la conoscenza dei fatti e l'applicazione dinamica di tali conoscenze, e questo implica pensiero critico, capacità di problem solving e comprensione del contesto. Per questi motivi, gli LLM devono essere costantemente perfezionati e aggiornati affinché il modello mantenga la pertinenza e l'efficacia del parametro di riferimento.

GPQA (benchmark di domande e risposte a prova di Google a livello universitario)

Questo benchmark valuta gli LLM sul ragionamento logico utilizzando a dataset con solo 448 domande. È stato sviluppato da esperti del settore e copre argomenti di biologia, fisica e chimica.

Ogni domanda passa attraverso il seguente processo di convalida:

  1. Un esperto sullo stesso argomento risponde alla domanda e fornisce un feedback dettagliato.
  2. L'autore della domanda la rivede sulla base di questo feedback.
  3. Un secondo esperto risponde alla domanda rivista.

Questo processo può effettivamente garantire che le domande siano obiettive, accurate e stimolanti per un modello linguistico. Anche gli studiosi di dottorato esperti raggiungono solo una precisione del 65% su queste domande, mentre GPT-4-omni raggiunge solo il 53.6%, evidenziando il divario tra l’intelligenza umana e quella artificiale.

A causa degli elevati requisiti di qualificazione, il set di dati è in realtà piuttosto piccolo, il che limita in qualche modo la sua potenza statistica per confrontare l’accuratezza e richiede grandi dimensioni degli effetti. Gli esperti che hanno creato e convalidato queste domande provenivano da Upwork, quindi hanno potenzialmente introdotto pregiudizi in base alla loro esperienza e agli argomenti trattati.

Benchmark del codice

Valutazione umana

164 problemi di programmazione, un vero test per le capacità di codifica degli LLM. È Valutazione umana. È progettato per testare le capacità di codifica di base dei modelli linguistici di grandi dimensioni (LLM). Utilizza la metrica pass@k per giudicare l'accuratezza funzionale del codice che viene generato, che restituisce la probabilità che almeno uno dei primi k campioni di codice generati da LLM superi i casi di test.

Sebbene il set di dati HumanEval includa firme di funzioni, docstring, corpi di codice e diversi test unitari, non include l'intera gamma di problemi di codifica del mondo reale, che semplicemente non testeranno adeguatamente la capacità di un modello di creare codice corretto per diversi scenari.

MBPP (principalmente programmazione Python di base)

Mbpp Il benchmark è costituito da 1,000 domande di programmazione Python provenienti dal crowdsourcing. Questi sono problemi entry-level e si concentrano sulle competenze di programmazione fondamentali. Utilizza approcci di pochi scatti e di messa a punto per valutare le prestazioni del modello, con i modelli più grandi che in genere hanno prestazioni migliori su questo set di dati. Tuttavia, poiché il set di dati contiene principalmente programmi entry-level, non rappresenta ancora pienamente le complessità e le sfide delle applicazioni del mondo reale.

Benchmark matematici

Sebbene la maggior parte degli LLM siano piuttosto bravi nello strutturare risposte standard, il ragionamento matematico è per loro un problema molto più grande. Perché? Perché richiede competenze relative alla comprensione delle domande, un approccio logico passo passo con il ragionamento matematico e la derivazione della risposta corretta.

Il metodo "Chain of Thought" (CoT) è stato ideato per valutare gli LLM su benchmark matematici e consiste nel sollecitare i modelli a spiegare il loro processo di ragionamento passo dopo passo nella risoluzione di un problema. Questo metodo offre diversi vantaggi. Rende il processo di ragionamento più trasparente, aiuta a identificare difetti nella logica del modello e consente una valutazione più granulare delle capacità di problem-solving. Scomponendo problemi complessi in una serie di passaggi più semplici, CoT può migliorare le prestazioni del modello sui benchmark matematici e fornire approfondimenti sulle sue capacità di ragionamento.

GSM8K: un popolare benchmark matematico

Uno dei benchmark più noti per la valutazione delle abilità matematiche negli LLM è il set di dati GSM8K. GSM8K consiste in 8.5k problemi di matematica di scuola media, che richiedono pochi passaggi per essere risolti, e le soluzioni prevedono principalmente l'esecuzione di una sequenza di calcoli elementari. In genere, i modelli più grandi o quelli specificatamente addestrati per il ragionamento matematico tendono a ottenere risultati migliori su questo benchmark, ad esempio i modelli GPT-4 vantano un punteggio del 96.5%, mentre DeepSeekMATH-RL-7B resta leggermente indietro con l'88.2%.

Sebbene GSM8K sia utile per valutare la capacità di un modello di gestire problemi matematici di livello scolastico, potrebbe non cogliere appieno la capacità di un modello di risolvere sfide matematiche più avanzate o diverse, limitandone così l'efficacia come misura completa delle capacità matematiche.

Il set di dati matematici: un'alternativa completa

Il set di dati matematici ha affrontato le carenze di benchmark come GSM8K. Questo set di dati è più ampio e copre i problemi di aritmetica elementare fino alle scuole superiori e persino a livello universitario. Viene anche confrontato con gli esseri umani, con uno studente di dottorato in informatica a cui non piace la matematica che raggiunge una precisione del 40% e un medaglia d'oro che raggiunge una precisione del 90%

Fornisce una valutazione più completa delle capacità matematiche di un LLM. Si occupa di dimostrare che il modello è competente nell'aritmetica di base e in aree complesse come algebra, geometria e calcolo. Tuttavia, la maggiore complessità e diversità dei problemi può rendere difficile per i modelli raggiungere un'elevata accuratezza, soprattutto per quelli non esplicitamente addestrati su un'ampia gamma di concetti matematici. Inoltre, i diversi formati dei problemi nel dataset Math possono introdurre incongruenze nelle prestazioni del modello, il che rende molto più difficile trarre conclusioni definitive sulla competenza matematica complessiva di un modello.

L'utilizzo del metodo Chain of Thought con il dataset Math può migliorare la valutazione perché rivela le capacità di ragionamento graduale degli LLM in un ampio spettro di sfide matematiche. Un approccio combinato come questo garantisce una valutazione più solida e dettagliata delle reali capacità matematiche di un LLM.

Benchmark sulla comprensione della lettura

Una valutazione della comprensione del testo valuta la capacità del modello di comprendere ed elaborare testi complessi, aspetto fondamentale soprattutto per applicazioni come l'assistenza clienti, la generazione di contenuti e il recupero di informazioni. Esistono diversi parametri di riferimento progettati per valutare questa competenza, ognuno con caratteristiche uniche che contribuiscono a una valutazione completa delle capacità di un modello.

RACE (set di dati sulla comprensione della lettura da esami)

I parametri di riferimento RACE hanno quasi 28,000 passaggi e 100,000 domande raccolte dagli esami di inglese per studenti cinesi delle scuole medie e superiori di età compresa tra 12 e 18 anni. Non limita le domande e le risposte da estrarre dai passaggi indicati, rendendo i compiti uniformi tanto più impegnativo.

Copre un'ampia gamma di argomenti e tipi di domande, il che rende la valutazione completa e include domande a diversi livelli di difficoltà. Inoltre, le domande in RACE sono specificamente progettate per testare le capacità di lettura umana e sono create da esperti del settore.

Tuttavia, il benchmark presenta alcuni inconvenienti. Poiché è sviluppato su materiali didattici cinesi, è incline a introdurre pregiudizi culturali che non riflettono un contesto globale. Inoltre, l’elevato livello di difficoltà di alcune domande non è effettivamente rappresentativo delle tipiche attività del mondo reale. Pertanto le valutazioni delle prestazioni possono non essere così accurate.

DROP (ragionamento discreto sui paragrafi)

Un altro approccio significativo è DROP (Discrete Reasoning Over Paragraphs), che sfida i modelli a eseguire ragionamenti discreti sui paragrafi. Dispone di 96,000 domande per testare le capacità di ragionamento degli LLM e le domande vengono estratte da Wikipedia e raccolte in crowdsourcing da Amazon Mechanical Turk. Le domande DROP spesso chiamano modelli per eseguire operazioni matematiche come addizioni, sottrazioni e confronti basati su informazioni sparse in un passaggio.

Le domande sono impegnative. Richiedono ai LLM di individuare più numeri nel passaggio e di aggiungerli o sottrarli per ottenere la risposta finale. Grandi modelli come GPT-4 e Palm raggiungono l’80% e l’85%, mentre gli esseri umani raggiungono il 96% sul set di dati DROP.

Benchmark del buon senso

Testare il buon senso nei modelli linguistici è un'attività interessante, ma anche fondamentale, perché valuta la capacità di un modello di formulare giudizi e inferenze in linea con il nostro ragionamento umano. A differenza di noi, che sviluppiamo un modello del mondo completo attraverso esperienze pratiche, i modelli linguistici vengono addestrati su enormi set di dati senza comprenderne effettivamente il contesto. Ciò significa che i modelli hanno difficoltà a svolgere compiti che richiedono una comprensione intuitiva delle situazioni quotidiane, ragionamento logico e conoscenze pratiche, fattori molto importanti per applicazioni di intelligenza artificiale robuste e affidabili.

HellaSwag (finali più difficili, contesti più lunghi e attività low-shot per situazioni con generazioni avversarie)

Hellaswag è stato sviluppato da Rowan Zellers e colleghi dell'Università di Washington e dell'Allen Institute for Artificial Intelligence. È progettato per testare la capacità di un modello di prevedere la continuazione più plausibile di un dato scenario. Questo benchmark è costruito utilizzando l'Adversarial Filtering (AF), in cui una serie di discriminatori seleziona iterativamente le risposte errate generate dalle macchine avversarie. Questo metodo crea un set di dati con esempi banali per gli esseri umani ma impegnativi per i modelli, determinando una zona di difficoltà "Goldilocks".

Mentre Hellaswag ha rappresentato una sfida per i modelli precedenti, i modelli all’avanguardia come GPT-4 hanno raggiunto livelli di prestazioni vicini alla precisione umana, indicando progressi significativi nel campo. Tuttavia, questi risultati suggeriscono la necessità di parametri di riferimento in continua evoluzione per tenere il passo con i progressi nelle capacità di intelligenza artificiale.

Libro aperto

Il set di dati Openbook è composto da 5957 domande scientifiche a scelta multipla di livello elementare. Le domande sono raccolte da esami a libro aperto e sviluppate per valutare la comprensione umana dell'argomento.

Il benchmark Openbook richiede capacità di ragionamento che vanno oltre il recupero delle informazioni. GPT-4 raggiunge la massima precisione del 95.9% a partire da ora.

OpenbookQA è modellato sugli esami a libro aperto e consiste di 5,957 domande scientifiche di livello elementare a scelta multipla. Queste domande sono progettate per sondare la comprensione di 1,326 fatti scientifici fondamentali e la loro applicazione a situazioni nuove.

Similmente a Hellaswag, i modelli precedenti trovavano OpenbookQA impegnativo, ma i modelli moderni come GPT-4 hanno raggiunto livelli di prestazioni quasi umani. Questi progressi sottolineano l’importanza di sviluppare benchmark ancora più complessi e sfumati per continuare ad ampliare i confini della comprensione dell’IA.

I benchmark sono sufficienti per la valutazione delle prestazioni LLM?

Sì, sebbene forniscano un approccio standardizzato alla valutazione delle prestazioni LLM, possono anche essere fuorvianti. La Large Model Systems Organization afferma che un buon benchmark LLM dovrebbe essere scalabile, in grado di valutare nuovi modelli con un numero relativamente piccolo di prove e fornire un ordine di classificazione unico per tutti i modelli. Ma ci sono ragioni per cui potrebbero non essere sufficienti. Eccone alcuni:

Perdita del benchmark

Questo è un incontro comune e accade quando i dati di training si sovrappongono ai dati di test, ottenendo una valutazione fuorviante. Se un modello ha già risposto ad alcune domande del test durante l'addestramento, il suo risultato potrebbe non riflettere accuratamente le sue reali capacità. Ma un punto di riferimento ideale dovrebbe ridurre al minimo la memorizzazione e riflettere gli scenari del mondo reale.

Bias di valutazione

Le classifiche di riferimento LLM vengono utilizzate per confrontare le prestazioni degli LLM in vari compiti. Tuttavia, affidarsi a queste classifiche per il confronto dei modelli può essere ingannevole. Semplici cambiamenti nei test di benchmark, come alterare l'ordine delle domande, possono spostare la classifica dei modelli fino a otto posizioni. Inoltre, gli LLM possono ottenere risultati diversi a seconda dei metodi di punteggio, evidenziando l'importanza di considerare i pregiudizi di valutazione.

Fine aperta

L'interazione LLM nel mondo reale prevede la progettazione di istruzioni per generare gli output AI desiderati. I risultati del LLM dipendono dall'efficacia dei suggerimenti e i benchmark sono progettati per testare la consapevolezza del contesto dei LLM. Sebbene i benchmark siano progettati per testare la consapevolezza del contesto di un LLM, non sempre si traducono direttamente in prestazioni nel mondo reale. Ad esempio, un modello che raggiunge un punteggio del 100% su un set di dati di riferimento, come LSAT, non garantisce lo stesso livello di accuratezza nelle applicazioni pratiche. Ciò sottolinea l'importanza di considerare la natura aperta dei compiti del mondo reale nella valutazione LLM.

Valutazione efficace per LLM robusti

Quindi ora sai che i benchmark non sono sempre l'opzione migliore perché non possono sempre essere generalizzati per tutti i problemi. Ma ci sono altri modi.

Benchmark personalizzati

Sono perfetti per testare comportamenti e funzionalità specifici in scenari specifici. Supponiamo che LLM sia progettato per gli operatori sanitari, i set di dati raccolti dagli ambienti medici rappresenteranno efficacemente scenari reali. Questi benchmark personalizzati possono concentrarsi sulla comprensione del linguaggio, sulle prestazioni e sui requisiti contestuali specifici di un dominio. Allineando i benchmark a possibili scenari reali, è possibile garantire che LLM funzioni bene in generale ed eccella nelle attività specifiche per cui è destinato. Questo può aiutare a identificare e correggere tempestivamente eventuali lacune o punti deboli nelle capacità del modello.

Pipeline di rilevamento della fuga di dati

Se si desidera che le valutazioni "dimostrino" integrità, è fondamentale disporre di una pipeline di benchmark priva di perdite di dati. La perdita di dati si verifica quando i dati di benchmark vengono inclusi nel corpus di pre-addestramento del modello, con conseguenti punteggi di prestazioni artificialmente elevati. Per evitare ciò, i benchmark dovrebbero essere confrontati con i dati di pre-addestramento. Inoltre, è necessario adottare misure per evitare qualsiasi informazione precedentemente visualizzata. Questo può comportare l'utilizzo di set di dati proprietari o di nuova creazione, tenuti separati dalla pipeline di addestramento del modello: questo garantirà che le metriche di prestazioni ottenute riflettano la capacità del modello di generalizzare correttamente.

Valutazione umana

Le metriche automatizzate, da sole, non riescono a catturare l'intero spettro delle prestazioni di un modello, soprattutto quando si tratta di aspetti molto sfumati e soggettivi della comprensione e della generazione del linguaggio. In questo caso, la valutazione umana fornisce una valutazione molto migliore:

  • Assumere professionisti in grado di fornire valutazioni dettagliate e affidabili, soprattutto per domini specializzati.
  • crowdsourcing! Piattaforme come Amazon Mechanical Turk ti consentono di raccogliere diversi giudizi umani in modo rapido e a costi contenuti.
  • Feedback della comunità: l'utilizzo di piattaforme come l'arena della classifica LMSYS, dove gli utenti possono votare e confrontare i modelli, aggiunge un ulteriore livello di approfondimento. L'LMSYS Chatbot Arena Hard, ad esempio, è particolarmente efficace nell'evidenziare le sottili differenze tra i modelli di punta attraverso le interazioni dirette e i voti degli utenti.

Conclusione

Senza valutazione e benchmarking, non avremmo modo di sapere se la capacità dei LLM di gestire le attività del mondo reale è accurata e applicabile come pensiamo che sia. Ma, come ho detto, i benchmark non sono un modo del tutto infallibile per verificarlo, possono portare a lacune nelle prestazioni degli LLM. Ciò può anche rallentare lo sviluppo di LLM veramente robusti per il lavoro.

Così dovrebbe essere in un mondo ideale. Gli LLM comprendono le query degli utenti, identificano gli errori nei prompt, completano le attività secondo le istruzioni e generano risultati affidabili. I risultati sono già ottimi ma non ideali. È qui che i benchmark specifici per attività si rivelano molto utili proprio come la valutazione umana e il rilevamento delle perdite di benchmark. Usandoli, abbiamo la possibilità di produrre LLM davvero robusti.

Irina Barskaya, PhD, è una illustre scienziata dei dati con oltre un decennio di esperienza, che comprende sia l'analisi dei prodotti che l'analisi per tecnologie all'avanguardia. Ha guidato la creazione e l'analisi di Yasmina, il primo assistente vocale localizzato basato sull'intelligenza artificiale per l'Arabia Saudita, completamente funzionale, gestendo la localizzazione e l'etichettatura di dati complessi per l'arabo standard moderno e i dialetti sauditi. Attualmente, Irina è a capo dell'analisi della qualità presso Yandex, favorendo i progressi nelle tecnologie di intelligenza artificiale.