mozzicone Valutazione di modelli linguistici di grandi dimensioni: una guida tecnica - Unite.AI
Seguici sui social

Intelligenza Artificiale

Valutazione di modelli linguistici di grandi dimensioni: una guida tecnica

mm

Pubblicato il

 on

Valutazione di modelli linguistici di grandi dimensioni

I modelli linguistici di grandi dimensioni (LLM) come GPT-4, Claude e LLaMA sono diventati sempre più popolari. Grazie alla loro capacità di generare testo straordinariamente simile a quello umano, questi sistemi di intelligenza artificiale vengono ora utilizzati per qualsiasi cosa, dalla creazione di contenuti ai chatbot del servizio clienti.

Ma come facciamo a sapere se questi modelli sono effettivamente validi? Con il costante annuncio di nuovi LLM, tutti affermanti di essere più grandi e migliori, come valutiamo e confrontiamo le loro prestazioni?

In questa guida completa, esploreremo le principali tecniche per valutare modelli linguistici di grandi dimensioni. Esamineremo i pro e i contro di ciascun approccio, quando sono applicati al meglio e come puoi sfruttarli nei tuoi test LLM.

Metriche specifiche dell'attività

Uno dei modi più semplici per valutare un LLM è testarlo su attività di PNL stabilite utilizzando metriche standardizzate. Per esempio:

Riassunto

Per le attività di riepilogo, metriche come ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sono comunemente usati. ROUGE confronta il riassunto generato dal modello con un riassunto di “riferimento” scritto da esseri umani, contando la sovrapposizione di parole o frasi.

Esistono diversi gusti di ROUGE, ognuno con i propri pro e contro:

  • ROUGE-N: Confronta la sovrapposizione di n grammi (sequenze di N parole). ROUGE-1 utilizza unigrammi (parole singole), ROUGE-2 usa bigram, ecc. Il vantaggio è che cattura l'ordine delle parole, ma può essere troppo rigido.
  • ROUGE-L: Basato sulla sottosequenza comune più lunga (LCS). Più flessibile nell'ordine delle parole ma si concentra sui punti principali.
  • ROUGE-W: Pesa le corrispondenze LCS in base al loro significato. Tentativi di migliorare ROUGE-L.

In generale, le metriche ROUGE sono veloci, automatiche e funzionano bene per i riepiloghi dei sistemi di classificazione. Tuttavia, non misurano la coerenza o il significato. Un riassunto potrebbe ottenere un punteggio ROUGE elevato ed essere comunque privo di senso.

La formula per ROUGE-N è:

ROUGE-N=∑∈{Riepiloghi dei riferimenti}∑∑�∈{Riepiloghi dei riferimenti}∑

Dove:

  • Count_{match}(gram_n) è il conteggio di n grammi sia nel riepilogo generato che in quello di riferimento.
  • Count(gram_n) è il conteggio di n-grammi nel riepilogo di riferimento.

Ad esempio, per ROUGE-1 (unigrammi):

  • Riepilogo generato: "Il gatto si sedette".
  • Riepilogo di riferimento: "Il gatto si sedette sul tappeto".
  • Unigrammi sovrapposti: “The”, “cat”, “sat”
  • Punteggio ROUGE-1 = 3/5 = 0.6

ROUGE-L utilizza la sottosequenza comune più lunga (LCS). È più flessibile con l'ordine delle parole. La formula è:

ROUGE-L=���(generato,riferimento)max(lunghezza(generato), lunghezza(riferimento))

Dove LCS è la lunghezza della sottosuccessione comune più lunga.

ROUGE-W pondera le partite LCS. Considera il significato di ogni partita nella LCS.

Traduzione

Per le attività di traduzione automatica, BLU (Bilingual Evaluation Understudy) è una metrica popolare. BLEU misura la somiglianza tra la traduzione di output del modello e le traduzioni umane professionali, utilizzando una precisione di n grammi e una penalità di brevità.

Aspetti chiave del funzionamento di BLEU:

  • Confronta le sovrapposizioni di n grammi per n fino a 4 (unigrammi, bigrammi, trigrammi, 4 grammi).
  • Calcola una media geometrica delle precisezze n-grammi.
  • Applica una penalità di brevità se la traduzione è molto più breve del riferimento.
  • Generalmente varia da 0 a 1, dove 1 corrisponde perfettamente al riferimento.

BLEU si correla ragionevolmente bene con i giudizi umani sulla qualità della traduzione. Ma ha ancora dei limiti:

  • Misura solo la precisione rispetto ai riferimenti, non al richiamo o a F1.
  • Lotta con traduzioni creative che utilizzano parole diverse.
  • Suscettibile al “gioco” con trucchi di traduzione.

Altri parametri di traduzione come METEOR e TER tentano di migliorare i punti deboli di BLEU. Ma in generale, le metriche automatiche non catturano completamente la qualità della traduzione.

Altre attività

Oltre al riepilogo e alla traduzione, è possibile utilizzare metriche come F1, accuratezza, MSE e altre per valutare le prestazioni LLM su attività come:

  • Classificazione del testo
  • Estrazione di informazioni
  • Risposta alla domanda
  • Analisi del sentimento
  • Rilevamento degli errori grammaticali

Il vantaggio delle metriche specifiche per attività è che la valutazione può essere completamente automatizzata utilizzando set di dati standardizzati come Squadra per il QA e COLLA punto di riferimento per una serie di compiti. I risultati possono essere facilmente monitorati nel tempo man mano che i modelli migliorano.

Tuttavia, questi parametri sono mirati in modo ristretto e non possono misurare la qualità complessiva della lingua. Gli LLM che ottengono buoni risultati in termini di metriche per una singola attività potrebbero non riuscire a generare testo coerente, logico e utile in generale.

Benchmark di ricerca

Un modo popolare per valutare gli LLM è testarli rispetto a benchmark di ricerca ad ampio raggio che coprono diversi argomenti e competenze. Questi parametri di riferimento consentono di testare rapidamente i modelli su larga scala.

Alcuni benchmark ben noti includono:

  • Super colla – Set impegnativo di 11 compiti linguistici diversi.
  • COLLA – Raccolta di 9 compiti di comprensione delle frasi. Più semplice di SuperGLUE.
  • MMLU – 57 diversi compiti STEM, scienze sociali e umanistiche. Verifica la conoscenza e la capacità di ragionamento.
  • Sfida dello schema Winograd – Problemi di risoluzione dei pronomi che richiedono un ragionamento basato sul buon senso.
  • ARC – Compiti impegnativi di ragionamento in linguaggio naturale.
  • Hellaswag – Ragionamento basato sul buon senso sulle situazioni.
  • PIQA – Domande di fisica che richiedono diagrammi.

Valutando benchmark come questi, i ricercatori possono testare rapidamente i modelli sulla loro capacità di eseguire calcoli, logica, ragionamento, codifica, buon senso e molto altro ancora. La percentuale di domande con risposta corretta diventa una metrica di riferimento per confrontare i modelli.

Tuttavia, un grosso problema con i benchmark è contaminazione dei dati di addestramento. Molti benchmark contengono esempi già visti dai modelli durante la fase di pre-formazione. Ciò consente ai modelli di “memorizzazione” rispondono a domande specifiche e ottengono risultati migliori delle loro reali capacità.

Si tenta di “decontaminare" benchmark rimuovendo gli esempi sovrapposti. Ma è difficile farlo in modo completo, soprattutto quando i modelli potrebbero aver visto versioni delle domande parafrasate o tradotte.

Pertanto, sebbene i benchmark possano testare in modo efficiente un’ampia gamma di competenze, non possono misurare in modo affidabile le reali capacità di ragionamento o evitare l’inflazione del punteggio dovuta alla contaminazione. Sono necessari metodi di valutazione complementari.

Autovalutazione LLM

Un approccio interessante consiste nel far sì che un LLM valuti i risultati di un altro LLM. L’idea è di sfruttare il concetto di attività “più semplice”:

  • Produrre un output di alta qualità può essere difficile per un LLM.
  • Ma determinare se un determinato output è di alta qualità può essere un compito più semplice.

Ad esempio, mentre un LLM può avere difficoltà a generare da zero un paragrafo concreto e coerente, può giudicare più facilmente se un determinato paragrafo ha un senso logico e si adatta al contesto.

Quindi il processo è:

  1. Passa il prompt di input al primo LLM per generare output.
  2. Passa il prompt di input + l'output generato al secondo LLM "valutatore".
  3. Chiedi al valutatore LLM una domanda per valutare la qualità dell'output. ad esempio "La risposta di cui sopra ha un senso logico?"

Questo approccio è rapido da implementare e automatizza la valutazione LLM. Ma ci sono alcune sfide:

  • Le prestazioni dipendono fortemente dalla scelta del valutatore LLM e dalla tempestiva formulazione.
  • Vincolato dalla difficoltà del compito originale. Valutare ragionamenti complessi è ancora difficile per i LLM.
  • Può essere costoso dal punto di vista computazionale se si utilizzano LLM basati su API.

L’autovalutazione è particolarmente promettente per valutare le informazioni recuperate RAG (generazione aumentata di recupero) sistemi. Ulteriori query LLM possono essere convalidate se il contesto recuperato viene utilizzato in modo appropriato.

Nel complesso, l’autovalutazione mostra potenzialità ma richiede attenzione nell’attuazione. Essa integra, anziché sostituire, la valutazione umana.

Valutazione umana

Date le limitazioni delle metriche e dei benchmark automatizzati, la valutazione umana è ancora il gold standard per valutare rigorosamente la qualità LLM.

Gli esperti possono fornire valutazioni qualitative dettagliate su:

  • Accuratezza e correttezza dei fatti
  • Logica, ragionamento e buon senso
  • Coerenza, consistenza e leggibilità
  • Appropriatezza del tono, dello stile e della voce
  • Grammaticalità e fluidità
  • Creatività e sfumature

Per valutare un modello, agli esseri umani viene fornita una serie di prompt di input e le risposte generate da LLM. Valutano la qualità delle risposte, spesso utilizzando scale di valutazione e rubriche.

Lo svantaggio è che la valutazione umana manuale è costosa, lenta e difficile da scalare. Richiede inoltre lo sviluppo di criteri standardizzati e la formazione dei valutatori per applicarli in modo coerente.

Alcuni ricercatori hanno esplorato modi creativi per finanziare in crowdfunding le valutazioni LLM umane utilizzando sistemi in stile torneo in cui le persone scommettono e giudicano gli incontri tra i modelli. Ma la copertura è ancora limitata rispetto alle valutazioni manuali complete.

Per i casi di utilizzo aziendale in cui la qualità conta più della scala grezza, i test umani condotti da esperti rimangono il gold standard nonostante i costi. Ciò è particolarmente vero per le applicazioni più rischiose degli LLM.

Conclusione

La valutazione approfondita di modelli linguistici di grandi dimensioni richiede l’utilizzo di un insieme diversificato di metodi complementari, piuttosto che fare affidamento su una singola tecnica.

Combinando approcci automatizzati per la velocità con un rigoroso controllo umano per l'accuratezza, possiamo sviluppare metodologie di test affidabili per modelli linguistici di grandi dimensioni. Con una valutazione solida, possiamo sbloccare l'enorme potenziale degli LLM gestendo i rischi in modo responsabile.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.