Inteligență artificială
Evaluarea modelelor de limbaj mari: Un ghid tehnic

Modelele de limbaj mari (LLM) precum GPT-4, Claude și LLaMA au explodat în popularitate. Datorită capacității lor de a genera texte impresionant de umane, aceste sisteme AI sunt acum utilizate pentru tot, de la crearea de conținut la chatbot-urile de servicii pentru clienți.
Dar cum știm dacă aceste modele sunt cu adevărat bune? Cu noi LLM-uri fiind anunțate constant, toate afirmând că sunt mai mari și mai bune, cum le evaluăm și comparăm performanța?
În acest ghid cuprinzător, vom explora principalele tehnici pentru evaluarea modelelor de limbaj mari. Vom examina avantajele și dezavantajele fiecărei abordări, când sunt aplicate cel mai bine și cum le puteți utiliza în testarea dvs. LLM.
Metrice specifice sarcinii
Una dintre cele mai directe modalități de a evalua un LLM este de a-l testa pe sarcini NLP stabilite, utilizând metrice standardizate. De exemplu:
Rezumat
Pentru sarcinile de rezumat, metrice precum ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sunt utilizate în mod obișnuit. ROUGE compară rezumatul generat de model cu un rezumat “de referință” scris de un om, numărând suprapunerea cuvintelor sau frazelor.
Există mai multe variante de ROUGE, fiecare cu avantaje și dezavantaje:
- ROUGE-N: Compară suprapunerea n-gramelor (secvențe de N cuvinte). ROUGE-1 utilizează unigrame (cuvinte individuale), ROUGE-2 utilizează bigrame, etc. Avantajul este că capturează ordinea cuvintelor, dar poate fi prea strict.
- ROUGE-L: Se bazează pe cea mai lungă subsecvență comună (LCS). Mai flexibilă în ceea ce privește ordinea cuvintelor, dar se concentrează pe punctele principale.
- ROUGE-W: Atribuie ponderi suprapunerilor LCS în funcție de importanța lor. Încearcă să îmbunătățească ROUGE-L.
În general, metricele ROUGE sunt rapide, automate și funcționează bine pentru clasificarea rezumatelor sistemelor. Cu toate acestea, ele nu măsoară coerența sau sensul. Un rezumat poate obține un scor ROUGE ridicat și, totuși, să fie nonsens.
Formula pentru ROUGE-N este:
ROUGE-N=∑∈{Rezumat de referință}∑∑�∈{Rezumat de referință}∑
Unde:
Count_{match}(gram_n)este numărul de n-gramelor în ambele rezumate generate și de referință.Count(gram_n)este numărul de n-gramelor în rezumatul de referință.
De exemplu, pentru ROUGE-1 (unigrame):
- Rezumat generat: ” Pisica a stat.”
- Rezumat de referință: “Pisica a stat pe covor.”
- Unigrame suprapuse: “Pisica”, “a”, “stat”
- Scor ROUGE-1 = 3/5 = 0,6
ROUGE-L utilizează cea mai lungă subsecvență comună (LCS). Este mai flexibilă în ceea ce privește ordinea cuvintelor. Formula este:
ROUGE-L=���(generat, referință)max(length(generat), length(referință))
Unde LCS este lungimea celei mai lungi subsecvențe comune.
ROUGE-W atribuie ponderi suprapunerilor LCS. Ea ia în considerare importanța fiecărei suprapuneri în LCS.
Traducere
Pentru sarcinile de traducere automată, BLEU (Bilingual Evaluation Understudy) este o metrică populară. BLEU măsoară similaritatea dintre traducerea generată de model și traducerile profesionale umane, utilizând precizia n-gramelor și o penalizare pentru scurtitudine.
Aspecte cheie ale modului în care funcționează BLEU:
- Compara suprapunerea n-gramelor pentru n până la 4 (unigrame, bigrame, trigrame, 4-gramelor).
- Calculează o medie geometrică a preciziilor n-gramelor.
- Aplică o penalizare pentru scurtitudine dacă traducerea este mult mai scurtă decât referința.
- De obicei, variază de la 0 la 1, cu 1 fiind o potrivire perfectă cu referința.
BLEU se corelează în mod rezonabil cu judecățile umane privind calitatea traducerii. Dar are încă limitări:
- Măsoară doar precizia împotriva referințelor, nu și rechemarea sau F1.
- Luptă cu traduceri creative care utilizează o altă terminologie.
- Este susceptibilă la “manevre” de traducere.
Alte metrice de traducere, cum ar fi METEOR și TER, încearcă să îmbunătățească slăbiciunile BLEU. Dar, în general, metricele automate nu captează pe deplin calitatea traducerii.
Alte sarcini
În plus față de rezumat și traducere, metrice precum F1, acuratețe, MSE și altele pot fi utilizate pentru a evalua performanța LLM pe sarcini precum:
- Clasificarea textului
- Extracția informațiilor
- Răspunsul la întrebări
- Analiza sentimentului
- Detectarea erorilor gramaticale
Avantajul metricilor specifice sarcinii este că evaluarea poate fi pe deplin automatizată utilizând seturi de date standardizate, cum ar fi SQuAD pentru QA și GLUE benchmark pentru o gamă de sarcini. Rezultatele pot fi ușor urmărite în timp pe măsură ce modelele se îmbunătățesc.
Cu toate acestea, aceste metrice sunt înguste și nu pot măsura calitatea generală a limbajului. LLM-urile care performează bine pe metrice pentru o singură sarcină pot eșua la generarea de texte coerente, logice și utile în general.
Benchmark-uri de cercetare
O modalitate populară de a evalua LLM-urile este de a le testa împotriva unor benchmark-uri de cercetare cuprinzătoare care acoperă diverse subiecte și abilități. Aceste benchmark-uri permit modelului să fie testat rapid la scară.
Unele benchmark-uri cunoscute includ:
- SuperGLUE – Un set provocator de 11 sarcini lingvistice diverse.
- GLUE – O colecție de 9 sarcini de înțelegere a propozițiilor. Mai simplă decât SuperGLUE.
- MMLU – 57 de sarcini diferite din domeniul STEM, științe sociale și umaniste. Testează cunoștințele și abilitățile de raționament.
- Winograd Schema Challenge – Probleme de rezolvare a pronumelui care necesită raționamentul comun.
- ARC – Sarcini de raționament natural dificile.
- Hellaswag – Raționamentul comun despre situații.
- PIQA – Întrebări de fizică care necesită diagrame.
Prin evaluarea pe astfel de benchmark-uri, cercetătorii pot testa rapid modelele pe capacitatea lor de a efectua matematică, logică, raționament, codare, simț comun și multe altele. Procentul de întrebări corect răspuns devine o metrică de benchmark pentru compararea modelelor.
Cu toate acestea, o problemă majoră cu benchmark-urile este contaminarea datelor de antrenare. Multe benchmark-uri conțin exemple care au fost deja văzute de modele în timpul antrenării. Acest lucru permite modelului să “memorizeze” răspunsuri la întrebări specifice și să performeze mai bine decât capacitățile sale reale.
Se fac încercări de a “decontamina” benchmark-urile prin eliminarea exemplelor suprapuse. Dar acest lucru este dificil de realizat în mod cuprinzător, mai ales atunci când modelele pot fi văzut versiuni paraphrazate sau traduse ale întrebărilor.
Așadar, deși benchmark-urile pot testa o gamă largă de abilități în mod eficient, ele nu pot măsura în mod fiabil capacitățile reale de raționament sau evita inflația scorurilor din cauza contaminării. Metode de evaluare complementare sunt necesare.
Autotestarea LLM
O abordare interesantă este de a avea un LLM care să evalueze ieșirile altui LLM. Ideea este de a valorifica conceptul de “sarcină mai ușoară”:
- Producerea unei ieșiri de calitate poate fi dificilă pentru un LLM.
- Dar determinarea dacă o ieșire dată este de calitate poate fi o sarcină mai ușoară.
De exemplu, în timp ce un LLM poate lupta pentru a genera un paragraf factual, coerent dintr-un punct de start, el poate mai ușor judeca dacă un paragraf dat are sens logic și se potrivește contextului.
Deci, procesul este:
- Se trece promptul de intrare la primul LLM pentru a genera o ieșire.
- Se trece promptul de intrare + ieșirea generată la al doilea LLM “evaluator”.
- Se întreabă LLM-ul evaluator o întrebare pentru a evalua calitatea ieșirii. De exemplu, “Are răspunsul de mai sus sens logic?”
Această abordare este rapidă de implementat și automatizează evaluarea LLM. Dar există câteva provocări:
- Performanța depinde puternic de alegerea LLM-ului evaluator și de formularea promptului.
- Este limitată de dificultatea sarcinii originale. Evaluarea raționamentului complex este încă dificilă pentru LLM-uri.
- Poate fi costisitoare din punct de vedere computațional dacă se utilizează LLM-uri bazate pe API.
Autotestarea este deosebit de promițătoare pentru evaluarea informațiilor recuperate în sistemele RAG (retrieval-augmented generation). Interogări suplimentare LLM pot valida dacă contextul recuperat este utilizat în mod corespunzător.
În general, autotestarea arată potențial, dar necesită atenție la implementare. Ea completează, mai degrabă decât înlocuiește, evaluarea umană.
Evaluarea umană
Având în vedere limitările metricilor automate și benchmark-urilor, evaluarea umană rămâne standardul de aur pentru evaluarea riguroasă a calității LLM.
Experții pot oferi evaluări calitative detaliate privind:
- Acuratețea și corectitudinea factuală
- Logica, raționamentul și simțul comun
- Coerența, consistența și lizibilitatea
- Adecvarea tonului, stilului și vocii
- Gramaticalitatea și fluența
- Creativitatea și nuanța
Pentru a evalua un model, oamenii primesc un set de prompturi de intrare și răspunsurile generate de LLM. Ei evaluează calitatea răspunsurilor, adesea utilizând scale de notare și rubrici.
Partea negativă este că evaluarea manuală umană este costisitoare, lentă și dificil de scalat. Ea necesită, de asemenea, dezvoltarea unor criterii standardizate și instruirea evaluatorilor pentru a le aplica în mod consecvent.
Unii cercetători au explorat modalități creative de a strânge evaluări umane LLM prin sisteme de turneu, în care oamenii pariază și judecă meciuri între modele. Dar acoperirea este încă limitată în comparație cu evaluările manuale complete.
Pentru cazurile de utilizare în afaceri în care calitatea contează mai mult decât scala brută, testarea expertă umană rămâne standardul de aur, în ciuda costurilor. Acest lucru este valabil mai ales pentru aplicațiile mai riscante ale LLM-urilor.
Concluzie
Evaluarea modelelor de limbaj mari în mod cuprinzător necesită utilizarea unui set divers de metode complementare, mai degrabă decât a se baza pe o singură tehnică.
Prin combinarea abordărilor automate pentru viteza cu supravegherea riguroasă umană pentru acuratețe, putem dezvolta metode de testare fiabile pentru modelele de limbaj mari. Cu evaluări robuste, putem debloca potențialul uriaș al LLM-urilor, gestionând în același timp riscurile în mod responsabil.












