Conectează-te cu noi

Liderii gândirii

Criterii de referință pentru LLM

mm

Înțelegeți rolul și limitările benchmark-urilor în evaluarea performanței LLM. Explorați tehnicile de dezvoltare a unor LLM robuste.

Modelele de Limbaj Mari (LLM) au câștigat o popularitate masivă în ultimii ani. Adică, ați văzut deja. Capacitatea excepțională a LLM-urilor de a înțelege comenzile limbajului uman le-a transformat în integrarea absolut perfectă pentru companii, susținând fluxuri de lucru critice și automatizând sarcini la o eficiență maximă. În plus, dincolo de înțelegerea utilizatorului obișnuit, LLM-urile pot face mult mai multe. Și pe măsură ce dependența noastră de ele crește, trebuie să acordăm mai multă atenție măsurilor care să asigure acuratețea și fiabilitatea necesare. Aceasta este o sarcină globală care privește instituții întregi, dar în domeniul companiilor există acum mai multe repere care pot fi utilizate pentru a evalua performanța LLM-urilor în diverse domenii. Acestea pot testa capacitățile modelului în înțelegere, construire logică, matematică și așa mai departe, iar rezultatele determină dacă un LLM este pregătit pentru implementarea în afaceri.

În acest articol, am adunat o listă cuprinzătoare a celor mai populare repere pentru evaluarea LLM. Vom discuta în detaliu fiecare etalon de referință și vom vedea cum se descurcă diferite LLM-uri în raport cu criteriile de evaluare. Dar mai întâi, să înțelegem mai detaliat evaluarea LLM.

Ce este evaluarea LLM?

La fel ca alte modele de inteligență artificială, modelele de limbaj în cunoștință de cauză (LLM) trebuie evaluate în funcție de anumite criterii de referință care evaluează diverse aspecte ale performanței modelului lingvistic: cunoștințe, acuratețe, fiabilitate și consecvență. Standardul implică de obicei:

  1. Înțelegerea interogărilor utilizatorilor: Evaluarea capacității modelului de a înțelege și interpreta cu acuratețe o gamă largă de intrări ale utilizatorului.
  2. Verificare ieșire: Verificarea răspunsurilor generate de AI în raport cu o bază de cunoștințe de încredere pentru a se asigura că sunt corecte și relevante.
  3. Robusteţe: Măsurarea cât de bine funcționează modelul cu intrări ambigue, incomplete sau zgomotoase.

Evaluarea LLM oferă dezvoltatorilor puterea de a identifica și aborda eficient limitările, astfel încât să poată îmbunătăți experiența generală a utilizatorului. Dacă un LLM este evaluat temeinic, acesta va fi suficient de precis și de robust pentru a gestiona diferite aplicații din lumea reală, inclusiv cele cu intrări ambigue sau neașteptate.

valori de referință

LLM-urile sunt una dintre cele mai complicate piese de tehnologie de până acum și pot alimenta chiar și cele mai dificile aplicații. Deci, procesul de evaluare trebuie pur și simplu să fie la fel de complex, punându-și la încercare procesul de gândire și acuratețea tehnică.

Un benchmark folosește seturi de date, metrici și sarcini de evaluare specifice pentru a testa performanța LLM și permite compararea diferitelor LLM și măsurarea acurateței acestora, ceea ce, la rândul său, conduce progresul în industrie prin performanță îmbunătățită.

Iată câteva dintre cele mai tipice aspecte ale performanței LLM:

  • NoutățiCunoștințele modelului trebuie testate în diverse domenii. Acesta este scopul benchmark-ului de cunoștințe. Acesta evaluează cât de eficient poate modelul să rețină informații din diferite domenii, cum ar fi fizica, programarea, geografia etc.
  • Logic RaţionamentÎnseamnă testarea capacității unui model de a „gândi” pas cu pas și de a obține o concluzie logică; acestea implică de obicei scenarii în care modelul trebuie să selecteze cea mai plauzibilă continuare sau explicație pe baza cunoștințelor cotidiene și a raționamentului logic.
  • Citirea înțelegerii: Modelele trebuie să fie excelente la interpretarea limbajului natural și apoi să genereze răspunsuri în consecință. Testul arată ca un răspuns la întrebări bazat pe pasaje pentru a măsura înțelegerea, inferența și păstrarea detaliilor. Ca un test de citit la școală.
  • Înțelegerea codului: Acest lucru este necesar pentru a măsura competența unui model în înțelegerea, scrierea și depanarea codului. Aceste repere oferă modelului sarcini de codare sau probleme pe care modelul trebuie să le rezolve cu acuratețe, acoperind adesea o serie de limbaje și paradigme de programare.
  • Cunoașterea lumiiPentru a evalua înțelegerea de către model a cunoștințelor generale despre lume. Aceste seturi de date au de obicei întrebări care necesită cunoștințe enciclopedice ample pentru a primi răspunsuri corecte, ceea ce le diferențiază de reperele de cunoștințe mai specifice și specializate.

Criterii de referință „Cunoaștere”.

MMLU (înțelegerea limbajului multimodal)

Acest punct de referință este realizat pentru a testa înțelegerea de către LLM a cunoștințelor faptice în diverse subiecte precum științe umaniste, științe sociale, istorie, informatică și chiar drept. 57 de întrebări și 15 de sarcini, toate menite să se asigure că modelul are capacități mari de raționament. Acest lucru face ca MMLU să fie un instrument bun pentru a evalua cunoștințele faptice și raționamentul unui LLM care tratează diverse subiecte.

Recent a devenit un punct de referință cheie pentru evaluarea LLM-urilor pentru domeniile menționate mai sus. Dezvoltatorii doresc întotdeauna să își optimizeze modelele pentru a le depăși pe alții în acest benchmark, ceea ce îl face un standard de facto pentru evaluarea raționamentului și cunoștințelor avansate în LLM. S-au arătat modele mari la nivel de întreprindere scoruri impresionante pe acest punct de referință, inclusiv GPT-4-omni la 88.7%, Claude 3 Opus la 86.8%, Gemini 1.5 Pro la 85.9% și Llama-3 70B la 82%. Modelele mici, de obicei, nu funcționează la fel de bine la acest benchmark, de obicei nu depășesc 60-65%, dar performanța recentă a Phi-3-Small-7b la 75.3% este ceva la care să ne gândim.

Cu toate acestea, MMLU nu este lipsit de dezavantaje: are probleme cunoscute, cum ar fi întrebări ambigue, răspunsuri incorecte, și lipsește contextul. Și, mulți cred că unele dintre sarcinile sale sunt prea ușoare pentru evaluarea corectă a LLM.

Aș dori să clarific faptul că reperele precum MMLU nu descriu perfect scenarii din lumea reală. Dacă un LLM obține un scor mare la acest aspect, nu înseamnă întotdeauna că a devenit expert în domeniu. Reperele au într-adevăr o sferă de aplicare destul de limitată și se bazează adesea pe întrebări cu variante multiple de răspuns, care nu pot surprinde niciodată pe deplin complexitatea și contextul interacțiunilor din lumea reală. Adevărata înțelegere necesită cunoașterea faptelor și aplicarea dinamică a acestor cunoștințe, iar acest lucru implică gândire critică, rezolvarea problemelor și înțelegere contextuală. Din aceste motive, LLM-urile trebuie să fie constant rafinate și actualizate, astfel încât modelul să își păstreze relevanța și eficacitatea reperului.

GPQA (benchmark pentru întrebări și răspunsuri Google-Proof la nivel de absolvent)

Acest punct de referință evaluează LLM-urile pe raționamentul logic folosind a date CCD cu doar 448 de întrebări. Experții din domeniu l-au dezvoltat și acoperă subiecte din biologie, fizică și chimie.

Fiecare întrebare trece prin următorul proces de validare:

  1. Un expert în același subiect răspunde la întrebare și oferă feedback detaliat.
  2. Autorul întrebării revizuiește întrebarea pe baza acestui feedback.
  3. Un al doilea expert răspunde la întrebarea revizuită.

Acest proces poate asigura de fapt că întrebările sunt obiective, precise și provocatoare pentru un model lingvistic. Chiar și doctoranzii cu experiență obțin doar o precizie de 65% la aceste întrebări, în timp ce GPT-4-omni ajunge la doar 53.6%, evidențiind decalajul dintre inteligența umană și cea a mașinilor.

Datorită cerințelor înalte de calificare, setul de date este de fapt destul de mic, ceea ce îi limitează oarecum puterea statistică de a compara acuratețea și necesită dimensiuni mari ale efectului. Experții care au creat și validat aceste întrebări au venit de la Upwork, așa că au introdus potențial părtiniri pe baza expertizei lor și a subiectelor abordate.

Benchmark-uri de cod

HumanEval

164 de probleme de programare, un adevărat test pentru abilitățile de codare ale LLM-urilor. Sale HumanEval. Este conceput pentru a testa abilitățile de codare de bază ale modelelor de limbaj mari (LLM). Folosește metrica pass@k pentru a evalua acuratețea funcțională a codului care este generat, care emite probabilitatea ca cel puțin unul dintre cele mai importante k mostre de cod generate de LLM să treacă de cazurile de testare.

În timp ce setul de date HumanEval include semnături de funcții, documente, corpuri de cod și mai multe teste unitare, nu include întreaga gamă de probleme de codare din lumea reală, care pur și simplu nu vor testa în mod adecvat capacitatea unui model de a crea codul corect pentru diverse scenarii.

MBPP (Majoritatea programare Python de bază)

Mbpp benchmark-ul constă din 1,000 de întrebări de programare Python de la mulțime. Acestea sunt probleme de nivel de intrare și se concentrează pe abilitățile fundamentale de programare. Utilizează câteva abordări de reglare fină pentru a evalua performanța modelului, modelele mai mari având de obicei performanțe mai bune pe acest set de date. Cu toate acestea, deoarece setul de date conține în principal programe de nivel de intrare, încă nu reprezintă pe deplin complexitățile și provocările aplicațiilor din lumea reală.

Repere matematice

În timp ce majoritatea LLM-urilor sunt destul de grozave în structurarea răspunsurilor standard, raționamentul matematic este o problemă mult mai mare pentru ei. De ce? Pentru că necesită abilități legate de înțelegerea întrebărilor, o abordare logică pas cu pas cu raționament matematic și obținerea răspunsului corect.

Metoda „Lanțul Gândirii” (Lanțul Gândirii) este concepută pentru a evalua modelele cu probleme de matematică (LLM) în funcție de reperele matematice și implică îndemnarea modelelor să își explice procesul de raționament pas cu pas atunci când rezolvă o problemă. Aceasta prezintă mai multe beneficii. Face procesul de raționament mai transparent, ajută la identificarea defectelor din logica modelului și permite o evaluare mai granulară a abilităților de rezolvare a problemelor. Prin descompunerea problemelor complexe într-o serie de pași mai simpli, Lanțul Gândirii poate îmbunătăți performanța modelului în funcție de reperele matematice și poate oferi informații mai aprofundate asupra capacităților sale de raționament.

GSM8K: Un punct de referință popular pentru matematică

Unul dintre reperele binecunoscute pentru evaluarea abilităților matematice în LLM este setul de date GSM8K. GSM8K constă din probleme de matematică de 8.5k la mijlocul școlii, care necesită câțiva pași pentru a fi rezolvate, iar soluțiile implică în primul rând efectuarea unei secvențe de calcule elementare. De obicei, modelele mai mari sau cele instruite special pentru raționamentul matematic tind să aibă performanțe mai bune la acest punct de referință, de exemplu modelele GPT-4 au un scor de 96.5%, în timp ce DeepSeekMATH-RL-7B rămâne ușor în urmă cu 88.2%.

Deși GSM8K este util pentru evaluarea capacității unui model de a gestiona probleme de matematică de nivel școlar, este posibil să nu surprindă pe deplin capacitatea unui model de a rezolva provocări matematice mai avansate sau mai diverse, limitându-i astfel eficacitatea ca măsură cuprinzătoare a abilităților matematice.

Setul de date matematice: o alternativă cuprinzătoare

Setul de date matematice s-a ocupat de deficiențele unor benchmark-uri precum GSM8K. Acest set de date este mai extins, acoperind aritmetica elementară până la liceu și chiar probleme la nivel de facultate. De asemenea, este comparat cu oamenii, un doctorand în informatică căruia nu-i place matematica obținând o precizie de 40% și un medaliat cu aur obținând o precizie de 90%

Oferă o evaluare mai completă a capacităților matematice ale unui LLM. Se ocupă de demonstrarea faptului că modelul este competent în aritmetica de bază și în domenii complexe precum algebra, geometria și calculul matematic. Însă complexitatea și diversitatea crescute a problemelor pot face dificilă atingerea unei precizii ridicate de către modele, în special pentru cele care nu sunt instruite explicit pe o gamă largă de concepte matematice. De asemenea, formatele variate ale problemelor din setul de date Matematică pot introduce inconsecvențe în performanța modelului, ceea ce face mult mai dificilă tragerea de concluzii definitive despre competența matematică generală a unui model.

Utilizarea metodei Lanțului de Gânduri cu setul de date Matematice poate îmbunătăți evaluarea, deoarece dezvăluie abilitățile de raționament pas cu pas ale LLM-urilor într-o gamă largă de provocări matematice. O abordare combinată ca aceasta asigură o evaluare mai robustă și mai detaliată a capacităților matematice reale ale unui LLM.

Criterii de referință pentru înțelegerea citirii

O evaluare a înțelegerii textului citit evaluează capacitatea modelului de a înțelege și procesa texte complexe, ceea ce este fundamental în special pentru aplicații precum asistența pentru clienți, generarea de conținut și recuperarea informațiilor. Există câteva criterii de referință concepute pentru a evalua această abilitate, fiecare cu atribute unice care contribuie la o evaluare cuprinzătoare a capacităților unui model.

RACE (Setul de date privind înțelegerea citirii din examene)

Benchmark-urile RACE au aproape 28,000 de pasaje și 100,000 de întrebări colectate de la examenele de engleză pentru elevii chinezi de gimnaziu și liceu cu vârste cuprinse între 12 și 18 ani. Nu limitează întrebările și răspunsurile care trebuie extrase din pasajele date, făcând sarcinile chiar egale. cu atât mai provocatoare.

Acesta acoperă o gamă largă de subiecte și tipuri de întrebări, ceea ce face o evaluare amănunțită și include întrebări la diferite niveluri de dificultate. De asemenea, întrebările din RACE sunt concepute special pentru testarea abilităților de citire umană și sunt create de experți în domeniu.

Cu toate acestea, benchmark-ul are unele dezavantaje. Deoarece este dezvoltat pe materiale educaționale chinezești, este predispus să introducă părtiniri culturale care nu reflectă un context global. De asemenea, nivelul ridicat de dificultate în unele întrebări nu este de fapt reprezentativ pentru sarcinile tipice din lumea reală. Deci evaluările de performanță pot să nu fie atât de precise.

DROP (raționament discret asupra paragrafelor)

O altă abordare semnificativă este DROP (Discrete Reasoning Over Paragraphs), care provoacă modelele să efectueze raționament discret asupra paragrafelor. Are 96,000 de întrebări pentru a testa capacitățile de raționament ale LLM-urilor, iar întrebările sunt extrase de pe Wikipedia și preluate de la Amazon Mechanical Turk. Întrebările DROP apelează adesea la modele pentru a efectua operații matematice precum adunarea, scăderea și compararea pe baza informațiilor împrăștiate într-un pasaj.

Întrebările sunt provocatoare. Ei au nevoie de LLM pentru a localiza mai multe numere în pasaj și pentru a le adăuga sau scădea pentru a obține răspunsul final. Modelele mari, cum ar fi GPT-4 și palma, ating 80% și 85%, în timp ce oamenii ating 96% din setul de date DROP.

Benchmark-uri de bun simț

Testarea bunului simț în modelele lingvistice este o chestiune interesantă, dar și esențială, deoarece evaluează capacitatea unui model de a face judecăți și inferențe care se aliniază cu raționamentul nostru uman. Spre deosebire de noi, care dezvoltăm un model cuprinzător al lumii prin experiențe practice, modelele lingvistice sunt antrenate pe seturi de date uriașe, fără a înțelege în mod inerent contextul. Aceasta înseamnă că modelele se confruntă cu dificultăți în îndeplinirea sarcinilor care necesită o înțelegere intuitivă a situațiilor cotidiene, raționament logic și cunoștințe practice, aspecte foarte importante pentru aplicațiile de inteligență artificială robuste și fiabile.

HellaSwag (finalizări mai dificile, contexte mai lungi și activități reduse pentru situații cu generații adverse)

Hellaswag este dezvoltat de Rowan Zellers și colegii săi de la Universitatea din Washington și Institutul Allen pentru Inteligență Artificială. Este conceput pentru a testa capacitatea unui model de a prezice cea mai plauzibilă continuare a unui anumit scenariu. Acest criteriu de referință este construit folosind filtrarea adversă (FA), în care o serie de discriminatori selectează iterativ răspunsurile greșite generate de mașini, generate de adversari. Această metodă creează un set de date cu exemple banale pentru oameni, dar dificile pentru modele, rezultând o zonă de dificultate „Goldilocks”.

În timp ce Hellaswag a fost o provocare pentru modelele anterioare, modelele de ultimă generație precum GPT-4 au atins niveluri de performanță apropiate de acuratețea umană, ceea ce indică progrese semnificative în domeniu. Cu toate acestea, aceste rezultate sugerează necesitatea unor parametri de referință în continuă evoluție pentru a ține pasul cu progresele în capabilitățile AI.

Carte deschisă

Setul de date Openbook constă din 5957 de întrebări cu răspunsuri multiple de știință de nivel elementar. Întrebările sunt adunate de la examene cu carte deschisă și dezvoltate pentru a evalua înțelegerea umană a subiectului.

Openbook benchmark necesită o capacitate de raționament dincolo de regăsirea informațiilor. GPT-4 atinge cea mai mare precizie de 95.9% de acum.

OpenbookQA este modelat după examenele cu carte deschisă și constă din 5,957 de întrebări de știință cu răspunsuri multiple la nivel elementar. Aceste întrebări sunt concepute pentru a sonda înțelegerea a 1,326 de fapte științifice de bază și aplicarea lor în situații noi.

Similar cu Hellaswag, modelele anterioare au considerat OpenbookQA provocator, dar modelele moderne precum GPT-4 au atins niveluri de performanță aproape umane. Acest progres subliniază importanța dezvoltării unor repere și mai complexe și mai nuanțate pentru a continua să depășească limitele înțelegerii AI.

Sunt suficiente benchmarks pentru evaluarea performanței LLM?

Da, deși oferă o abordare standardizată pentru evaluarea performanței LLM, pot fi, de asemenea, înșelătoare. Large Model Systems Organization spune că un bun benchmark LLM ar trebui să fie scalabil, capabil să evalueze noi modele cu un număr relativ mic de încercări și să ofere o ordine unică de clasare pentru toate modelele. Dar, există motive pentru care s-ar putea să nu fie suficiente. Iată câteva:

Scurgeri de referință

Aceasta este o întâlnire comună și se întâmplă atunci când datele de antrenament se suprapun cu datele de testare, făcând o evaluare înșelătoare. Dacă un model a întâlnit deja unele întrebări de testare în timpul antrenamentului, este posibil ca rezultatul său să nu reflecte cu exactitate adevăratele sale capacități. Dar un punct de referință ideal ar trebui să minimizeze memorarea și să reflecte scenarii din lumea reală.

Prejudecata de evaluare

Clasamentele de referință LLM sunt folosite pentru a compara performanța LLM-urilor în diverse sarcini. Cu toate acestea, bazarea pe aceste clasamente pentru compararea modelelor poate fi... derutant. Modificările simple ale testelor de referință, cum ar fi modificarea ordinii întrebărilor, pot schimba clasamentul modelelor cu până la opt poziții. De asemenea, LLM-urile pot funcționa diferit în funcție de metodele de notare, subliniind importanța luării în considerare a distorsiunilor de evaluare.

Finalitate deschisă

Interacțiunea LLM în lumea reală implică proiectarea de solicitări pentru a genera rezultatele dorite de AI. Rezultatele LLM depind de eficacitatea solicitărilor, iar benchmark-urile sunt concepute pentru a testa gradul de conștientizare a contextului LLM. În timp ce benchmark-urile sunt concepute pentru a testa cunoașterea contextului unui LLM, ele nu se traduc întotdeauna direct în performanța din lumea reală. De exemplu, un model care atinge un scor de 100% pe un set de date de referință, cum ar fi LSAT, nu garantează același nivel de acuratețe în aplicațiile practice. Acest lucru subliniază importanța luării în considerare a naturii deschise a sarcinilor din lumea reală în evaluarea LLM.

Evaluare eficientă pentru LLM-uri robuste

Deci, acum știți că benchmark-urile nu sunt întotdeauna cea mai bună opțiune, deoarece nu se pot generaliza întotdeauna în toate problemele. Dar, există și alte moduri.

Benchmarkuri personalizate

Acestea sunt perfecte pentru testarea comportamentelor și funcționalităților specifice în scenarii specifice sarcinilor. Să presupunem că, dacă LLM este conceput pentru ofițeri medicali, seturile de date colectate din mediile medicale vor reprezenta eficient scenarii din lumea reală. Aceste repere personalizate se pot concentra pe înțelegerea limbajului specific domeniului, performanță și cerințe contextuale unice. Prin alinierea reperelor cu posibile scenarii din lumea reală, vă puteți asigura că LLM funcționează bine în general și excelează în sarcinile specifice pentru care este destinat. Acest lucru poate ajuta la identificarea și abordarea timpurie a oricăror lacune sau puncte slabe ale capabilităților modelului.

Conducta de detectare a scurgerilor de date

Dacă doriți ca evaluările dvs. să „demonstreze” integritatea, este foarte important să aveți o conductă de benchmark-uri fără scurgeri de date. Scurgerile de date se întâmplă atunci când datele benchmark-urilor sunt incluse în corpusul de pre-antrenament al modelului, rezultând scoruri de performanță artificial ridicate. Pentru a evita acest lucru, benchmark-urile ar trebui comparate cu datele de pre-antrenament. În plus, trebuie luate măsuri pentru a evita orice informații văzute anterior. Aceasta poate implica utilizarea unor seturi de date proprietare sau nou selectate, care sunt păstrate separat de conducta de antrenament a modelului - acest lucru va asigura că valorile de performanță pe care le obțineți reflectă capacitatea modelului de a generaliza bine.

Evaluarea umană

Metricile automate, în sine, nu pot surprinde întregul spectru al performanței unui model, mai ales când vine vorba de aspecte foarte nuanțate și subiective ale înțelegerii și generării limbajului. Aici, evaluarea umană oferă o evaluare mult mai bună:

  • Angajarea de profesionisti care poate oferi evaluări detaliate și de încredere, în special pentru domeniile specializate.
  • crowdsourcing! Platformele precum Amazon Mechanical Turk vă permit să adunați diverse judecăți umane rapid și pentru un cost redus.
  • Feedback comunitar: Folosind platforme precum arena clasamentului LMSYS, unde utilizatorii pot vota și compara modele, adaugă un nivel suplimentar de perspectivă. LMSYS Chatbot Arena Hard, de exemplu, este deosebit de eficient în evidențierea diferențelor subtile dintre modelele de top prin interacțiuni directe ale utilizatorilor și voturi.

Concluzie

Fără evaluare și benchmarking, nu am avea de unde să știm dacă capacitatea LLM de a gestiona sarcinile din lumea reală este la fel de precisă și aplicabilă pe cât credem că este. Dar, după cum am spus, benchmark-urile nu sunt o modalitate complet nebunească de a verifica acest lucru, ele pot duce la lacune în performanța LLM-urilor. Acest lucru poate încetini, de asemenea, dezvoltarea LLM-urilor care sunt cu adevărat robuste pentru muncă.

Așa ar trebui să fie într-o lume ideală. LLM-urile înțeleg interogările utilizatorilor, identifică erorile în solicitări, completează sarcinile conform instrucțiunilor și generează rezultate fiabile. Rezultatele sunt deja excelente, dar nu ideale. Acesta este locul în care benchmark-urile specifice sarcinii se dovedesc a fi foarte utile, la fel ca evaluarea umană și detectarea scurgerilor de referință. Utilizând acestea, avem șansa de a produce LLM-uri cu adevărat robuste.

Irina Barskaya, dr., este un distins cercetător de date cu peste un deceniu de experiență, cuprinzând atât analiza produselor, cât și analiza tehnologiilor de ultimă oră. Ea a condus crearea și analiza pentru Yasmina, primul asistent vocal localizat complet funcțional bazat pe inteligență artificială pentru Arabia Saudită, gestionând localizarea și etichetarea datelor complexe pentru arabă standard modernă și dialectele saudite. În prezent, Irina conduce analiza calității la Yandex, conducând progrese în tehnologiile AI.