stub Suurte keelemudelite hindamine: tehniline juhend – Unite.AI
Ühenda meile

Tehisintellekt

Suurte keelemudelite hindamine: tehniline juhend

mm

avaldatud

 on

Suurte keelemudelite hindamine

Suured keelemudelid (LLM-id), nagu GPT-4, Claude ja LLaMA, on populaarseks saanud plahvatuslikult. Tänu nende võimele luua muljetavaldavalt inimlikku teksti, kasutatakse neid tehisintellektisüsteeme nüüd kõike alates sisu loomisest kuni klienditeeninduse vestlusrobotideni.

Aga kuidas me teame, kas need mudelid on tegelikult üldse head? Kui pidevalt teatatakse uutest LLM-idest, kes kõik väidavad, et nad on suuremad ja paremad, kuidas me nende toimivust hindame ja võrdleme?

Selles põhjalikus juhendis uurime peamisi tehnikaid suurte keelemudelite hindamiseks. Vaatleme iga lähenemisviisi plusse ja miinuseid, millal neid kõige paremini rakendada ja kuidas saate neid oma LLM-i testimisel kasutada.

Ülesandepõhised mõõdikud

Üks lihtsamaid viise LLM-i hindamiseks on testida seda standardiseeritud mõõdikute abil väljakujunenud NLP-ülesannetega. Näiteks:

Kokkuvõte

Kokkuvõtte ülesannete puhul mõõdikud nagu RED (Recall-Oriented Understudy for Gisting Evaluation) kasutatakse tavaliselt. ROUGE võrdleb mudeli loodud kokkuvõtet inimese kirjutatud "viite" kokkuvõttega, loendades sõnade või fraaside kattumist.

ROUGE'il on mitu maitset, millest igaühel on oma plussid ja miinused:

  • ROUGE-N: Võrdleb n-grammi (N sõna jada) kattuvust. ROUGE-1 kasutab unigramme (üksiksõnu), ROUGE-2 kasutab biggramme jne. Eeliseks on see, et see tabab sõnade järjekorda, kuid see võib olla liiga range.
  • ROUGE-L: Põhineb pikimal ühisel alamjärjestusel (LCS). Sõnajärje osas paindlikum, kuid keskendub põhipunktidele.
  • ROUGE-W: Kaalub LCS-i vasteid nende olulisuse järgi. Püüab ROUGE-L täiustada.

Üldiselt on ROUGE mõõdikud kiired, automaatsed ja sobivad hästi süsteemi kokkuvõtete järjestamiseks. Kuid need ei mõõda sidusust ega tähendust. Kokkuvõte võib saada kõrge ROUGE hinde ja olla ikkagi mõttetu.

ROUGE-N valem on:

ROUGE-N=∑∈{Viidete kokkuvõtted}∑∑�∈{Viidete kokkuvõtted}∑

kus:

  • Count_{match}(gram_n) on n-grammide arv nii genereeritud kui ka võrdluskokkuvõttes.
  • Count(gram_n) on n-grammide arv võrdluskokkuvõttes.

Näiteks ROUGE-1 (unigrammides):

  • Loodud kokkuvõte: "Kass istus."
  • Viitekokkuvõte: "Kass istus matil."
  • Kattuvad unigrammid: "The", "cat", "sat"
  • ROUGE-1 skoor = 3/5 = 0.6

ROUGE-L kasutab pikimat ühist alamjada (LCS). Sõnajärjekorraga on see paindlikum. Valem on:

ROUGE-L=���(genereeritud,viide)maksim(pikkus(genereeritud),pikkus(viide))

Kus LCS on pikima ühise alamjada pikkus.

ROUGE-W kaalub LCS-i vasteid. See arvestab iga matši tähtsust LCS-is.

Tõlge

Masintõlkeülesannete jaoks Bleu (Bilingual Evaluation Understudy) on populaarne mõõdik. BLEU mõõdab mudeli väljundtõlke ja professionaalsete inimtõlgete sarnasust, kasutades n-grammi täpsust ja lühidust.

BLEU toimimise põhiaspektid:

  • Võrdleb n-grammi kattuvust kuni 4-ni (unigrammid, bigrammid, trigrammid, 4-grammid).
  • Arvutab n-grammiste täpsuste geomeetrilise keskmise.
  • Kui tõlge on palju lühem kui viide, rakendatakse karistust.
  • Tavaliselt jääb vahemikku 0 kuni 1, kusjuures 1 sobib ideaalselt viitega.

BLEU korreleerub suhteliselt hästi inimeste hinnangutega tõlkekvaliteedi kohta. Kuid sellel on endiselt piirangud:

  • Mõõdab täpsust ainult viidete suhtes, mitte tagasikutsumist ega F1.
  • Võitleb loominguliste tõlgetega, kasutades erinevaid sõnastusi.
  • Vastuvõtlik "mängimisele" tõlkenippidega.

Teised tõlkemõõdikud, nagu METEOR ja TER, püüavad parandada BLEU nõrkusi. Kuid üldiselt ei kajasta automaatsed mõõdikud täielikult tõlke kvaliteeti.

Muud ülesanded

Lisaks kokkuvõtete tegemisele ja tõlkimisele saab LLM-i toimivuse hindamiseks kasutada selliseid mõõdikuid nagu F1, täpsus, MSE ja palju muud.

  • Teksti liigitus
  • Teabe ammutamine
  • Küsimusele vastamine
  • Sentimentide analüüs
  • Grammatiliste vigade tuvastamine

Ülesandepõhiste mõõdikute eeliseks on see, et hindamist saab täielikult automatiseerida, kasutades standardiseeritud andmekogumeid, nagu näiteks SQUAD kvaliteedi tagamiseks ja GLUE etalon erinevate ülesannete jaoks. Mudelite täiustamisel saab tulemusi aja jooksul hõlpsasti jälgida.

Need mõõdikud on aga kitsalt fokusseeritud ega saa mõõta üldist keelekvaliteeti. Ühe ülesande mõõdikute osas hästi toimivad LLM-id võivad üldiselt ebaõnnestuda sidusa, loogilise ja abistava teksti loomisel.

Uuringute võrdlusalused

Populaarne viis LLM-ide hindamiseks on testida neid laiaulatuslike uurimistöö võrdlusalustega, mis hõlmavad erinevaid teemasid ja oskusi. Need võrdlusnäitajad võimaldavad mudeleid kiiresti mastaabis testida.

Mõned tuntud võrdlusalused hõlmavad järgmist:

  • SuperGLUE – 11 erineva keeleülesandega keeruline komplekt.
  • GLUE – 9 lausest arusaamise ülesande kogumik. Lihtsam kui SuperGLUE.
  • MMLU – 57 erinevat STEM-, sotsiaal- ja humanitaarteaduste ülesannet. Testib teadmisi ja mõtlemisoskust.
  • Winogradi skeemi väljakutse – Asesõnade lahendamise probleemid, mis nõuavad tervet mõistust arutlemist.
  • ARC – väljakutseid esitavad loomuliku keele arutlusülesanded.
  • Hellaswag – Terve mõistus olukordade kohta.
  • PIQA – diagramme nõudvad füüsikaküsimused.

Selliseid võrdlusaluseid hinnates saavad teadlased kiiresti katsetada mudeleid nende matemaatika, loogika, arutlusvõime, kodeerimise, terve mõistuse ja palju muu kohta. Õigesti vastatud küsimuste protsendist saab mudelite võrdlemise etalonmõõdik.

Kuid võrdlusaluste peamine probleem on koolitusandmete saastumine. Paljud võrdlusalused sisaldavad näiteid, mida mudelid juba eelkoolituse ajal nägid. See võimaldab mudelitel "pähe õppima” vastused konkreetsetele küsimustele ja toimivad paremini kui nende tegelikud võimalused.

Püütakse "puhastama” võrdlusnäitajad, eemaldades kattuvad näited. Kuid seda on keeruline kõikehõlmavalt teha, eriti kui mudelid on näinud küsimuste ümbersõnastatud või tõlgitud versioone.

Ehkki etalonidega saab tõhusalt testida laia valikut oskusi, ei saa need usaldusväärselt mõõta tõelisi arutlusvõimeid ega vältida saastumisest tingitud skoori suurenemist. Vaja on täiendavaid hindamismeetodeid.

LLM enesehindamine

Intrigeeriv lähenemine on lasta LLM-il hinnata teise LLM-i väljundeid. Idee on kasutada "lihtsama" ülesande kontseptsiooni:

  • Kvaliteetse väljundi tootmine võib LLM-i jaoks olla keeruline.
  • Kuid selle kindlaksmääramine, kas antud väljund on kvaliteetne, võib olla lihtsam ülesanne.

Näiteks kui LLM-il võib olla raskusi faktilise ja ühtse lõigu loomisega nullist, saab ta hõlpsamini hinnata, kas antud lõik on loogiline ja sobib konteksti.

Nii et protsess on järgmine:

  1. Väljundi genereerimiseks edastage sisendiviip esimesele LLM-ile.
  2. Edastage sisendiviip + genereeritud väljund teisele "hindajale" LLM.
  3. Esitage hindaja LLM-ile küsimus, et hinnata väljundi kvaliteeti. nt "Kas ülaltoodud vastus on loogiline?"

See lähenemisviis on kiiresti rakendatav ja automatiseerib LLM-i hindamise. Kuid on mõned väljakutsed:

  • Tulemus sõltub suuresti LLM-i hindaja valikust ja kiirest sõnastusest.
  • Algse ülesande raskusaste piirab. LLM-ide jaoks on keerukate arutluste hindamine endiselt raske.
  • API-põhiste LLM-ide kasutamisel võib see olla arvutuslikult kulukas.

Enesehindamine on eriti paljutõotav sisse otsitud teabe hindamisel RAG (otsinguga laiendatud põlvkond) süsteemid. Täiendavad LLM-päringud võivad kinnitada, kas otsitud konteksti kasutatakse õigesti.

Üldiselt näitab enesehindamine potentsiaali, kuid nõuab rakendamisel hoolt. See pigem täiendab, kui asendab inimlikku hinnangut.

Inimese hindamine

Arvestades automatiseeritud mõõdikute ja võrdlusaluste piiranguid, on inimeste hindamine endiselt LLM-i kvaliteedi range hindamise kuldstandard.

Eksperdid võivad anda üksikasjalikke kvalitatiivseid hinnanguid:

  • Täpsus ja faktide korrektsus
  • Loogika, arutluskäik ja terve mõistus
  • Sidusus, järjepidevus ja loetavus
  • Tooni, stiili ja hääle sobivus
  • Grammatilisus ja sujuvus
  • Loomingulisus ja nüanss

Mudeli hindamiseks antakse inimestele sisendviibade komplekt ja LLM-i loodud vastused. Nad hindavad vastuste kvaliteeti, kasutades sageli hindamisskaalasid ja rubriike.

Negatiivne külg on see, et käsitsi inimeste hindamine on kallis, aeglane ja seda on raske skaleerida. See nõuab ka standardiseeritud kriteeriumide väljatöötamist ja hindajate koolitamist nende järjepidevaks rakendamiseks.

Mõned teadlased on uurinud loovaid viise inimeste LLM-i hinnangute ühisrahastamiseks, kasutades turniirilaadseid süsteeme, kus inimesed panustavad mudelite vahelisi kokkulangevusi ja hindavad neid. Kuid katvus on täielike käsitsi hindamistega võrreldes siiski piiratud.

Ärikasutusjuhtudel, kus kvaliteet on olulisem kui töötlemata mastaap, jääb asjatundlikud inimtestid oma kuludest hoolimata kullastandardiks. See kehtib eriti LLM-ide riskantsemate rakenduste kohta.

Järeldus

Suurte keelemudelite põhjalik hindamine eeldab ühele tehnikale tuginemise asemel mitmekesist täiendavate meetodite komplekti kasutamist.

Kombineerides kiiruse automatiseeritud lähenemisviise täpsuse tagamiseks range inimliku järelevalvega, saame välja töötada usaldusväärsed testimismetoodikad suurte keelemudelite jaoks. Tugeva hindamise abil saame avada LLM-ide tohutu potentsiaali, juhtides samal ajal nende riske vastutustundlikult.

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.