stub Didelių kalbų modelių įvertinimas: techninis vadovas – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Didelių kalbų modelių įvertinimas: techninis vadovas

mm

paskelbta

 on

Didelių kalbų modelių vertinimas

Dideli kalbų modeliai (LLM), tokie kaip GPT-4, Claude ir LLaMA, labai išpopuliarėjo. Dėl gebėjimo generuoti įspūdingai į žmogų panašų tekstą šios AI sistemos dabar naudojamos viskam – nuo ​​turinio kūrimo iki klientų aptarnavimo pokalbių robotų.

Bet kaip mes žinome, ar šie modeliai iš tikrųjų yra geri? Kadangi nuolat skelbiami nauji LLM, visi teigia esantys didesni ir geresni, kaip vertiname ir palyginame jų veiklą?

Šiame išsamiame vadove išnagrinėsime geriausius didelių kalbų modelių vertinimo metodus. Išnagrinėsime kiekvieno metodo privalumus ir trūkumus, kada jie geriausiai taikomi ir kaip galite juos panaudoti savo LLM testuose.

Konkrečios užduoties metrika

Vienas iš paprasčiausių būdų įvertinti LLM yra išbandyti jį pagal nustatytas NLP užduotis naudojant standartizuotą metriką. Pavyzdžiui:

Apibendrinimas

Apibendrinimo užduočių atveju metrikos, pvz RAUDONA (į prisiminimą orientuotas esminio įvertinimo tyrimas) dažniausiai naudojami. ROUGE palygina modelio sukurtą santrauką su žmogaus parašyta „nuorodų“ santrauka, skaičiuodama žodžių ar frazių sutapimą.

Yra keletas ROUGE skonių, kurių kiekvienas turi savo privalumų ir trūkumų:

  • ROUGE-N: Lygina n-gramų (N žodžių sekų) sutapimą. ROUGE-1 naudoja unigramas (vienus žodžius), ROUGE-2 naudoja didžiąsias raides ir pan. Privalumas yra tas, kad ji užfiksuoja žodžių tvarką, tačiau ji gali būti per griežta.
  • ROUGE-L: Remiantis ilgiausia bendrąja seka (LCS). Lankstesnė žodžių tvarka, tačiau dėmesys sutelkiamas į pagrindinius dalykus.
  • ROUGE-W: Svoriai LCS atitinka jų reikšmę. Bandymai patobulinti ROUGE-L.

Apskritai ROUGE metrika yra greita, automatinė ir puikiai tinka vertinant sistemos suvestines. Tačiau jie nematuoja darnos ar prasmės. Santrauka gali gauti aukštą ROUGE balą ir vis tiek būti beprasmė.

ROUGE-N formulė yra tokia:

ROUGE-N=∑∈{Nuorodų santraukos}∑∑�∈{Nuorodų santraukos}∑

kur:

  • Count_{match}(gram_n) yra n-gramų skaičius sugeneruotoje ir nuorodos suvestinėje.
  • Count(gram_n) yra n-gramų skaičius nuorodų suvestinėje.

Pavyzdžiui, ROUGE-1 (unigramais):

  • Sukurta santrauka: „Katė sėdėjo“.
  • Nuorodų santrauka: „Katė sėdėjo ant kilimėlio“.
  • Sutampančios unigramos: „The“, „cat“, „sat“
  • ROUGE-1 rezultatas = 3/5 = 0.6

ROUGE-L naudoja ilgiausią bendrąją seką (LCS). Tai lankstesnė žodžių tvarka. Formulė yra tokia:

ROUGE-L=���(sugeneruotas,nuoroda)maks.(ilgis(sugeneruotas), ilgis(nuoroda))

Kur LCS yra ilgiausios bendros posekos ilgis.

ROUGE-W sveria LCS rungtynes. Jame atsižvelgiama į kiekvienos LCS rungtynių reikšmę.

Vertimas

Atlikdami mašininio vertimo užduotis, Bleu (Bilingual Evaluation Understudy) yra populiari metrika. BLEU matuoja modelio išvesties vertimo ir profesionalių žmonių vertimų panašumą, naudodamas n gramų tikslumą ir trumpumo nuobaudą.

Pagrindiniai BLEU veikimo aspektai:

  • Lygina n gramų sutapimus iki 4 (unigramai, bigramai, trigramai, 4 gramai).
  • Apskaičiuoja n-gramų tikslumo geometrinį vidurkį.
  • Taikoma nuobauda dėl trumpumo, jei vertimas yra daug trumpesnis nei nuoroda.
  • Paprastai svyruoja nuo 0 iki 1, o 1 puikiai atitinka nuorodą.

BLEU pakankamai gerai koreliuoja su žmogaus vertinimais dėl vertimo kokybės. Tačiau jis vis dar turi apribojimų:

  • Matuoja tik tikslumą pagal nuorodas, o ne atšaukimą ar F1.
  • Kovoja su kūrybiškais vertimais naudojant skirtingas formuluotes.
  • Atsparus „žaidimams“ su vertimo gudrybėmis.

Kitos vertimo metrikos, pvz., METEOR ir TER, bando pagerinti BLEU trūkumus. Tačiau apskritai automatinė metrika ne visiškai atspindi vertimo kokybę.

Kitos užduotys

Be apibendrinimo ir vertimo, tokia metrika kaip F1, tikslumas, MSE ir kt. gali būti naudojama vertinant LLM našumą atliekant tokias užduotis kaip:

  • Teksto klasifikacija
  • Informacijos ištraukimas
  • Atsakymas į klausimą
  • Sentimento analizė
  • Gramatinių klaidų aptikimas

Konkrečios užduoties metrikos pranašumas yra tas, kad vertinimas gali būti visiškai automatizuotas naudojant standartizuotus duomenų rinkinius, pvz., SQUAD už QA ir KLIJAI įvairių užduočių etalonas. Tobulėjant modeliams, rezultatus galima lengvai sekti laikui bėgant.

Tačiau šios metrikos yra siaurai orientuotos ir negali išmatuoti bendros kalbos kokybės. LLM, kurie gerai atlieka vienos užduoties metrikas, gali nesugebėti sukurti nuoseklaus, logiško ir naudingo teksto apskritai.

Tyrimo etalonai

Populiarus būdas įvertinti LLM yra išbandyti juos pagal plataus masto tyrimų etalonus, apimančius įvairias temas ir įgūdžius. Šie etalonai leidžia greitai išbandyti modelius dideliu mastu.

Kai kurie gerai žinomi etalonai:

  • Super klijai – Sudėtingas 11 skirtingų kalbinių užduočių rinkinys.
  • KLIJAI – 9 sakinių supratimo užduočių rinkinys. Paprastesnis nei SuperGLUE.
  • MMLU – 57 skirtingos STEM, socialinių ir humanitarinių mokslų užduotys. Tikrina žinias ir mąstymo gebėjimus.
  • Vinogrado schemos iššūkis – Įvardžių sprendimo problemos, reikalaujančios sveiko proto samprotavimo.
  • ARC – Iššūkių natūralios kalbos samprotavimo užduotys.
  • Hellaswag – Sveiko proto samprotavimai apie situacijas.
  • PIQA – Fizikos klausimai, kuriems reikia diagramų.

Vertindami pagal tokius etalonus, mokslininkai gali greitai išbandyti modelius pagal jų gebėjimą atlikti matematiką, logiką, samprotavimus, kodavimą, sveiką protą ir dar daugiau. Teisingai atsakytų klausimų procentas tampa etalonine metrika lyginant modelius.

Tačiau pagrindinė problema, susijusi su etalonais, yra mokymo duomenų užterštumas. Daugelyje etalonų yra pavyzdžių, kuriuos modeliai jau matė per išankstinį mokymą. Tai leidžia modeliams „įsiminti“ atsakymus į konkrečius klausimus ir veikia geriau nei iš tikrųjų gali.

Bandoma „nukenksminti“ etalonus, pašalindami persidengiančius pavyzdžius. Tačiau tai sudėtinga padaryti visapusiškai, ypač kai modeliai galėjo matyti perfrazuotas arba išverstas klausimų versijas.

Taigi, nors etaloniniai standartai gali veiksmingai išbandyti daugybę įgūdžių, jie negali patikimai įvertinti tikrųjų mąstymo gebėjimų arba išvengti balų padidėjimo dėl užteršimo. Reikalingi papildomi vertinimo metodai.

LLM savęs vertinimas

Intriguojantis požiūris yra priversti LLM įvertinti kito LLM rezultatus. Idėja yra panaudoti „lengvesnės“ užduoties koncepciją:

  • LLM gali būti sunku sukurti aukštos kokybės produkciją.
  • Tačiau nustatyti, ar tam tikra produkcija yra aukštos kokybės, gali būti lengviau.

Pavyzdžiui, nors LLM gali sunkiai sukurti faktinę, nuoseklią pastraipą nuo nulio, ji gali lengviau nuspręsti, ar tam tikra pastraipa yra logiška ir atitinka kontekstą.

Taigi procesas yra toks:

  1. Perduokite įvesties raginimą pirmajam LLM, kad sugeneruotų išvestį.
  2. Perduokite įvesties raginimą + sugeneruotą išvestį antrajam „vertintojui“ LLM.
  3. Užduokite vertintojui LLM klausimą, kad įvertintumėte produkcijos kokybę. pvz.: „Ar aukščiau pateiktas atsakymas yra logiškas?

Šis metodas yra greitai įgyvendinamas ir automatizuoja LLM vertinimą. Tačiau yra keletas iššūkių:

  • Veikimas labai priklauso nuo vertintojo LLM pasirinkimo ir greitos formuluotės.
  • Varžytas pradinės užduoties sunkumo. LLM vis dar sunku įvertinti sudėtingus samprotavimus.
  • Gali būti brangu, jei naudojami API pagrįsti LLM.

Savęs vertinimas yra ypač perspektyvus vertinant gautą informaciją RAG (papildyta paieška) sistemos. Papildomos LLM užklausos gali patvirtinti, ar gautas kontekstas naudojamas tinkamai.

Apskritai savęs vertinimas rodo potencialą, tačiau jį įgyvendinant reikia atsargumo. Ji papildo, o ne pakeičia žmogaus vertinimą.

Žmogaus vertinimas

Atsižvelgiant į automatinių metrikų ir etalonų apribojimus, žmogaus vertinimas vis dar yra auksinis standartas griežtai vertinant LLM kokybę.

Ekspertai gali pateikti išsamius kokybinius vertinimus:

  • Tikslumas ir faktų teisingumas
  • Logika, samprotavimai ir sveikas protas
  • Nuoseklumas, nuoseklumas ir skaitomumas
  • Tono, stiliaus ir balso tinkamumas
  • Gramatiškumas ir sklandumas
  • Kūrybiškumas ir niuansai

Norint įvertinti modelį, žmonėms pateikiamas įvesties raginimų rinkinys ir LLM sugeneruoti atsakymai. Jie vertina atsakymų kokybę, dažnai naudodami vertinimo skales ir rubrikas.

Neigiama yra tai, kad rankinis žmogaus vertinimas yra brangus, lėtas ir sunkiai keičiamas. Taip pat reikia sukurti standartizuotus kriterijus ir mokyti vertintojus, kad jie nuosekliai juos taikytų.

Kai kurie mokslininkai ištyrė kūrybingus būdus, kaip sutelkti žmonių LLM vertinimus, naudodami turnyro stiliaus sistemas, kuriose žmonės lažinasi ir vertina modelių atitikimą. Tačiau aprėptis vis dar yra ribota, palyginti su visais rankiniais vertinimais.

Verslo atvejais, kai kokybė svarbiau nei neapdorotas mastas, ekspertų atliekami žmogaus bandymai išlieka auksiniu standartu, nepaisant išlaidų. Tai ypač pasakytina apie rizikingesnes LLM programas.

Išvada

Norint kruopščiai įvertinti didelius kalbos modelius, reikia naudoti įvairius papildomus metodus, o ne pasikliauti kokia nors viena technika.

Derindami automatizuotus greičio nustatymo metodus su griežta žmogaus priežiūra siekiant tikslumo, galime sukurti patikimas didelių kalbų modelių testavimo metodikas. Atlikdami patikimą įvertinimą, galime atskleisti didžiulį LLM potencialą ir atsakingai valdyti jų riziką.

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.