Intelliġenza Artifiċjali

Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika

ippubblikat

3 xhur ilu

Jannar 29, 2024

Evalwazzjoni ta' Mudelli Kbar tal-Lingwa

Mudelli kbar tal-lingwa (LLMs) bħal GPT-4, Claude, u LLaMA splodew fil-popolarità. Grazzi għall-abbiltà tagħhom li jiġġeneraw test impressjonanti bħal uman, dawn is-sistemi AI issa qed jintużaw għal kollox mill-ħolqien tal-kontenut sa chatbots tas-servizz tal-konsumatur.

Imma kif nafu jekk dawn il-mudelli humiex fil-fatt tajbin? B'LLMs ġodda li qed jitħabbru kontinwament, kollha jsostnu li huma akbar u aħjar, kif nevalwaw u nqabblu l-prestazzjoni tagħhom?

F'din il-gwida komprensiva, aħna ser nesploraw l-aqwa tekniki għall-evalwazzjoni ta 'mudelli lingwistiċi kbar. Aħna ser inħarsu lejn il-vantaġġi u l-iżvantaġġi ta 'kull approċċ, meta jiġu applikati l-aħjar, u kif tista' tisfruttahom fl-ittestjar LLM tiegħek stess.

Metriċi Speċifiċi għall-Kompitu

Wieħed mill-aktar modi sempliċi biex jiġi evalwat LLM huwa li jiġi ttestjat fuq kompiti NLP stabbiliti bl-użu ta 'metriċi standardizzati. Pereżempju:

Sommarju

Għal kompiti ta' sommarju, metriċi bħal RED (Substudju Orjentat lejn Recall għall-Evalwazzjoni Gisting) huma komunement użati. ROUGE tqabbel is-sommarju ġġenerat mill-mudell ma 'sommarju ta' "referenza" miktub mill-bniedem, billi jgħodd il-koinċidenza ta 'kliem jew frażijiet.

Hemm diversi togħmiet ta’ ROUGE, kull wieħed bil-vantaġġi u l-iżvantaġġi tagħhom:

ROUGE-N: Tqabbel il-koinċidenza ta' n-grammi (sekwenzi ta' N kelmiet). ROUGE-1 juża unigrammi (kliem wieħed), ROUGE-2 juża bigrams, eċċ. Il-vantaġġ huwa li jaqbad l-ordni tal-kliem, iżda jista 'jkun strett wisq.
ROUGE-L: Ibbażat fuq l-itwal subsekwenza komuni (LCS). Aktar flessibbli fuq l-ordni tal-kliem iżda jiffoka fuq punti ewlenin.
ROUGE-W: Weights LCS logħbiet bis-sinifikat tagħhom. Tentattivi biex jitjieb fuq ROUGE-L.

B'mod ġenerali, il-metriċi ROUGE huma veloċi, awtomatiċi, u jaħdmu tajjeb għas-sommarji tas-sistema tal-klassifikazzjoni. Madankollu, ma jkejlux il-koerenza jew it-tifsira. Sommarju jista 'jikseb punteġġ ROUGE għoli u xorta jkun bla sens.

Il-formula għal ROUGE-N hija:

$ROUGE-N = \sum ^{s \in {Sommarji ta' Referenza}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Sommarji ta' Referenza}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

fejn:

Count_{match}(gram_n) huwa l-għadd ta' n-grammi kemm fis-sommarju ġġenerat kif ukoll ta' referenza.
Count(gram_n) huwa l-għadd ta' n-grammi fis-sommarju ta' referenza.

Pereżempju, għal ROUGE-1 (unigrammi):

Sommarju ġġenerat: "Il-qattus qagħad."
Sommarju ta’ referenza: “Il-qattus qagħad fuq it-tapit.”
Unigrammi li jikkoinċidu: "Il-", "qattus", "sat"
ROUGE-1 punteġġ = 3/5 = 0.6

ROUGE-L juża l-itwal subsekwenza komuni (LCS). Huwa aktar flessibbli bl-ordni tal-kliem. Il-formula hija:

$ROUGE-L = max(tul(iġġenerat), tul(referenza)) L CS ( iġġenerat , referenza )$

fejn LCS huwa t-tul tal-itwal subsekwenza komuni.

ROUGE-W jiżen il-logħbiet LCS. Jikkunsidra s-sinifikat ta' kull partita fl-LCS.

Traduzzjoni

Għal kompiti ta' traduzzjoni awtomatika, Bleu (Bilingual Evaluation Understudy) hija metrika popolari. BLEU jkejjel ix-xebh bejn it-traduzzjoni tal-output tal-mudell u t-traduzzjonijiet umani professjonali, billi juża preċiżjoni n-gramma u penali għall-qosor.

Aspetti ewlenin ta' kif jaħdem il-BLEU:

Tqabbel koinċidenza ta' n-grammi għal n sa 4 (unigrammi, bigrammi, trigrammi, 4-grammi).
Jikkalkula medja ġeometrika tal-preċiżjoni n-gramma.
Japplika penali għall-qosor jekk it-traduzzjoni tkun ħafna iqsar minn referenza.
Ġeneralment tvarja minn 0 sa 1, b'1 tkun taqbila perfetta għal referenza.

BLEU jikkorrelata raġonevolment tajjeb mal-ġudizzji umani tal-kwalità tat-traduzzjoni. Iżda xorta għandha limitazzjonijiet:

Jkejjel biss il-preċiżjoni kontra referenzi, mhux recall jew F1.
Jiġġieled bi traduzzjonijiet kreattivi li juża kliem differenti.
Suxxettibbli għal "logħob" bi tricks ta 'traduzzjoni.

Metriċi oħra tat-traduzzjoni bħal METEOR u TER jippruvaw itejbu d-dgħufijiet tal-BLEU. Iżda b'mod ġenerali, il-metriċi awtomatiċi ma jaqbdux għal kollox il-kwalità tat-traduzzjoni.

Kompiti Oħra

Minbarra s-sommarju u t-traduzzjoni, metriċi bħal F1, preċiżjoni, MSE, u aktar jistgħu jintużaw biex jevalwaw il-prestazzjoni tal-LLM fuq kompiti bħal:

Klassifikazzjoni tat-test
Estrazzjoni ta' informazzjoni
Tweġiba għall-mistoqsija
Analiżi tas-sentiment
Sejbien ta' żbalji grammatikali

Il-vantaġġ ta 'metriċi speċifiċi għall-kompitu huwa li l-evalwazzjoni tista' tkun kompletament awtomatizzata bl-użu ta 'settijiet ta' data standardizzati bħal Skwadra għall-QA u kolla benchmark għal firxa ta’ kompiti. Ir-riżultati jistgħu faċilment jiġu ssorveljati maż-żmien hekk kif il-mudelli jitjiebu.

Madankollu, dawn il-metriċi huma ffukati b'mod dejjaq u ma jistgħux ikejlu l-kwalità ġenerali tal-lingwa. LLMs li jaħdmu tajjeb fuq metriċi għal kompitu wieħed jistgħu jonqsu milli jiġġeneraw test koerenti, loġiku u utli b'mod ġenerali.

Benchmarks tar-Riċerka

Mod popolari biex jiġu evalwati l-LLMs huwa li jiġu ttestjati kontra punti ta' riċerka fuq firxa wiesgħa li jkopru suġġetti u ħiliet diversi. Dawn il-benchmarks jippermettu li l-mudelli jiġu ttestjati malajr fuq skala.

Xi punti ta’ referenza magħrufa jinkludu:

SuperGLUE – Sett ta’ sfida ta’ 11-il biċċa xogħol lingwistika differenti.
kolla – Ġbir ta’ 9 kompiti ta’ fehim ta’ sentenzi. Aktar sempliċi minn SuperGLUE.
MMLU – 57 biċċa xogħol differenti STEM, xjenzi soċjali, u umanistiċi. Jittestja l-għarfien u l-ħila tar-raġunament.
Winograd Schema Challenge – Problemi ta’ riżoluzzjoni tal-pronomi li jeħtieġu raġunament tas-sens komun.
ARC – Jisfida ħidmiet ta' raġunament bil-lingwa naturali.
Hellaswag – Raġunar tas-sens komun dwar sitwazzjonijiet.
PIQA – Mistoqsijiet tal-fiżika li jeħtieġu dijagrammi.

Billi jevalwaw fuq punti ta 'referenza bħal dawn, ir-riċerkaturi jistgħu jittestjaw mudelli malajr dwar il-kapaċità tagħhom li jwettqu matematika, loġika, raġunament, kodifikazzjoni, sens komun, u ħafna aktar. Il-perċentwal ta' mistoqsijiet imwieġba b'mod korrett isir metrika ta' referenza għat-tqabbil tal-mudelli.

Madankollu, kwistjoni ewlenija bil-benchmarks hija kontaminazzjoni tad-dejta tat-taħriġ. Bosta punti ta' referenza fihom eżempji li kienu diġà dehru mill-mudelli waqt it-taħriġ minn qabel. Dan jippermetti lill-mudelli li “memorizza” tweġibiet għal mistoqsijiet speċifiċi u jaħdmu aħjar mill-kapaċitajiet veri tagħhom.

Qed isiru tentattivi biex “dekontaminat” benchmarks billi jitneħħew eżempji li jikkoinċidu. Iżda dan huwa diffiċli biex isir b'mod komprensiv, speċjalment meta l-mudelli setgħu raw verżjonijiet parafrażi jew tradotti tal-mistoqsijiet.

Għalhekk, filwaqt li l-benchmarks jistgħu jittestjaw sett wiesa 'ta' ħiliet b'mod effiċjenti, ma jistgħux ikejlu b'mod affidabbli l-abbiltajiet ta 'raġunament reali jew jevitaw l-inflazzjoni tal-punteġġi minħabba l-kontaminazzjoni. Hemm bżonn ta' metodi ta' evalwazzjoni komplementari.

LLM Awto-Evalwazzjoni

Approċċ intriganti huwa li jkollu LLM jevalwa l-outputs ta 'LLM ieħor. L-idea hija li jiġi sfruttat il-kunċett tal-kompitu "aktar faċli":

Il-produzzjoni ta' produzzjoni ta' kwalità għolja tista' tkun diffiċli għal LLM.
Iżda li jiġi ddeterminat jekk output partikolari huwiex ta 'kwalità għolja jista' jkun kompitu aktar faċli.

Pereżempju, filwaqt li LLM jista' jitħabat biex jiġġenera paragrafu fattwali u koerenti mill-bidu, jista' jiġġudika aktar faċilment jekk paragrafu partikolari jagħmilx sens loġiku u jaqbel mal-kuntest.

Allura l-proċess huwa:

Għaddi l-input fil-pront lill-ewwel LLM biex tiġġenera output.
Għaddi l-input fil-pront + l-output iġġenerat lit-tieni "evalwatur" LLM.
Staqsi lill-evalwatur LLM mistoqsija biex jevalwa l-kwalità tal-output. eż. “It-tweġiba ta’ hawn fuq tagħmel sens loġiku?”

Dan l-approċċ huwa mgħaġġel biex jimplimenta u awtomatizza l-evalwazzjoni tal-LLM. Iżda hemm xi sfidi:

Il-prestazzjoni tiddependi ħafna fuq l-għażla tal-evalwatur LLM u l-kliem fil-pront.
Ristrett minn diffikultà tal-kompitu oriġinali. L-evalwazzjoni tar-raġunament kumpless għadha diffiċli għal LLMs.
Jista' jkun għali komputazzjoniment jekk tuża LLMs ibbażati fuq l-API.

L-awtovalutazzjoni hija speċjalment promettenti għall-valutazzjoni tal-informazzjoni rkuprata fi RAG (ġenerazzjoni miżjuda bl-irkupru) sistemi. Mistoqsijiet LLM addizzjonali jistgħu jivvalidaw jekk il-kuntest irkuprat jintużax b'mod xieraq.

B'mod ġenerali, l-awtovalutazzjoni turi potenzjal iżda teħtieġ kura fl-implimentazzjoni. Jikkumplimenta, aktar milli tissostitwixxi, l-evalwazzjoni umana.

Evalwazzjoni tal-Bniedem

Minħabba l-limitazzjonijiet tal-metriċi awtomatizzati u l-benchmarks, l-evalwazzjoni umana għadha l-istandard tad-deheb għall-valutazzjoni rigoruża tal-kwalità tal-LLM.

L-esperti jistgħu jipprovdu valutazzjonijiet kwalitattivi dettaljati dwar:

Eżattezza u korrettezza fattwali
Loġika, raġunament, u sens komun
Koerenza, konsistenza u leġibbiltà
L-adegwatezza tat-ton, l-istil u l-vuċi
Grammatikalità u ħeffa
Kreattività u sfumatura

Biex jiġi evalwat mudell, il-bnedmin jingħataw sett ta 'input prompts u r-risponsi ġġenerati mill-LLM. Huma jivvalutaw il-kwalità tat-tweġibiet, ħafna drabi jużaw skali ta' klassifikazzjoni u rubriki.

L-iżvantaġġ huwa li l-evalwazzjoni manwali tal-bniedem hija għalja, bil-mod, u diffiċli biex tiskala. Tirrikjedi wkoll l-iżvilupp ta' kriterji standardizzati u ta' taħriġ ta' raters biex japplikawhom b'mod konsistenti.

Xi riċerkaturi esploraw modi kreattivi biex jiffinanzjaw l-evalwazzjonijiet umani LLM permezz ta 'sistemi ta' stil ta 'tournament fejn in-nies imħatri fuq u jiġġudikaw tlaqqigħ bejn mudelli. Iżda l-kopertura għadha limitata meta mqabbla ma 'evalwazzjonijiet manwali sħaħ.

Għal każijiet ta 'użu tan-negozju fejn il-kwalità hija importanti aktar minn skala mhux maħduma, l-ittestjar uman espert jibqa' l-istandard tad-deheb minkejja l-ispejjeż tiegħu. Dan hu veru speċjalment għal applikazzjonijiet aktar riskjużi tal-LLMs.

konklużjoni

L-evalwazzjoni bir-reqqa tal-mudelli lingwistiċi kbar teħtieġ l-użu ta’ sett ta’ għodod differenti ta’ metodi kumplimentari, aktar milli tiddependi fuq kwalunkwe teknika waħda.

Billi ngħaqqdu approċċi awtomatizzati għall-ħeffa ma 'sorveljanza umana rigoruża għall-eżattezza, nistgħu niżviluppaw metodoloġiji ta' ttestjar affidabbli għal mudelli lingwistiċi kbar. B'evalwazzjoni robusta, nistgħu nisfruttaw il-potenzjal tremend tal-LLMs filwaqt li niġġestixxu r-riskji tagħhom b'mod responsabbli.

Suġġetti Relatati:AI GPT Llama metriċi

Sa jmiss

Navigazzjoni fl-Era ta' Misinformazzjoni: Il-Każ għal AI Ġenerattiva Iċċentrata fuq id-Data

M'għandekx Miss

Il-Futur ta 'Inferenza Serverless għal Mudelli ta' Lingwi Kbar

Aayush Mittal

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.

Unite.AI

Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika

Intelliġenza Artifiċjali

Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika

Tabella tal-kontenut