stub Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika

mm

ippubblikat

 on

Evalwazzjoni ta' Mudelli Kbar tal-Lingwa

Mudelli kbar tal-lingwa (LLMs) bħal GPT-4, Claude, u LLaMA splodew fil-popolarità. Grazzi għall-abbiltà tagħhom li jiġġeneraw test impressjonanti bħal uman, dawn is-sistemi AI issa qed jintużaw għal kollox mill-ħolqien tal-kontenut sa chatbots tas-servizz tal-konsumatur.

Imma kif nafu jekk dawn il-mudelli humiex fil-fatt tajbin? B'LLMs ġodda li qed jitħabbru kontinwament, kollha jsostnu li huma akbar u aħjar, kif nevalwaw u nqabblu l-prestazzjoni tagħhom?

F'din il-gwida komprensiva, aħna ser nesploraw l-aqwa tekniki għall-evalwazzjoni ta 'mudelli lingwistiċi kbar. Aħna ser inħarsu lejn il-vantaġġi u l-iżvantaġġi ta 'kull approċċ, meta jiġu applikati l-aħjar, u kif tista' tisfruttahom fl-ittestjar LLM tiegħek stess.

Metriċi Speċifiċi għall-Kompitu

Wieħed mill-aktar modi sempliċi biex jiġi evalwat LLM huwa li jiġi ttestjat fuq kompiti NLP stabbiliti bl-użu ta 'metriċi standardizzati. Pereżempju:

Sommarju

Għal kompiti ta' sommarju, metriċi bħal RED (Substudju Orjentat lejn Recall għall-Evalwazzjoni Gisting) huma komunement użati. ROUGE tqabbel is-sommarju ġġenerat mill-mudell ma 'sommarju ta' "referenza" miktub mill-bniedem, billi jgħodd il-koinċidenza ta 'kliem jew frażijiet.

Hemm diversi togħmiet ta’ ROUGE, kull wieħed bil-vantaġġi u l-iżvantaġġi tagħhom:

  • ROUGE-N: Tqabbel il-koinċidenza ta' n-grammi (sekwenzi ta' N kelmiet). ROUGE-1 juża unigrammi (kliem wieħed), ROUGE-2 juża bigrams, eċċ. Il-vantaġġ huwa li jaqbad l-ordni tal-kliem, iżda jista 'jkun strett wisq.
  • ROUGE-L: Ibbażat fuq l-itwal subsekwenza komuni (LCS). Aktar flessibbli fuq l-ordni tal-kliem iżda jiffoka fuq punti ewlenin.
  • ROUGE-W: Weights LCS logħbiet bis-sinifikat tagħhom. Tentattivi biex jitjieb fuq ROUGE-L.

B'mod ġenerali, il-metriċi ROUGE huma veloċi, awtomatiċi, u jaħdmu tajjeb għas-sommarji tas-sistema tal-klassifikazzjoni. Madankollu, ma jkejlux il-koerenza jew it-tifsira. Sommarju jista 'jikseb punteġġ ROUGE għoli u xorta jkun bla sens.

Il-formula għal ROUGE-N hija:

ROUGE-N=∑∈{Sommarji ta’ Referenza}∑∑�∈{Sommarji ta’ Referenza}∑

fejn:

  • Count_{match}(gram_n) huwa l-għadd ta' n-grammi kemm fis-sommarju ġġenerat kif ukoll ta' referenza.
  • Count(gram_n) huwa l-għadd ta' n-grammi fis-sommarju ta' referenza.

Pereżempju, għal ROUGE-1 (unigrammi):

  • Sommarju ġġenerat: "Il-qattus qagħad."
  • Sommarju ta’ referenza: “Il-qattus qagħad fuq it-tapit.”
  • Unigrammi li jikkoinċidu: "Il-", "qattus", "sat"
  • ROUGE-1 punteġġ = 3/5 = 0.6

ROUGE-L juża l-itwal subsekwenza komuni (LCS). Huwa aktar flessibbli bl-ordni tal-kliem. Il-formula hija:

ROUGE-L=���(ġenerat,referenza)max(tul(ġenerat), tul(referenza))

fejn LCS huwa t-tul tal-itwal subsekwenza komuni.

ROUGE-W jiżen il-logħbiet LCS. Jikkunsidra s-sinifikat ta' kull partita fl-LCS.

Traduzzjoni

Għal kompiti ta' traduzzjoni awtomatika, Bleu (Bilingual Evaluation Understudy) hija metrika popolari. BLEU jkejjel ix-xebh bejn it-traduzzjoni tal-output tal-mudell u t-traduzzjonijiet umani professjonali, billi juża preċiżjoni n-gramma u penali għall-qosor.

Aspetti ewlenin ta' kif jaħdem il-BLEU:

  • Tqabbel koinċidenza ta' n-grammi għal n sa 4 (unigrammi, bigrammi, trigrammi, 4-grammi).
  • Jikkalkula medja ġeometrika tal-preċiżjoni n-gramma.
  • Japplika penali għall-qosor jekk it-traduzzjoni tkun ħafna iqsar minn referenza.
  • Ġeneralment tvarja minn 0 sa 1, b'1 tkun taqbila perfetta għal referenza.

BLEU jikkorrelata raġonevolment tajjeb mal-ġudizzji umani tal-kwalità tat-traduzzjoni. Iżda xorta għandha limitazzjonijiet:

  • Jkejjel biss il-preċiżjoni kontra referenzi, mhux recall jew F1.
  • Jiġġieled bi traduzzjonijiet kreattivi li juża kliem differenti.
  • Suxxettibbli għal "logħob" bi tricks ta 'traduzzjoni.

Metriċi oħra tat-traduzzjoni bħal METEOR u TER jippruvaw itejbu d-dgħufijiet tal-BLEU. Iżda b'mod ġenerali, il-metriċi awtomatiċi ma jaqbdux għal kollox il-kwalità tat-traduzzjoni.

Kompiti Oħra

Minbarra s-sommarju u t-traduzzjoni, metriċi bħal F1, preċiżjoni, MSE, u aktar jistgħu jintużaw biex jevalwaw il-prestazzjoni tal-LLM fuq kompiti bħal:

  • Klassifikazzjoni tat-test
  • Estrazzjoni ta' informazzjoni
  • Tweġiba għall-mistoqsija
  • Analiżi tas-sentiment
  • Sejbien ta' żbalji grammatikali

Il-vantaġġ ta 'metriċi speċifiċi għall-kompitu huwa li l-evalwazzjoni tista' tkun kompletament awtomatizzata bl-użu ta 'settijiet ta' data standardizzati bħal Skwadra għall-QA u kolla benchmark għal firxa ta’ kompiti. Ir-riżultati jistgħu faċilment jiġu ssorveljati maż-żmien hekk kif il-mudelli jitjiebu.

Madankollu, dawn il-metriċi huma ffukati b'mod dejjaq u ma jistgħux ikejlu l-kwalità ġenerali tal-lingwa. LLMs li jaħdmu tajjeb fuq metriċi għal kompitu wieħed jistgħu jonqsu milli jiġġeneraw test koerenti, loġiku u utli b'mod ġenerali.

Benchmarks tar-Riċerka

Mod popolari biex jiġu evalwati l-LLMs huwa li jiġu ttestjati kontra punti ta' riċerka fuq firxa wiesgħa li jkopru suġġetti u ħiliet diversi. Dawn il-benchmarks jippermettu li l-mudelli jiġu ttestjati malajr fuq skala.

Xi punti ta’ referenza magħrufa jinkludu:

  • SuperGLUE – Sett ta’ sfida ta’ 11-il biċċa xogħol lingwistika differenti.
  • kolla – Ġbir ta’ 9 kompiti ta’ fehim ta’ sentenzi. Aktar sempliċi minn SuperGLUE.
  • MMLU – 57 biċċa xogħol differenti STEM, xjenzi soċjali, u umanistiċi. Jittestja l-għarfien u l-ħila tar-raġunament.
  • Winograd Schema Challenge – Problemi ta’ riżoluzzjoni tal-pronomi li jeħtieġu raġunament tas-sens komun.
  • ARC – Jisfida ħidmiet ta' raġunament bil-lingwa naturali.
  • Hellaswag – Raġunar tas-sens komun dwar sitwazzjonijiet.
  • PIQA – Mistoqsijiet tal-fiżika li jeħtieġu dijagrammi.

Billi jevalwaw fuq punti ta 'referenza bħal dawn, ir-riċerkaturi jistgħu jittestjaw mudelli malajr dwar il-kapaċità tagħhom li jwettqu matematika, loġika, raġunament, kodifikazzjoni, sens komun, u ħafna aktar. Il-perċentwal ta' mistoqsijiet imwieġba b'mod korrett isir metrika ta' referenza għat-tqabbil tal-mudelli.

Madankollu, kwistjoni ewlenija bil-benchmarks hija kontaminazzjoni tad-dejta tat-taħriġ. Bosta punti ta' referenza fihom eżempji li kienu diġà dehru mill-mudelli waqt it-taħriġ minn qabel. Dan jippermetti lill-mudelli li “memorizza” tweġibiet għal mistoqsijiet speċifiċi u jaħdmu aħjar mill-kapaċitajiet veri tagħhom.

Qed isiru tentattivi biex “dekontaminat” benchmarks billi jitneħħew eżempji li jikkoinċidu. Iżda dan huwa diffiċli biex isir b'mod komprensiv, speċjalment meta l-mudelli setgħu raw verżjonijiet parafrażi jew tradotti tal-mistoqsijiet.

Għalhekk, filwaqt li l-benchmarks jistgħu jittestjaw sett wiesa 'ta' ħiliet b'mod effiċjenti, ma jistgħux ikejlu b'mod affidabbli l-abbiltajiet ta 'raġunament reali jew jevitaw l-inflazzjoni tal-punteġġi minħabba l-kontaminazzjoni. Hemm bżonn ta' metodi ta' evalwazzjoni komplementari.

LLM Awto-Evalwazzjoni

Approċċ intriganti huwa li jkollu LLM jevalwa l-outputs ta 'LLM ieħor. L-idea hija li jiġi sfruttat il-kunċett tal-kompitu "aktar faċli":

  • Il-produzzjoni ta' produzzjoni ta' kwalità għolja tista' tkun diffiċli għal LLM.
  • Iżda li jiġi ddeterminat jekk output partikolari huwiex ta 'kwalità għolja jista' jkun kompitu aktar faċli.

Pereżempju, filwaqt li LLM jista' jitħabat biex jiġġenera paragrafu fattwali u koerenti mill-bidu, jista' jiġġudika aktar faċilment jekk paragrafu partikolari jagħmilx sens loġiku u jaqbel mal-kuntest.

Allura l-proċess huwa:

  1. Għaddi l-input fil-pront lill-ewwel LLM biex tiġġenera output.
  2. Għaddi l-input fil-pront + l-output iġġenerat lit-tieni "evalwatur" LLM.
  3. Staqsi lill-evalwatur LLM mistoqsija biex jevalwa l-kwalità tal-output. eż. “It-tweġiba ta’ hawn fuq tagħmel sens loġiku?”

Dan l-approċċ huwa mgħaġġel biex jimplimenta u awtomatizza l-evalwazzjoni tal-LLM. Iżda hemm xi sfidi:

  • Il-prestazzjoni tiddependi ħafna fuq l-għażla tal-evalwatur LLM u l-kliem fil-pront.
  • Ristrett minn diffikultà tal-kompitu oriġinali. L-evalwazzjoni tar-raġunament kumpless għadha diffiċli għal LLMs.
  • Jista' jkun għali komputazzjoniment jekk tuża LLMs ibbażati fuq l-API.

L-awtovalutazzjoni hija speċjalment promettenti għall-valutazzjoni tal-informazzjoni rkuprata fi RAG (ġenerazzjoni miżjuda bl-irkupru) sistemi. Mistoqsijiet LLM addizzjonali jistgħu jivvalidaw jekk il-kuntest irkuprat jintużax b'mod xieraq.

B'mod ġenerali, l-awtovalutazzjoni turi potenzjal iżda teħtieġ kura fl-implimentazzjoni. Jikkumplimenta, aktar milli tissostitwixxi, l-evalwazzjoni umana.

Evalwazzjoni tal-Bniedem

Minħabba l-limitazzjonijiet tal-metriċi awtomatizzati u l-benchmarks, l-evalwazzjoni umana għadha l-istandard tad-deheb għall-valutazzjoni rigoruża tal-kwalità tal-LLM.

L-esperti jistgħu jipprovdu valutazzjonijiet kwalitattivi dettaljati dwar:

  • Eżattezza u korrettezza fattwali
  • Loġika, raġunament, u sens komun
  • Koerenza, konsistenza u leġibbiltà
  • L-adegwatezza tat-ton, l-istil u l-vuċi
  • Grammatikalità u ħeffa
  • Kreattività u sfumatura

Biex jiġi evalwat mudell, il-bnedmin jingħataw sett ta 'input prompts u r-risponsi ġġenerati mill-LLM. Huma jivvalutaw il-kwalità tat-tweġibiet, ħafna drabi jużaw skali ta' klassifikazzjoni u rubriki.

L-iżvantaġġ huwa li l-evalwazzjoni manwali tal-bniedem hija għalja, bil-mod, u diffiċli biex tiskala. Tirrikjedi wkoll l-iżvilupp ta' kriterji standardizzati u ta' taħriġ ta' raters biex japplikawhom b'mod konsistenti.

Xi riċerkaturi esploraw modi kreattivi biex jiffinanzjaw l-evalwazzjonijiet umani LLM permezz ta 'sistemi ta' stil ta 'tournament fejn in-nies imħatri fuq u jiġġudikaw tlaqqigħ bejn mudelli. Iżda l-kopertura għadha limitata meta mqabbla ma 'evalwazzjonijiet manwali sħaħ.

Għal każijiet ta 'użu tan-negozju fejn il-kwalità hija importanti aktar minn skala mhux maħduma, l-ittestjar uman espert jibqa' l-istandard tad-deheb minkejja l-ispejjeż tiegħu. Dan hu veru speċjalment għal applikazzjonijiet aktar riskjużi tal-LLMs.

konklużjoni

L-evalwazzjoni bir-reqqa tal-mudelli lingwistiċi kbar teħtieġ l-użu ta’ sett ta’ għodod differenti ta’ metodi kumplimentari, aktar milli tiddependi fuq kwalunkwe teknika waħda.

Billi ngħaqqdu approċċi awtomatizzati għall-ħeffa ma 'sorveljanza umana rigoruża għall-eżattezza, nistgħu niżviluppaw metodoloġiji ta' ttestjar affidabbli għal mudelli lingwistiċi kbar. B'evalwazzjoni robusta, nistgħu nisfruttaw il-potenzjal tremend tal-LLMs filwaqt li niġġestixxu r-riskji tagħhom b'mod responsabbli.

Għamilt l-aħħar ħames snin ngħaddas ruħi fid-dinja affaxxinanti tal-Machine Learning u t-Tagħlim Profond. Il-passjoni u l-kompetenza tiegħi wassluni biex nikkontribwixxi għal aktar minn 50 proġett ta' inġinerija tas-softwer differenti, b'fokus partikolari fuq AI/ML. Il-kurżità kontinwa tiegħi ġibditni wkoll lejn Natural Language Processing, qasam li jien ħerqan li nesplora aktar.