Intelliġenza Artifiċjali
Evalwazzjoni ta' Mudelli ta' Lingwi Kbar: Gwida Teknika
Mudelli kbar tal-lingwa (LLMs) bħal GPT-4, Claude, u LLaMA splodew fil-popolarità. Grazzi għall-abbiltà tagħhom li jiġġeneraw test impressjonanti bħal uman, dawn is-sistemi AI issa qed jintużaw għal kollox mill-ħolqien tal-kontenut sa chatbots tas-servizz tal-konsumatur.
Imma kif nafu jekk dawn il-mudelli humiex fil-fatt tajbin? B'LLMs ġodda li qed jitħabbru kontinwament, kollha jsostnu li huma akbar u aħjar, kif nevalwaw u nqabblu l-prestazzjoni tagħhom?
F'din il-gwida komprensiva, aħna ser nesploraw l-aqwa tekniki għall-evalwazzjoni ta 'mudelli lingwistiċi kbar. Aħna ser inħarsu lejn il-vantaġġi u l-iżvantaġġi ta 'kull approċċ, meta jiġu applikati l-aħjar, u kif tista' tisfruttahom fl-ittestjar LLM tiegħek stess.
Metriċi Speċifiċi għall-Kompitu
Wieħed mill-aktar modi sempliċi biex jiġi evalwat LLM huwa li jiġi ttestjat fuq kompiti NLP stabbiliti bl-użu ta 'metriċi standardizzati. Pereżempju:
Sommarju
Għal kompiti ta' sommarju, metriċi bħal RED (Substudju Orjentat lejn Recall għall-Evalwazzjoni Gisting) huma komunement użati. ROUGE tqabbel is-sommarju ġġenerat mill-mudell ma 'sommarju ta' "referenza" miktub mill-bniedem, billi jgħodd il-koinċidenza ta 'kliem jew frażijiet.
Hemm diversi togħmiet ta’ ROUGE, kull wieħed bil-vantaġġi u l-iżvantaġġi tagħhom:
- ROUGE-N: Tqabbel il-koinċidenza ta' n-grammi (sekwenzi ta' N kelmiet). ROUGE-1 juża unigrammi (kliem wieħed), ROUGE-2 juża bigrams, eċċ. Il-vantaġġ huwa li jaqbad l-ordni tal-kliem, iżda jista 'jkun strett wisq.
- ROUGE-L: Ibbażat fuq l-itwal subsekwenza komuni (LCS). Aktar flessibbli fuq l-ordni tal-kliem iżda jiffoka fuq punti ewlenin.
- ROUGE-W: Weights LCS logħbiet bis-sinifikat tagħhom. Tentattivi biex jitjieb fuq ROUGE-L.
B'mod ġenerali, il-metriċi ROUGE huma veloċi, awtomatiċi, u jaħdmu tajjeb għas-sommarji tas-sistema tal-klassifikazzjoni. Madankollu, ma jkejlux il-koerenza jew it-tifsira. Sommarju jista 'jikseb punteġġ ROUGE għoli u xorta jkun bla sens.
Il-formula għal ROUGE-N hija:
ROUGE-N=∑∈{Sommarji ta’ Referenza}∑∑�∈{Sommarji ta’ Referenza}∑
fejn:
Count_{match}(gram_n)
huwa l-għadd ta' n-grammi kemm fis-sommarju ġġenerat kif ukoll ta' referenza.Count(gram_n)
huwa l-għadd ta' n-grammi fis-sommarju ta' referenza.
Pereżempju, għal ROUGE-1 (unigrammi):
- Sommarju ġġenerat: "Il-qattus qagħad."
- Sommarju ta’ referenza: “Il-qattus qagħad fuq it-tapit.”
- Unigrammi li jikkoinċidu: "Il-", "qattus", "sat"
- ROUGE-1 punteġġ = 3/5 = 0.6
ROUGE-L juża l-itwal subsekwenza komuni (LCS). Huwa aktar flessibbli bl-ordni tal-kliem. Il-formula hija:
ROUGE-L=���(ġenerat,referenza)max(tul(ġenerat), tul(referenza))
fejn LCS
huwa t-tul tal-itwal subsekwenza komuni.
ROUGE-W jiżen il-logħbiet LCS. Jikkunsidra s-sinifikat ta' kull partita fl-LCS.
Traduzzjoni
Għal kompiti ta' traduzzjoni awtomatika, Bleu (Bilingual Evaluation Understudy) hija metrika popolari. BLEU jkejjel ix-xebh bejn it-traduzzjoni tal-output tal-mudell u t-traduzzjonijiet umani professjonali, billi juża preċiżjoni n-gramma u penali għall-qosor.
Aspetti ewlenin ta' kif jaħdem il-BLEU:
- Tqabbel koinċidenza ta' n-grammi għal n sa 4 (unigrammi, bigrammi, trigrammi, 4-grammi).
- Jikkalkula medja ġeometrika tal-preċiżjoni n-gramma.
- Japplika penali għall-qosor jekk it-traduzzjoni tkun ħafna iqsar minn referenza.
- Ġeneralment tvarja minn 0 sa 1, b'1 tkun taqbila perfetta għal referenza.
BLEU jikkorrelata raġonevolment tajjeb mal-ġudizzji umani tal-kwalità tat-traduzzjoni. Iżda xorta għandha limitazzjonijiet:
- Jkejjel biss il-preċiżjoni kontra referenzi, mhux recall jew F1.
- Jiġġieled bi traduzzjonijiet kreattivi li juża kliem differenti.
- Suxxettibbli għal "logħob" bi tricks ta 'traduzzjoni.
Metriċi oħra tat-traduzzjoni bħal METEOR u TER jippruvaw itejbu d-dgħufijiet tal-BLEU. Iżda b'mod ġenerali, il-metriċi awtomatiċi ma jaqbdux għal kollox il-kwalità tat-traduzzjoni.
Kompiti Oħra
Minbarra s-sommarju u t-traduzzjoni, metriċi bħal F1, preċiżjoni, MSE, u aktar jistgħu jintużaw biex jevalwaw il-prestazzjoni tal-LLM fuq kompiti bħal:
- Klassifikazzjoni tat-test
- Estrazzjoni ta' informazzjoni
- Tweġiba għall-mistoqsija
- Analiżi tas-sentiment
- Sejbien ta' żbalji grammatikali
Il-vantaġġ ta 'metriċi speċifiċi għall-kompitu huwa li l-evalwazzjoni tista' tkun kompletament awtomatizzata bl-użu ta 'settijiet ta' data standardizzati bħal Skwadra għall-QA u kolla benchmark għal firxa ta’ kompiti. Ir-riżultati jistgħu faċilment jiġu ssorveljati maż-żmien hekk kif il-mudelli jitjiebu.
Madankollu, dawn il-metriċi huma ffukati b'mod dejjaq u ma jistgħux ikejlu l-kwalità ġenerali tal-lingwa. LLMs li jaħdmu tajjeb fuq metriċi għal kompitu wieħed jistgħu jonqsu milli jiġġeneraw test koerenti, loġiku u utli b'mod ġenerali.
Benchmarks tar-Riċerka
Mod popolari biex jiġu evalwati l-LLMs huwa li jiġu ttestjati kontra punti ta' riċerka fuq firxa wiesgħa li jkopru suġġetti u ħiliet diversi. Dawn il-benchmarks jippermettu li l-mudelli jiġu ttestjati malajr fuq skala.
Xi punti ta’ referenza magħrufa jinkludu:
- SuperGLUE – Sett ta’ sfida ta’ 11-il biċċa xogħol lingwistika differenti.
- kolla – Ġbir ta’ 9 kompiti ta’ fehim ta’ sentenzi. Aktar sempliċi minn SuperGLUE.
- MMLU – 57 biċċa xogħol differenti STEM, xjenzi soċjali, u umanistiċi. Jittestja l-għarfien u l-ħila tar-raġunament.
- Winograd Schema Challenge – Problemi ta’ riżoluzzjoni tal-pronomi li jeħtieġu raġunament tas-sens komun.
- ARC – Jisfida ħidmiet ta' raġunament bil-lingwa naturali.
- Hellaswag – Raġunar tas-sens komun dwar sitwazzjonijiet.
- PIQA – Mistoqsijiet tal-fiżika li jeħtieġu dijagrammi.
Billi jevalwaw fuq punti ta 'referenza bħal dawn, ir-riċerkaturi jistgħu jittestjaw mudelli malajr dwar il-kapaċità tagħhom li jwettqu matematika, loġika, raġunament, kodifikazzjoni, sens komun, u ħafna aktar. Il-perċentwal ta' mistoqsijiet imwieġba b'mod korrett isir metrika ta' referenza għat-tqabbil tal-mudelli.
Madankollu, kwistjoni ewlenija bil-benchmarks hija kontaminazzjoni tad-dejta tat-taħriġ. Bosta punti ta' referenza fihom eżempji li kienu diġà dehru mill-mudelli waqt it-taħriġ minn qabel. Dan jippermetti lill-mudelli li “memorizza” tweġibiet għal mistoqsijiet speċifiċi u jaħdmu aħjar mill-kapaċitajiet veri tagħhom.
Qed isiru tentattivi biex “dekontaminat” benchmarks billi jitneħħew eżempji li jikkoinċidu. Iżda dan huwa diffiċli biex isir b'mod komprensiv, speċjalment meta l-mudelli setgħu raw verżjonijiet parafrażi jew tradotti tal-mistoqsijiet.
Għalhekk, filwaqt li l-benchmarks jistgħu jittestjaw sett wiesa 'ta' ħiliet b'mod effiċjenti, ma jistgħux ikejlu b'mod affidabbli l-abbiltajiet ta 'raġunament reali jew jevitaw l-inflazzjoni tal-punteġġi minħabba l-kontaminazzjoni. Hemm bżonn ta' metodi ta' evalwazzjoni komplementari.
LLM Awto-Evalwazzjoni
Approċċ intriganti huwa li jkollu LLM jevalwa l-outputs ta 'LLM ieħor. L-idea hija li jiġi sfruttat il-kunċett tal-kompitu "aktar faċli":
- Il-produzzjoni ta' produzzjoni ta' kwalità għolja tista' tkun diffiċli għal LLM.
- Iżda li jiġi ddeterminat jekk output partikolari huwiex ta 'kwalità għolja jista' jkun kompitu aktar faċli.
Pereżempju, filwaqt li LLM jista' jitħabat biex jiġġenera paragrafu fattwali u koerenti mill-bidu, jista' jiġġudika aktar faċilment jekk paragrafu partikolari jagħmilx sens loġiku u jaqbel mal-kuntest.
Allura l-proċess huwa:
- Għaddi l-input fil-pront lill-ewwel LLM biex tiġġenera output.
- Għaddi l-input fil-pront + l-output iġġenerat lit-tieni "evalwatur" LLM.
- Staqsi lill-evalwatur LLM mistoqsija biex jevalwa l-kwalità tal-output. eż. “It-tweġiba ta’ hawn fuq tagħmel sens loġiku?”
Dan l-approċċ huwa mgħaġġel biex jimplimenta u awtomatizza l-evalwazzjoni tal-LLM. Iżda hemm xi sfidi:
- Il-prestazzjoni tiddependi ħafna fuq l-għażla tal-evalwatur LLM u l-kliem fil-pront.
- Ristrett minn diffikultà tal-kompitu oriġinali. L-evalwazzjoni tar-raġunament kumpless għadha diffiċli għal LLMs.
- Jista' jkun għali komputazzjoniment jekk tuża LLMs ibbażati fuq l-API.
L-awtovalutazzjoni hija speċjalment promettenti għall-valutazzjoni tal-informazzjoni rkuprata fi RAG (ġenerazzjoni miżjuda bl-irkupru) sistemi. Mistoqsijiet LLM addizzjonali jistgħu jivvalidaw jekk il-kuntest irkuprat jintużax b'mod xieraq.
B'mod ġenerali, l-awtovalutazzjoni turi potenzjal iżda teħtieġ kura fl-implimentazzjoni. Jikkumplimenta, aktar milli tissostitwixxi, l-evalwazzjoni umana.
Evalwazzjoni tal-Bniedem
Minħabba l-limitazzjonijiet tal-metriċi awtomatizzati u l-benchmarks, l-evalwazzjoni umana għadha l-istandard tad-deheb għall-valutazzjoni rigoruża tal-kwalità tal-LLM.
L-esperti jistgħu jipprovdu valutazzjonijiet kwalitattivi dettaljati dwar:
- Eżattezza u korrettezza fattwali
- Loġika, raġunament, u sens komun
- Koerenza, konsistenza u leġibbiltà
- L-adegwatezza tat-ton, l-istil u l-vuċi
- Grammatikalità u ħeffa
- Kreattività u sfumatura
Biex jiġi evalwat mudell, il-bnedmin jingħataw sett ta 'input prompts u r-risponsi ġġenerati mill-LLM. Huma jivvalutaw il-kwalità tat-tweġibiet, ħafna drabi jużaw skali ta' klassifikazzjoni u rubriki.
L-iżvantaġġ huwa li l-evalwazzjoni manwali tal-bniedem hija għalja, bil-mod, u diffiċli biex tiskala. Tirrikjedi wkoll l-iżvilupp ta' kriterji standardizzati u ta' taħriġ ta' raters biex japplikawhom b'mod konsistenti.
Xi riċerkaturi esploraw modi kreattivi biex jiffinanzjaw l-evalwazzjonijiet umani LLM permezz ta 'sistemi ta' stil ta 'tournament fejn in-nies imħatri fuq u jiġġudikaw tlaqqigħ bejn mudelli. Iżda l-kopertura għadha limitata meta mqabbla ma 'evalwazzjonijiet manwali sħaħ.
Għal każijiet ta 'użu tan-negozju fejn il-kwalità hija importanti aktar minn skala mhux maħduma, l-ittestjar uman espert jibqa' l-istandard tad-deheb minkejja l-ispejjeż tiegħu. Dan hu veru speċjalment għal applikazzjonijiet aktar riskjużi tal-LLMs.
konklużjoni
L-evalwazzjoni bir-reqqa tal-mudelli lingwistiċi kbar teħtieġ l-użu ta’ sett ta’ għodod differenti ta’ metodi kumplimentari, aktar milli tiddependi fuq kwalunkwe teknika waħda.
Billi ngħaqqdu approċċi awtomatizzati għall-ħeffa ma 'sorveljanza umana rigoruża għall-eżattezza, nistgħu niżviluppaw metodoloġiji ta' ttestjar affidabbli għal mudelli lingwistiċi kbar. B'evalwazzjoni robusta, nistgħu nisfruttaw il-potenzjal tremend tal-LLMs filwaqt li niġġestixxu r-riskji tagħhom b'mod responsabbli.