škrbina Ocenjevanje velikih jezikovnih modelov: Tehnični vodnik – Unite.AI
Povežite se z nami

Umetna inteligenca

Ocenjevanje velikih jezikovnih modelov: Tehnični vodnik

mm

objavljeno

 on

Ocenjevanje velikih jezikovnih modelov

Veliki jezikovni modeli (LLM), kot so GPT-4, Claude in LLaMA, so eksplodirali v priljubljenosti. Zahvaljujoč njihovi zmožnosti ustvarjanja besedila, ki je osupljivo človeško, se ti sistemi AI zdaj uporabljajo za vse, od ustvarjanja vsebine do klepetalnih robotov za pomoč strankam.

Toda kako vemo, ali so ti modeli dejansko dobri? Ker se nenehno objavljajo novi LLM-ji, vsi trdijo, da so večji in boljši, kako ocenimo in primerjamo njihovo uspešnost?

V tem obsežnem vodniku bomo raziskali najboljše tehnike za ocenjevanje velikih jezikovnih modelov. Ogledali si bomo prednosti in slabosti vsakega pristopa, kdaj jih je najbolje uporabiti in kako jih lahko izkoristite pri lastnem LLM testiranju.

Meritve, specifične za nalogo

Eden najpreprostejših načinov za ocenjevanje LLM je testiranje na uveljavljenih nalogah NLP z uporabo standardiziranih meritev. Na primer:

Povzetek

Za naloge povzemanja so metrike, kot je RED (Recall-Oriented Understudy for Gisting Evaluation) se običajno uporabljajo. ROUGE primerja povzetek, ustvarjen z modelom, z "referenčnim" povzetkom, ki ga je napisal človek, pri čemer šteje prekrivanje besed ali besednih zvez.

Obstaja več okusov ROUGE, od katerih ima vsak svoje prednosti in slabosti:

  • ROUGE-N: Primerja prekrivanje n-gramov (zaporedij N besed). ROUGE-1 uporablja unigrame (enotne besede), ROUGE-2 uporablja bigrame itd. Prednost je, da zajame besedni red, vendar je lahko prestrog.
  • ROUGE-L: Na podlagi najdaljšega skupnega podzaporedja (LCS). Bolj prilagodljiv glede besednega reda, vendar se osredotoča na glavne točke.
  • ROUGE-W: Uteži LCS se ujemajo po pomembnosti. Poskusi izboljšanja ROUGE-L.

Na splošno so meritve ROUGE hitre, samodejne in dobro delujejo pri razvrščanju sistemskih povzetkov. Vendar pa ne merijo skladnosti ali pomena. Povzetek bi lahko dobil visoko oceno ROUGE in bil še vedno nesmiseln.

Formula za ROUGE-N je:

ROUGE-N=∑∈{Povzetki referenc}∑∑�∈{Povzetki referenc}∑

Kje:

  • Count_{match}(gram_n) je število n-gramov v ustvarjenem in referenčnem povzetku.
  • Count(gram_n) je število n-gramov v referenčnem povzetku.

Na primer za ROUGE-1 (unigrami):

  • Ustvarjen povzetek: "Mačka je sedela."
  • Referenčni povzetek: "Mačka je sedela na preprogi."
  • Prekrivajoči se unigrami: "The", "cat", "sat"
  • Ocena ROUGE-1 = 3/5 = 0.6

ROUGE-L uporablja najdaljše skupno podzaporedje (LCS). Pri vrstnem redu besed je bolj prilagodljiv. Formula je:

ROUGE-L=���(generirano,referenca)max(dolžina(generirano), dolžina(referenca))

Kje LCS je dolžina najdaljšega skupnega podzaporedja.

ROUGE-W uteži LCS se ujemajo. Upošteva pomen vsake tekme v LCS.

prevod

Za naloge strojnega prevajanja, BLUE (Bilingual Evaluation Understudy) je priljubljena metrika. BLEU meri podobnost med izhodnim prevodom modela in profesionalnimi človeškimi prevodi z uporabo n-gramske natančnosti in kazni za kratkost.

Ključni vidiki delovanja BLEU:

  • Primerja prekrivanja n-gramov za n do 4 (unigrami, bigrami, trigrami, 4-grami).
  • Izračuna geometrično sredino natančnosti n-gramov.
  • Uporabi kazen za kratkost, če je prevod veliko krajši od reference.
  • Na splošno se giblje od 0 do 1, pri čemer je 1 popolno ujemanje z referenco.

BLEU se dokaj dobro ujema s človeško presojo kakovosti prevoda. Vendar ima še vedno omejitve:

  • Meri samo natančnost glede na reference, ne pa priklic ali F1.
  • Muči se z ustvarjalnimi prevodi, ki uporabljajo drugačno besedilo.
  • Dovzeten za "igranje" s prevajalskimi triki.

Druge prevodne metrike, kot sta METEOR in TER, poskušajo izboljšati slabosti BLEU. Toda na splošno samodejne meritve ne zajamejo v celoti kakovosti prevoda.

Druge naloge

Poleg povzemanja in prevajanja je mogoče uporabiti meritve, kot so F1, natančnost, MSE in druge, za ocenjevanje uspešnosti LLM pri nalogah, kot so:

  • Razvrstitev besedila
  • Pridobivanje informacij
  • Odgovarjanje na vprašanje
  • Analiza občutka
  • Odkrivanje slovničnih napak

Prednost metrik, specifičnih za nalogo, je, da je vrednotenje mogoče popolnoma avtomatizirati z uporabo standardiziranih naborov podatkov, kot je SQUAD za QA in LEPILO merilo uspešnosti za vrsto nalog. Rezultate je mogoče zlahka spremljati skozi čas, ko se modeli izboljšujejo.

Vendar so te meritve ozko usmerjene in ne morejo izmeriti splošne kakovosti jezika. LLM-ji, ki se dobro obnesejo pri meritvah za posamezno nalogo, morda ne bodo uspeli ustvariti skladnega, logičnega in koristnega besedila na splošno.

Raziskovalna merila

Priljubljen način ocenjevanja magistrskih študijev je, da jih preizkusite glede na obsežna merila uspešnosti raziskav, ki pokrivajo različne teme in spretnosti. Ta merila uspešnosti omogočajo hitro testiranje modelov v velikem obsegu.

Nekatera dobro znana merila uspešnosti vključujejo:

  • Super lepilo – Zahteven sklop 11 raznolikih jezikovnih nalog.
  • LEPILO – Zbirka 9 nalog za razumevanje povedi. Enostavneje kot SuperGLUE.
  • MMLU – 57 različnih STEM, družboslovnih in humanističnih nalog. Preizkuša znanje in sposobnost sklepanja.
  • Winograd Schema Challenge – Težave z razreševanjem zaimkov, ki zahtevajo zdravorazumsko razmišljanje.
  • ARC – Zahtevne naloge sklepanja v naravnem jeziku.
  • Hellaswag – Zdravorazumsko razmišljanje o situacijah.
  • PIQA – Fizikalna vprašanja, ki zahtevajo diagrame.

Z ocenjevanjem na podlagi takšnih meril uspešnosti lahko raziskovalci hitro preizkusijo modele glede njihove sposobnosti izvajanja matematike, logike, sklepanja, kodiranja, zdravega razuma in še veliko več. Odstotek pravilno odgovorjenih vprašanj postane merilo uspešnosti za primerjavo modelov.

Vendar je velika težava z merili uspešnosti kontaminacija podatkov o usposabljanju. Veliko meril uspešnosti vsebuje primere, ki so jih modeli že videli med predhodnim usposabljanjem. To omogoča modelom, dazapomniti si” odgovori na določena vprašanja in delujejo bolje od svojih resničnih zmožnosti.

Poskusi so "dekontaminirati” primerjalne vrednosti z odstranitvijo prekrivajočih se primerov. Toda to je zahtevno narediti celovito, zlasti če so modeli morda videli parafrazirane ali prevedene različice vprašanj.

Čeprav lahko z merili uspešnosti učinkovito preizkusijo širok nabor spretnosti, ne morejo zanesljivo izmeriti resničnih sposobnosti sklepanja ali se izogniti zvišanju rezultatov zaradi kontaminacije. Potrebne so dopolnilne metode vrednotenja.

LLM Samoevalvacija

Zanimiv pristop je, da LLM oceni rezultate drugega LLM. Ideja je izkoristiti koncept »lažje« naloge:

  • Izdelava visokokakovostnega izpisa je lahko težavna za LLM.
  • Toda ugotavljanje, ali je določen rezultat visokokakovosten, je lahko lažja naloga.

Na primer, medtem ko se LLM morda trudi ustvariti dejanski, skladen odstavek iz nič, lahko lažje presodi, ali je dani odstavek logično smiseln in ustreza kontekstu.

Postopek je torej:

  1. Prenesite poziv za vnos prvemu LLM za ustvarjanje izhoda.
  2. Predaj poziv za vnos + ustvarjen izhod drugemu »ocenjevalcu« LLM.
  3. Ocenjevalcu LLM zastavite vprašanje za oceno kakovosti izhoda. npr. "Ali je zgornji odgovor logičen?"

Ta pristop je hiter za implementacijo in avtomatizira vrednotenje LLM. Vendar obstaja nekaj izzivov:

  • Uspešnost je močno odvisna od izbire ocenjevalca LLM in hitrega besedila.
  • Omejen zaradi težavnosti izvirne naloge. Ocenjevanje zapletenega razmišljanja je za LLM še vedno težko.
  • Lahko je računsko drago, če uporabljate LLM, ki temeljijo na API-ju.

Samoevalvacija je še posebej obetavna za ocenjevanje pridobljenih informacij v RAG (generacija s povečano pridobitvijo) sistemi. Dodatne poizvedbe LLM lahko preverijo, ali je pridobljeni kontekst pravilno uporabljen.

Na splošno samoevalvacija kaže potencial, vendar zahteva previdnost pri izvajanju. Človeško vrednotenje dopolnjuje in ne nadomešča.

Človeško vrednotenje

Glede na omejitve avtomatiziranih meritev in meril je človeško ocenjevanje še vedno zlati standard za strogo ocenjevanje kakovosti LLM.

Strokovnjaki lahko zagotovijo podrobne kvalitativne ocene o:

  • Natančnost in dejanska pravilnost
  • Logika, razmišljanje in zdrav razum
  • Skladnost, doslednost in berljivost
  • Ustreznost tona, sloga in glasu
  • Slovničnost in tekočnost
  • Kreativnost in nianse

Za ovrednotenje modela ljudje dobijo nabor vnosnih pozivov in odzivov, ki jih ustvari LLM. Ocenjujejo kakovost odgovorov, pogosto z uporabo ocenjevalnih lestvic in rubrik.

Slaba stran je, da je ročno človeško vrednotenje drago, počasno in ga je težko meriti. Prav tako zahteva razvoj standardiziranih meril in usposabljanje ocenjevalcev za njihovo dosledno uporabo.

Nekateri raziskovalci so raziskovali kreativne načine za množično financiranje človeških LLM vrednotenj z uporabo sistemov v slogu turnirjev, kjer ljudje stavijo in presojajo tekme med modeli. Vendar je pokritost še vedno omejena v primerjavi s popolnimi ročnimi vrednotenji.

Za primere poslovne uporabe, kjer je kakovost pomembnejša od surovega obsega, ostaja strokovno testiranje na ljudeh zlati standard kljub svojim stroškom. To še posebej velja za bolj tvegane aplikacije LLM.

zaključek

Temeljito vrednotenje velikih jezikovnih modelov zahteva uporabo raznolikega nabora orodij komplementarnih metod namesto zanašanja na katero koli posamezno tehniko.

S kombiniranjem avtomatiziranih pristopov za hitrost s strogim človeškim nadzorom za natančnost lahko razvijemo zaupanja vredne metodologije testiranja za velike jezikovne modele. Z zanesljivim vrednotenjem lahko sprostimo ogromen potencial LLM-jev, hkrati pa odgovorno obvladujemo njihova tveganja.

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.