Tekoäly

Suurten kielimallien arviointi: Tekninen opas

Julkaistu

3 kuukautta sitten

Tammikuu 29, 2024

Suuret kielimallit (LLM), kuten GPT-4, Claude ja LLaMA, ovat kasvattaneet suosiotaan räjähdysmäisesti. Niiden kyvyn ansiosta luoda vaikuttavan ihmisen kaltaista tekstiä, näitä tekoälyjärjestelmiä käytetään nyt kaikkeen sisällön luomisesta asiakaspalvelun chatboteihin.

Mutta mistä tiedämme, ovatko nämä mallit todella hyviä? Kun uusia LLM-yrityksiä julkistetaan jatkuvasti ja kaikki väittävät olevansa suurempia ja parempia, miten arvioimme ja vertaamme heidän suorituskykyään?

Tässä kattavassa oppaassa tutkimme parhaita tekniikoita suurten kielimallien arvioimiseksi. Tarkastelemme kunkin lähestymistavan etuja ja haittoja, milloin niitä voidaan parhaiten soveltaa ja miten voit hyödyntää niitä omassa LLM-testauksessasi.

Tehtäväkohtaiset mittarit

Yksi yksinkertaisimmista tavoista arvioida LLM:ää on testata sitä vakiintuneilla NLP-tehtävillä käyttämällä standardoituja mittareita. Esimerkiksi:

yhteenvetoa

Yhteenvetotehtäviä varten mittareita, kuten RED (Recall-Oriented Understudy for Gisting Evaluation) käytetään yleisesti. ROUGE vertaa mallin luomaa yhteenvetoa ihmisen kirjoittamaan "viite" yhteenvetoon laskemalla sanojen tai lauseiden päällekkäisyydet.

ROUGEssa on useita makuja, joista jokaisella on omat hyvät ja huonot puolensa:

ROUGE-N: Vertaa n-grammien päällekkäisyyttä (N sanan sekvenssiä). ROUGE-1 käyttää unigrammeja (yksittäisiä sanoja), ROUGE-2 käyttää biggrammeja jne. Etuna on se, että se kaappaa sanajärjestyksen, mutta se voi olla liian tiukka.
ROUGE-L: Perustuu pisimpään yhteiseen osasekvenssiin (LCS). Joustavampi sanajärjestyksen suhteen, mutta keskittyy pääkohtiin.
ROUGE-W: Painot LCS vastaa niiden merkitystä. Yrittää parantaa ROUGE-L:ää.

Yleensä ROUGE-mittarit ovat nopeita, automaattisia ja toimivat hyvin järjestelmän yhteenvetojen luokittelussa. Ne eivät kuitenkaan mittaa johdonmukaisuutta tai merkitystä. Yhteenveto voi saada korkean ROUGE-pisteen ja olla silti järjetön.

ROUGE-N:n kaava on:

$ROUGE-N = Σ ^{s \in {Viiteyhteenvedot}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Viiteyhteenvedot}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Missä:

Count_{match}(gram_n) on n-grammien määrä sekä luodussa että viiteyhteenvedossa.
Count(gram_n) on n-grammien määrä viiteyhteenvedossa.

Esimerkiksi ROUGE-1 (unigrammit):

Luotu yhteenveto: "Kissa istui."
Viiteyhteenveto: "Kissa istui matolla."
Päällekkäiset unigrammit: "The", "kissa", "istui"
ROUGE-1 pisteet = 3/5 = 0.6

ROUGE-L käyttää pisintä yhteistä osasekvenssiä (LCS). Se on joustavampi sanajärjestyksen kanssa. Kaava on:

$ROUGE-L = max(pituus(luodettu), pituus(viite)) L CS ( syntyy , viite )$

Missä LCS on pisimmän yhteisen osasekvenssin pituus.

ROUGE-W painottaa LCS-otteluita. Se ottaa huomioon kunkin ottelun merkityksen LCS:ssä.

Kääntäminen

Konekäännöstehtäviä varten BLUE (Bilingual Evaluation Understudy) on suosittu mittari. BLEU mittaa mallin tulosteen käännöksen ja ammattimaisten ihmisten käännösten välistä samankaltaisuutta käyttämällä n-grammien tarkkuutta ja lyhyysrangaistusta.

Tärkeimmät näkökohdat BLEU:n toiminnassa:

Vertaa n-grammien päällekkäisyyksiä n:lle aina 4:ään (unigrammaa, bigrammaa, trigrammaa, 4-grammaa).
Laskee n-gramman tarkkuuden geometrisen keskiarvon.
Sovelletaan lyhyysrangaistus, jos käännös on paljon viitettä lyhyempi.
Yleensä vaihtelee välillä 0-1, ja 1 vastaa täydellisesti viittausta.

BLEU korreloi kohtuullisen hyvin ihmisten arvioiden käännösten laadusta. Mutta sillä on silti rajoituksia:

Mittaa tarkkuutta vain referenssejä vastaan, ei palautusta tai F1:tä.
Taistelee luovien käännösten kanssa käyttämällä eri sanamuotoja.
Alttiin "pelaamaan" käännöstemppuilla.

Muut käännösmittarit, kuten METEOR ja TER, yrittävät parantaa BLEU:n heikkouksia. Mutta yleensä automaattiset mittarit eivät kuvaa täysin käännösten laatua.

Muut tehtävät

Yhteenvedon ja kääntämisen lisäksi mittareita, kuten F1, tarkkuus, MSE ja paljon muuta, voidaan käyttää arvioimaan LLM:n suorituskykyä seuraavissa tehtävissä:

Tekstiluokittelu
Tietojen keruu
Kysymykseen vastaaminen
Sentiment-analyysi
Kielioppivirheiden havaitseminen

Tehtäväkohtaisten mittareiden etuna on, että arviointi voidaan täysin automatisoida käyttämällä standardoituja tietojoukkoja, kuten NELJÄNNES laadunvarmistukseen ja lIIMA vertailukohta useille tehtäville. Tuloksia voidaan helposti seurata ajan myötä mallien parantuessa.

Nämä mittarit ovat kuitenkin kapeasti kohdennettuja, eivätkä ne voi mitata yleistä kielen laatua. LLM:t, jotka menestyvät hyvin yksittäisen tehtävän mittareilla, saattavat epäonnistua luomaan johdonmukaista, loogista ja hyödyllistä tekstiä yleensä.

Tutkimuksen vertailuarvot

Suosittu tapa arvioida LLM:itä on testata niitä laaja-alaisiin tutkimusvertailuihin, jotka kattavat erilaisia aiheita ja taitoja. Näiden vertailuarvojen avulla malleja voidaan testata nopeasti mittakaavassa.

Joitakin tunnettuja vertailuarvoja ovat mm.

Pikaliima – Haastava joukko 11 erilaista kielitehtävää.
lIIMA – Kokoelma 9 lauseen ymmärtämistehtävää. Yksinkertaisempi kuin SuperGLUE.
MMLU – 57 erilaista STEM-, yhteiskunta- ja humanistista tehtävää. Testaa tietoa ja päättelykykyä.
Winograd Schema Challenge – Maalaisjärkeä päättelyä vaativat pronominien ratkaisuongelmat.
ARC – Haastavat luonnollisen kielen päättelytehtävät.
Hellaswag – Terve järki tilanteista.
PIQA – Kaaviota vaativat fysiikan kysymykset.

Arvioimalla tällaisilla vertailuarvoilla tutkijat voivat nopeasti testata malleja heidän kyvystään suorittaa matematiikkaa, logiikkaa, päättelyä, koodausta, maalaisjärkeä ja paljon muuta. Oikein vastattujen kysymysten prosenttiosuudesta tulee mallien vertailumittari.

Suurin ongelma vertailuarvojen kanssa on kuitenkin koulutustietojen saastuminen. Monet benchmarkit sisältävät esimerkkejä, jotka mallit ovat nähneet jo esikoulutuksen aikana. Tämä mahdollistaa mallien "ulkoa”vastauksia tiettyihin kysymyksiin ja toimivat paremmin kuin heidän todelliset kykynsä.

Yritetään "puhdistaa saasteesta” vertailuarvoja poistamalla päällekkäisiä esimerkkejä. Mutta tämä on haastavaa tehdä kattavasti, varsinkin kun mallit ovat nähneet kysymyksistä parafrasoituja tai käännettyjä versioita.

Vaikka vertailuarvot voivat testata laajan joukon taitoja tehokkaasti, ne eivät voi luotettavasti mitata todellisia päättelykykyjä tai välttää saastumisen aiheuttamaa pisteiden inflaatiota. Tarvitaan täydentäviä arviointimenetelmiä.

LLM-itsearviointi

Kiehtova lähestymistapa on saada LLM arvioimaan toisen LLM:n tuotoksia. Ajatuksena on hyödyntää "helppoa" tehtäväkonseptia:

Laadukkaiden tulosteiden tuottaminen voi olla vaikeaa LLM:lle.
Mutta sen määrittäminen, onko tietty tulos korkealaatuista, voi olla helpompi tehtävä.

Vaikka LLM:llä voi esimerkiksi olla vaikeuksia luoda tosiasiallinen, johdonmukainen kappale tyhjästä, se voi helpommin arvioida, onko tietty kappale looginen ja sopiiko se kontekstiin.

Joten prosessi on:

Anna syöttökehote ensimmäiselle LLM:lle tulosteen luomiseksi.
Anna syöttökehote + luotu tulos toiselle "arvioijalle" LLM.
Esitä arvioija LLM:lle kysymys tuotannon laadun arvioimiseksi. esim. "Onko yllä oleva vastaus looginen?"

Tämä lähestymistapa on nopea toteuttaa ja automatisoi LLM-arvioinnin. Mutta on joitain haasteita:

Suorituskyky riippuu suuresti arvioijan LLM:n valinnasta ja nopeasta sanamuodosta.
Alkuperäisen tehtävän vaikeus rajoittaa. Monimutkaisen päättelyn arvioiminen on edelleen vaikeaa LLM:ille.
Voi olla laskennallisesti kallista, jos käytetään API-pohjaisia LLM:itä.

Itsearviointi on erityisen lupaavaa arvioitaessa haettua tietoa RAG (haku-lisätty sukupolvi) järjestelmät. Muut LLM-kyselyt voivat vahvistaa, jos haettua kontekstia käytetään asianmukaisesti.

Kaiken kaikkiaan itsearviointi osoittaa potentiaalia, mutta vaatii huolellisuutta täytäntöönpanossa. Se täydentää eikä korvaa ihmisen arviointia.

Ihmisten arviointi

Kun otetaan huomioon automaattisten mittareiden ja vertailuarvojen rajoitukset, ihmisen arviointi on edelleen kultainen standardi LLM-laadun tiukkaan arvioinnissa.

Asiantuntijat voivat antaa yksityiskohtaisia laadullisia arvioita seuraavista aiheista:

Tarkkuus ja tosiasioiden oikeellisuus
Logiikka, päättely ja maalaisjärki
Johdonmukaisuus, johdonmukaisuus ja luettavuus
Äänen, tyylin ja äänen sopivuus
Kielioppi ja sujuvuus
Luovuutta ja vivahteita

Mallin arvioimiseksi ihmisille annetaan joukko syöttökehotteita ja LLM:n luomia vastauksia. He arvioivat vastausten laatua käyttämällä usein luokitusasteikkoja ja rubriikkeja.

Huono puoli on, että manuaalinen ihmisen arviointi on kallista, hidasta ja vaikeasti skaalautuvaa. Se edellyttää myös standardoitujen kriteerien kehittämistä ja arvioijien koulutusta soveltamaan niitä johdonmukaisesti.

Jotkut tutkijat ovat tutkineet luovia tapoja rahoittaa ihmisten LLM-arviointeja käyttämällä turnaustyyppisiä järjestelmiä, joissa ihmiset lyövät vetoa ja tuomitsevat mallien välisiä otteluita. Kattavuus on kuitenkin rajallinen verrattuna täydellisiin manuaalisiin arviointeihin.

Yrityskäyttötapauksissa, joissa laatu on tärkeämpää kuin raakamittakaava, asiantunteva ihmistestaus on edelleen kultainen standardi kustannuksistaan huolimatta. Tämä pätee erityisesti LLM-yritysten riskialttiimpiin sovelluksiin.

Yhteenveto

Suurten kielimallien perusteellinen arviointi edellyttää monipuolisen, toisiaan täydentävien menetelmien työkalupakin käyttöä yksittäisen tekniikan sijaan.

Yhdistämällä automatisoituja nopeutta koskevia lähestymistapoja tarkkuuden tiukkaan inhimilliseen valvontaan voimme kehittää luotettavia testausmenetelmiä suurille kielimalleille. Vankan arvioinnin avulla voimme vapauttaa LLM-yritysten valtavat mahdollisuudet ja samalla hallita heidän riskejään vastuullisesti.

Liittyvät aiheet:AI GPT liekki mittarit

Seuraavaksi

Liikkuminen väärän tiedon aikakaudella: Datakeskeisen generatiivisen tekoälyn tapaus

Älä missaa

Palvelimettomien päätelmien tulevaisuus suurille kielimalleille

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.

Unite.AI

Suurten kielimallien arviointi: Tekninen opas

Tekoäly

Suurten kielimallien arviointi: Tekninen opas

Sisällysluettelo