Ajatusten johtajat
Vertailuarvot LLM:ille

Ymmärrä vertailuarvojen rooli ja rajoitukset LLM-suorituskyvyn arvioinnissa. Tutustu tekniikoihin vankkojen LLM:ien kehittämiseen.
Suuret kielimallit ovat saavuttaneet valtavan suosion viime vuosina. Tarkoitan, olet nähnyt sen. LLM:n poikkeuksellinen kyky ymmärtää ihmisten kielen komentoja teki niistä aivan täydellisen integroinnin yrityksille, jotka tukevat kriittisiä työnkulkuja ja automatisoivat tehtäviä mahdollisimman tehokkaasti. Lisäksi, keskivertokäyttäjän ymmärryksen lisäksi LLM:t voivat tehdä paljon enemmän. Ja kun riippuvuutemme heihin kasvaa, meidän on todellakin kiinnitettävä enemmän huomiota toimenpiteisiin, joilla varmistetaan tarvittava tarkkuus ja luotettavuus. Tämä on globaali tehtävä, joka koskee kokonaisia instituutioita, mutta yritysmaailmassa on nyt useita vertailuarvoja, joiden avulla voidaan arvioida LLM:n suorituskykyä eri aloilla. Nämä voivat testata mallin kykyjä ymmärryksen, logiikan rakentamisen, matematiikan ja niin edelleen, ja tulokset määrittävät, onko LLM valmis yrityksen käyttöön.
Tässä artikkelissa olen koonnut kattavan luettelon suosituimmista LLM-arvioinnin vertailuarvoista. Keskustelemme jokaisesta vertailuarvosta yksityiskohtaisesti ja katsomme, kuinka eri LLM-yritykset pärjäävät arviointikriteereitä vastaan. Mutta ensin, ymmärrämme LLM-arvioinnin yksityiskohtaisemmin.
Mikä on LLM-arviointi?
Kuten muutkin tekoälymallit, LLM:itä on myös arvioitava tiettyjen vertailuarvojen perusteella, jotka arvioivat kielimallin suorituskyvyn eri näkökohtia: tietämystä, tarkkuutta, luotettavuutta ja johdonmukaisuutta. Standardi sisältää tyypillisesti:
- Käyttäjäkyselyjen ymmärtäminen: Arvioidaan mallin kykyä ymmärtää ja tulkita tarkasti monenlaisia käyttäjän syötteitä.
- Tulostuksen vahvistus: Tekoälyn luomien vastausten tarkistaminen luotettavan tietokannan perusteella varmistaaksesi, että ne ovat oikein ja asiaankuuluvia.
- Vankkuus: Mittaa kuinka hyvin malli toimii moniselitteisten, epätäydellisten tai meluisten tulojen kanssa.
LLM-arviointi antaa kehittäjille mahdollisuuden tunnistaa ja korjata rajoituksia tehokkaasti, jotta he voivat parantaa yleistä käyttökokemusta. Jos LLM arvioidaan perusteellisesti, se on riittävän tarkka ja vankka käsittelemään erilaisia todellisia sovelluksia, mukaan lukien ne, joiden syötteet ovat epäselviä tai odottamattomia.
viitearvot
LLM:t ovat yksi monimutkaisimmista tekniikan osista tähän mennessä ja voivat toimia vaikeimmissakin sovelluksissa. Joten arviointiprosessin on yksinkertaisesti oltava yhtä monimutkainen, ja sen ajatteluprosessi ja tekninen tarkkuus on koeteltu.
Vertailuarvo käyttää tiettyjä tietojoukkoja, mittareita ja arviointitehtäviä LLM-suorituskyvyn testaamiseen ja mahdollistaa eri LLM:ien vertailun ja niiden tarkkuuden mittaamisen, mikä puolestaan edistää alan edistymistä suorituskyvyn parantamisen ansiosta.
Tässä on joitain LLM-suorituskyvyn tyypillisimpiä puolia:
- tuntemus: Mallin tietoja on testattava eri aloilla. Sitä varten tietovertailu on tarkoitettu. Se arvioi, kuinka tehokkaasti malli pystyy palauttamaan tietoa eri aloilta, kuten fysiikasta, ohjelmoinnista, maantiedosta jne.
- looginen perustelut: Tarkoittaa mallin kyvyn "ajatella" askel askeleelta ja tehdä looginen johtopäätös testaamista. Ne sisältävät tyypillisesti skenaarioita, joissa mallin on valittava uskottavin jatko tai selitys jokapäiväisen tiedon ja loogisen päättelyn perusteella.
- Luetun ymmärtäminen: Mallien tulee olla erinomaisia luonnollisen kielen tulkinnassa ja sitten luoda vastauksia sen mukaisesti. Testi näyttää vastaamisesta kysymyksiin, jotka perustuvat kohtiin, joilla mitataan ymmärtämistä, päätelmiä ja yksityiskohtien säilyttämistä. Kuin koulun lukukoe.
- Koodin ymmärtäminen: Tämä on tarpeen mallin koodin ymmärtämisen, kirjoittamisen ja virheenkorjauksen taidon mittaamiseksi. Nämä vertailuarvot antavat mallille koodaustehtävät tai -ongelmat, jotka mallin on ratkaistava tarkasti, ja ne kattavat usein useita ohjelmointikieliä ja paradigmoja.
- Maailman tieto: Arvioi mallin käsitystä yleisestä maailmasta. Näissä aineistoissa on tyypillisesti kysymyksiä, joihin tarvitaan laajaa, tietosanakirjallista tietoa voidakseen vastata oikein, minkä vuoksi ne eroavat tarkemmista ja erikoistuneemmista tiedon vertailuarvoista.
"Tieto"-vertailuarvot
MMLU (Multimodal Language Understanding)
Tämä benchmark on tehty testaamaan LLM:n otetta tosiasiatietoon eri aiheista, kuten humanistisista tieteistä, yhteiskuntatieteistä, historiasta, tietojenkäsittelytieteestä ja jopa oikeustieteestä. 57 kysymystä ja 15 XNUMX tehtävää, jotka kaikki on suunnattu varmistamaan, että mallilla on erinomaiset päättelykyvyt. Tämä tekee MMLU:sta hyvän työkalun arvioida LLM:n asiatietoa ja päättelyä eri aiheista.
Viime aikoina siitä on tullut keskeinen vertailukohta arvioitaessa LLM:itä edellä mainituilla aloilla. Kehittäjät haluavat aina optimoida mallinsa ylittääkseen muut tässä vertailussa, mikä tekee siitä tosiasiallisen standardin edistyneen päättelyn ja tietämyksen arvioinnissa LLM:issä. Suuret yritystason mallit ovat osoittaneet vaikuttavat pisteet tällä vertailuarvolla, mukaan lukien GPT-4-omni 88.7 prosentilla, Claude 3 Opus 86.8 prosentilla, Gemini 1.5 Pro 85.9 prosentilla ja Llama-3 70B 82 prosentilla. Pienet mallit eivät yleensä toimi yhtä hyvin tällä vertailuarvolla, yleensä enintään 60-65 %, mutta Phi-3-Small-7b:n viimeaikainen suorituskyky 75.3 % on ajateltavaa.
MMLU ei kuitenkaan ole vailla haittoja: sillä on tunnettuja ongelmia, kuten moniselitteisiä kysymyksiä, vääriä vastauksia, ja puuttuva konteksti. Ja monet ajattelevat, että jotkut sen tehtävistä ovat liian helppoja asianmukaiseen LLM-arviointiin.
Haluaisin tehdä selväksi, että MMLU:n kaltaiset vertailuarvot eivät kuvaa täydellisesti todellisia skenaarioita. Jos LLM saavuttaa tässä erinomaiset pisteet, se ei aina tarkoita, että siitä on tullut aiheen asiantuntija. Vertailuarvot ovat todellakin varsin rajallisia ja perustuvat usein monivalintakysymyksiin, jotka eivät koskaan pysty täysin vangitsemaan todellisen vuorovaikutuksen monimutkaisuutta ja kontekstia. Todellinen ymmärtäminen edellyttää tosiasioiden tuntemista ja tiedon soveltamista dynaamisesti, mikä edellyttää kriittistä ajattelua, ongelmanratkaisua ja kontekstuaalista ymmärtämistä. Näistä syistä LLM:itä on jatkuvasti jalostettava ja päivitettävä, jotta malli säilyttää vertailuarvon merkityksen ja tehokkuuden.
GPQA (Graduate-Level Google-Proof Q&A Benchmark)
Tämä vertailuarvo arvioi LLM:itä loogista päättelyä käyttäen a aineisto vain 448 kysymyksellä. Alueen asiantuntijat kehittivät sen ja se kattaa biologian, fysiikan ja kemian aiheet.
Jokainen kysymys käy läpi seuraavan vahvistusprosessin:
- Saman aiheen asiantuntija vastaa kysymykseen ja antaa yksityiskohtaista palautetta.
- Kysymyksen kirjoittaja tarkistaa kysymyksen tämän palautteen perusteella.
- Toinen asiantuntija vastaa tarkistettuun kysymykseen.
Tämä prosessi voi itse asiassa varmistaa, että kysymykset ovat objektiivisia, tarkkoja ja haastavia kielimallille. Jopa kokeneet tohtoritutkijat saavuttavat vain 65 %:n tarkkuuden näissä kysymyksissä, kun taas GPT-4-omni saavuttaa vain 53.6 %, mikä korostaa ihmisen ja koneälyn välistä kuilua.
Korkeiden kelpoisuusvaatimusten vuoksi tietojoukko on itse asiassa melko pieni, mikä rajoittaa jonkin verran sen tilastollista tehoa vertailun tarkkuuteen ja vaatii suuria tehostekokoja. Asiantuntijat, jotka loivat ja validoivat nämä kysymykset, tulivat Upworkista, joten he mahdollisesti esittelivät puolueellisuutta asiantuntemuksensa ja käsiteltyjen aiheiden perusteella.
Koodin vertailuarvot
HumanEval
164 ohjelmointiongelmaa, todellinen testi LLM:n koodauskyvyille. Sen HumanEval. Se on suunniteltu testaamaan suurten kielimallien (LLM) peruskoodauskykyjä. Se käyttää pass@k-metriikkaa arvioidakseen luotavan koodin toiminnallista tarkkuutta, mikä tulostaa todennäköisyyden, että ainakin yksi k:stä parhaasta LLM:n luomasta koodinäytteestä läpäisee testitapaukset.
Vaikka HumanEval-tietojoukko sisältää funktioiden allekirjoituksia, dokumenttimerkkijonoja, koodikappaleita ja useita yksikkötestejä, se ei sisällä kaikkia todellisia koodausongelmia, jotka eivät vain testaa riittävästi mallin kykyä tehdä oikeaa koodia erilaisiin skenaarioihin.
MBPP (enimmäkseen perus Python-ohjelmointi)
Mbpp benchmark koostuu 1,000 joukkolähteestä Python-ohjelmointikysymyksestä. Nämä ovat lähtötason ongelmia, ja ne keskittyvät perusohjelmointitaitoon. Se käyttää muutaman otoksen ja hienosäätömenetelmiä mallin suorituskyvyn arvioimiseen, ja suuremmat mallit toimivat yleensä paremmin tässä tietojoukossa. Koska tietojoukko sisältää kuitenkin pääasiassa lähtötason ohjelmia, se ei vieläkään täysin edusta todellisten sovellusten monimutkaisuutta ja haasteita.
Math Benchmarks
Vaikka useimmat LLM:t ovat melko hyviä jäsentämään standardivastauksia, matemaattinen päättely on heille paljon suurempi ongelma. Miksi? Koska se vaatii kysymyksen ymmärtämiseen liittyviä taitoja, askel askeleelta loogista lähestymistapaa matemaattisella päättelyllä ja oikean vastauksen johtamista.
"Chain of Thought" (CoT) -menetelmä on tehty arvioimaan LLM:itä matematiikkaan liittyvillä vertailuarvoilla, ja siihen sisältyy mallien kehottaminen selittämään vaiheittaista päättelyprosessiaan ongelman ratkaisemisessa. Tästä on useita etuja. Se tekee päättelyprosessista läpinäkyvämmän, auttaa tunnistamaan mallin logiikan puutteet ja mahdollistaa ongelmanratkaisutaitojen tarkemman arvioinnin. Jakamalla monimutkaiset ongelmat sarjaksi yksinkertaisempia vaiheita, CoT voi parantaa mallin suorituskykyä matemaattisissa vertailuissa ja antaa syvempiä näkemyksiä sen päättelykyvystä.
GSM8K: suosittu matematiikan vertailuarvo
Yksi tunnetuista mittareista matemaattisten kykyjen arvioinnissa LLM:issä on GSM8K-tietojoukko. GSM8K koostuu 8.5 4 koulun keskivaiheen matemaattisista tehtävistä, joiden ratkaiseminen vie muutaman askeleen, ja ratkaisuihin kuuluu ensisijaisesti peruslaskelmien suorittaminen. Tyypillisesti suuremmat mallit tai erityisesti matemaattiseen päättelyyn koulutetut mallit toimivat yleensä paremmin tällä vertailuarvolla, esim. GPT-96.5-mallien pistemäärä on 7 %, kun taas DeepSeekMATH-RL-88.2B on hieman jäljessä, XNUMX %.
Vaikka GSM8K on hyödyllinen arvioitaessa mallin kykyä käsitellä peruskoulutason matematiikkaongelmia, se ei välttämättä pysty täysin kuvaamaan mallin kykyä ratkaista edistyneempiä tai monipuolisempia matemaattisia haasteita, mikä rajoittaa sen tehokkuutta matemaattisten kykyjen kattavana mittarina.
Matemaattinen tietojoukko: kattava vaihtoehto
Matemaattinen tietojoukko käsitteli vertailuarvojen, kuten GSM8K:n, puutteita. Tämä tietojoukko on laajempi, ja se kattaa perusaritmeettiset ja lukion ja jopa korkeakoulutason ongelmat. Sitä verrataan myös ihmisiin, sillä tietojenkäsittelytieteen tohtoriopiskelija, joka ei pidä matematiikasta, saavuttaa 40 prosentin tarkkuuden ja kultamitalisti 90 prosentin tarkkuuden
Se tarjoaa kattavamman arvion LLM:n matemaattisista kyvyistä. Se huolehtii todistamisesta, että malli on taitava perusaritmetiikkaan ja pätevä monimutkaisilla aloilla, kuten algebra, geometria ja laskeminen. Mutta ongelmien lisääntynyt monimutkaisuus ja monimuotoisuus voivat tehdä malleille haastavan saavuttaa korkea tarkkuus, varsinkin sellaisissa, joita ei ole erityisesti koulutettu monenlaisiin matemaattisiin käsitteisiin. Math-tietojoukon vaihtelevat ongelmamuodot voivat myös aiheuttaa epäjohdonmukaisuuksia mallin suorituskyvyssä, mikä vaikeuttaa lopullisten johtopäätösten tekemistä mallin yleisestä matemaattisesta pätevyydestä.
Ajatusketjumenetelmän käyttäminen Math-tietojoukon kanssa voi tehostaa arviointia, koska se paljastaa LLM:ien vaiheittaiset päättelykyvyt monissa matemaattisissa haasteissa. Tällainen yhdistetty lähestymistapa varmistaa, että LLM:n todellisista matemaattisista kyvyistä on luotettavampi ja yksityiskohtaisempi arvio.
Luetun ymmärtämisen vertailuarvot
Luetun ymmärtämisen arvioinnissa arvioidaan mallin kykyä ymmärtää ja käsitellä monimutkaista tekstiä, mikä on erityisen tärkeää sovelluksissa, kuten asiakastuessa, sisällön luomisessa ja tiedonhaussa. On olemassa muutamia vertailuarvoja, jotka on suunniteltu arvioimaan tätä taitoa. Jokaisella on ainutlaatuiset ominaisuudet, jotka auttavat arvioimaan mallin kykyjä kattavasti.
RACE (luetun ymmärtämisen tietojoukko kokeista)
RACE-benchmarkissa on lähes 28,000 100,000 kohtaa ja 12 18 kysymystä, jotka on kerätty XNUMX–XNUMX-vuotiaille kiinalaisille keski- ja lukiokoululaisten englannin kokeista. Se ei rajoita annetuista kohdista poimittavia kysymyksiä ja vastauksia, joten tehtävät ovat tasaisia. sitä haastavampi.
Se kattaa laajan valikoiman aiheita ja kysymystyyppejä, mikä mahdollistaa perusteellisen arvioinnin ja sisältää kysymyksiä eri vaikeustasoilla. Myös RACE:n kysymykset on suunniteltu erityisesti ihmisen lukutaitojen testaamiseen, ja ne ovat alan asiantuntijoiden luomia.
Vertailussa on kuitenkin joitain haittoja. Koska se on kehitetty kiinalaisille koulutusmateriaaleille, se on taipuvainen esittelemään kulttuurisia ennakkoluuloja, jotka eivät heijasta globaalia kontekstia. Joidenkin kysymysten korkea vaikeustaso ei myöskään edusta tyypillisiä tosielämän tehtäviä. Joten suorituskyvyn arvioinnit eivät voi olla niin tarkkoja.
DROP (diskreetti päättely kappaleiden yli)
Toinen merkittävä lähestymistapa on DROP (Discrete Reasoning Over Chapters), joka haastaa mallit suorittamaan diskreetin päättelyn kappaleiden yli. Siinä on 96,000 XNUMX kysymystä, joilla testataan LLM:ien päättelykykyjä, ja kysymykset on poimittu Wikipediasta ja joukkolähde Amazon Mechanical Turkista. DROP-kysymykset kutsuvat usein malleja, jotka suorittavat matemaattisia operaatioita, kuten yhteen-, vähennys- ja vertailuja, jotka perustuvat kohtiin hajallaan olevaan tietoon.
Kysymykset ovat haastavia. Ne edellyttävät, että LLM:t paikantavat useita lukuja kohdasta ja lisäävät tai vähentävät ne saadakseen lopullisen vastauksen. Suuret mallit, kuten GPT-4 ja kämmen, saavuttavat 80 % ja 85 %, kun taas ihmiset saavuttavat 96 % DROP-tietojoukosta.
Common Sense Benchmarks
Terveen järjen testaaminen kielimalleissa on mielenkiintoista, mutta myös tärkeää, koska se arvioi mallin kykyä tehdä arvioita ja päätelmiä, jotka ovat linjassa meidän – inhimillisen päättelymme kanssa. Toisin kuin me, jotka kehitämme kattavan maailmanmallin käytännön kokemusten kautta, kielimalleja koulutetaan valtavien tietokokonaisuuksien pohjalta ilman, että itse asiassa ymmärretään kontekstia. Tämä tarkoittaa, että mallit kamppailevat tehtävien kanssa, jotka vaativat intuitiivista otetta jokapäiväisiin tilanteisiin, loogista päättelyä ja käytännön tietoa, jotka ovat erittäin tärkeitä kestäville ja luotettaville tekoälysovelluksille.
HellaSwag (Vaikeammat loput, pidemmät kontekstit ja matalat toiminnot tilanteisiin, joissa on vastustavia sukupolvia)
Hellaswagin ovat kehittäneet Rowan Zellers ja kollegat Washingtonin yliopistosta ja Allen Institute for Artificial Intelligencesta. Se on suunniteltu testaamaan mallin kykyä ennustaa tietyn skenaarion todennäköisin jatko. Tämä vertailuarvo on rakennettu käyttämällä Adversarial Filtering (AF) -suodatusta, jossa joukko erottelijoita valitsee iteratiivisesti koneen luomia vääriä vastauksia. Tämä menetelmä luo tietojoukon, jossa on triviaaleja esimerkkejä ihmisille, mutta haastava malleille, mikä johtaa "kultakukkoisen" vaikeusalueeseen.
Vaikka Hellaswag on ollut haastava aikaisemmille malleille, huippuluokan mallit, kuten GPT-4, ovat saavuttaneet suorituskykytasot lähellä ihmisen tarkkuutta, mikä osoittaa merkittävää edistystä alalla. Nämä tulokset viittaavat kuitenkin siihen, että tarvitaan jatkuvasti kehittyviä vertailuarvoja, jotta ne pysyisivät AI-ominaisuuksien kehityksen tahdissa.
Avoin kirja
Openbook-aineisto koostuu 5957 perustason luonnontieteiden monivalintakysymyksestä. Kysymykset on kerätty avoimen kirjan kokeista ja kehitetty arvioimaan ihmisten ymmärrystä aiheesta.
Openbook-benchmark vaatii päättelykykyä tiedonhaun lisäksi. GPT-4 saavuttaa tämän hetken suurimman 95.9 %:n tarkkuuden.
OpenbookQA on mallinnettu avoimien kirjojen kokeiden perusteella ja koostuu 5,957 1,326 monivalintakysymyksestä perustason luonnontieteiden kysymyksestä. Nämä kysymykset on suunniteltu tutkimaan XNUMX XNUMX tieteen ydinfaktaa ymmärtämistä ja niiden soveltamista uusiin tilanteisiin.
Kuten Hellaswag, aiemmat mallit pitivät OpenbookQA:ta haastavana, mutta nykyaikaiset mallit, kuten GPT-4, ovat saavuttaneet lähes ihmisen suorituskykyä. Tämä edistys korostaa, kuinka tärkeää on kehittää entistä monimutkaisempia ja vivahteikkaampia vertailuarvoja, jotta voidaan jatkaa tekoälyn ymmärtämisen rajojen työntämistä.
Ovatko vertailuarvot riittävät LLM-suorituskyvyn arviointiin?
Kyllä, vaikka ne tarjoavat standardoidun lähestymistavan LLM:n suorituskyvyn arviointiin, ne voivat myös olla harhaanjohtavia. Large Model Systems Organisation sanoo, että hyvän LLM-vertailuarvon tulisi olla skaalautuva, kyettävä arvioimaan uusia malleja suhteellisen pienellä määrällä kokeita ja tarjoamaan ainutlaatuinen järjestys kaikille malleille. Mutta on syitä, miksi ne eivät ehkä riitä. Tässä muutamia:
Vertailuarvon vuoto
Tämä on yleinen kohtaaminen, ja se tapahtuu, kun harjoitustiedot menevät päällekkäin testitietojen kanssa, mikä tekee harhaanjohtavan arvion. Jos malli on jo kohdannut joitain testikysymyksiä harjoittelun aikana, sen tulos ei välttämättä kuvasta tarkasti sen todellisia ominaisuuksia. Mutta ihanteellisen vertailuarvon tulisi minimoida ulkoa ottaminen ja heijastaa todellisia skenaarioita.
Arviointiharha
LLM-benchmark-tulostaulukoita käytetään vertailemaan LLM:ien suorituskykyä eri tehtävissä. Noihin tulostaulukoihin luottaminen mallien vertailussa voi kuitenkin olla mahdollista harhaanjohtava. Vertailutestien yksinkertaiset muutokset, kuten kysymysten järjestyksen muuttaminen, voivat muuttaa mallien sijoitusta jopa kahdeksalla sijalla. Lisäksi LLM:t voivat toimia eri tavalla pisteytysmenetelmistä riippuen, mikä korostaa arviointiharhojen huomioimisen tärkeyttä.
Avoin loppu
Reaalimaailman LLM-vuorovaikutus sisältää kehotteiden suunnittelun haluttujen AI-tulosteiden luomiseksi. LLM-tulokset riippuvat kehotteiden tehokkuudesta, ja vertailuarvot on suunniteltu testaamaan LLM:ien kontekstitietoisuutta. Vaikka vertailuarvot on suunniteltu testaamaan LLM:n kontekstitietoisuutta, ne eivät aina käänny suoraan todelliseen suorituskykyyn. Esimerkiksi malli, joka saavuttaa 100 % pistemäärän vertailutietojoukossa, kuten LSAT, ei takaa samaa tarkkuutta käytännön sovelluksissa. Tämä korostaa, että on tärkeää ottaa huomioon tosielämän tehtävien avoin luonne LLM-arvioinnissa.
Tehokas arviointi vankille LLM:ille
Joten nyt tiedät, että vertailuarvot eivät aina ole paras vaihtoehto, koska ne eivät aina voi yleistää kaikkiin ongelmiin. Mutta, on muitakin tapoja.
Muokatut vertailuarvot
Nämä sopivat erinomaisesti tiettyjen käyttäytymismallien ja toimintojen testaamiseen tehtäväkohtaisissa skenaarioissa. Oletetaan, että jos LLM on suunniteltu lääkäreille, lääketieteellisistä asetuksista kerätyt tietojoukot edustavat tehokkaasti todellisia skenaarioita. Nämä mukautetut vertailuarvot voivat keskittyä verkkotunnuskohtaiseen kielen ymmärtämiseen, suorituskykyyn ja ainutlaatuisiin kontekstuaalisiin vaatimuksiin. Kohdistamalla vertailuarvot mahdollisten todellisten skenaarioiden kanssa voit varmistaa, että LLM toimii yleisesti hyvin ja on erinomaista erityistehtävissä, joihin se on tarkoitettu. Tämä voi auttaa tunnistamaan ja korjaamaan mahdolliset aukot tai heikkoudet mallin ominaisuuksissa varhaisessa vaiheessa.
Tietovuotojen havaitsemisputki
Jos haluat arvioiden "näyttävän" eheyden, tietovuodotonta vertailutestiputkistoa on erittäin tärkeää. Tietovuoto tapahtuu, kun vertailuarvotiedot sisällytetään mallin esikoulutuskorpukseen, mikä johtaa keinotekoisesti korkeaan suorituskykyyn. Tämän välttämiseksi vertailuarvoja tulisi verrata harjoittelua edeltäviin tietoihin. Lisäksi vaiheet aiemmin nähtyjen tietojen välttämiseksi. Tämä voi sisältää patentoitujen tai äskettäin kuratoitujen tietojoukkojen käyttämisen, jotka pidetään erillään mallin koulutusputkistosta – tämä varmistaa, että saamasi suorituskykymittarit kuvastavat mallin kykyä yleistää hyvin.
Ihmisten arviointi
Automatisoidut mittarit eivät yksinään pysty kaappaamaan mallin suorituskyvyn koko kirjoa, etenkään kun on kyse kielen ymmärtämisen ja luomisen erittäin vivahteellisista ja subjektiivisista näkökohdista. Tässä ihmisen arviointi antaa paljon paremman arvion:
- Ammattilaisten palkkaaminen jotka voivat tarjota yksityiskohtaisia ja luotettavia arvioita erityisesti erikoistuneille aloille.
- crowdsourcing! Amazon Mechanical Turkin kaltaisten alustojen avulla voit kerätä erilaisia ihmisten arvioita nopeasti ja vähällä hinnalla.
- Yhteisön palaute: LMSYS-tulostaulukon kaltaisten alustojen käyttö, jossa käyttäjät voivat äänestää ja verrata malleja, lisää ylimääräistä tietoa. Esimerkiksi LMSYS Chatbot Arena Hard on erityisen tehokas tuomaan esiin huippumallien hienovaraisia eroja suoran vuorovaikutuksen ja äänten avulla.
Yhteenveto
Ilman arviointia ja esikuva-analyysiä meillä ei olisi mitään mahdollisuutta tietää, onko LLM:n kyky hoitaa todellisia tehtäviä yhtä tarkkaa ja soveltuvaa kuin luulemme sen olevan. Mutta kuten sanoin, vertailuarvot eivät ole täysin idioottivarma tapa tarkistaa tämä, vaan ne voivat johtaa puutteisiin LLM:iden suorituskyvyssä. Tämä voi myös hidastaa työhön todella kestävien LLM-yritysten kehitystä.
Näin sen pitäisi olla ihanteellisessa maailmassa. LLM:t ymmärtävät käyttäjien kyselyt, tunnistavat kehotteiden virheet, suorittavat tehtävät ohjeiden mukaan ja luovat luotettavia tuloksia. Tulokset ovat jo loistavia, mutta eivät ihanteellisia. Tässä tehtäväkohtaiset vertailuarvot osoittautuvat erittäin hyödyllisiksi, samoin kuin ihmisten arvioiminen ja vertailuarvojen vuotojen havaitseminen. Käyttämällä niitä saamme mahdollisuuden tuottaa todella kestäviä LLM:itä.