Tankeledere

Benchmark for LLM-er

Publisert 28. august 2024

Oppdatert 20. mai 2026

Irina Barskaya, PhD, Leder for kvalitetsanalyse ved Yandex

Forstå rollen og begrensningene til benchmarking i vurderingen av LLM-ytelse. Utforsk teknikkene for å utvikle robuste LLM-er.

Store språkmodeller har fått stor popularitet de siste årene. Jeg mener, du har sett det. LLM-er utmerkede evne til å forstå menneskelige språkkommandoer gjorde dem til den perfekte integrasjonen for bedrifter, som støttet kritiske arbeidsflyter og automatiserte oppgaver for maksimal effisiens. Pluss, utover den gjennomsnittlige brukerens forståelse, er det mye mer LLM-er kan gjøre. Og siden vår avhengighet av dem øker, må vi virkelig legge merke til tiltak for å sikre nødvendig nøyaktighet og pålitelighet. Dette er en global oppgave som omfatter hele institusjoner, men i bedriftsverden er det nå flere benchmark som kan brukes til å vurdere LLM-ytelsen over forskjellige domener. Disse kan teste modellens evner i forståelse, logisk tenkning, matematikk og så videre, og resultater avgjør om en LLM er klar for bedriftslevering.

I denne artikkelen har jeg samlet en omfattende liste over de mest populære benchmarkene for LLM-vurdering. Vi skal diskutere hver benchmark i detalj og se hvordan forskjellige LLM-er klarer seg mot vurderingskriteriene. Men først, la oss forstå LLM-vurdering i mer detalj.

Hva er LLM-vurdering?

Liksom andre AI-modeller, trenger LLM-er også å vurderes mot bestemte benchmark som vurderer forskjellige aspekter av språkmodellens ytelse: kunnskap, nøyaktighet, pålitelighet og konsistens. Standarden omfatter vanligvis:

Forståelse av brukerforespørsler: Vurdere modellens evne til å nøyaktig forstå og tolke en rekke brukerinput.
Verifisering av utdata: Verifisere AI-genererte svar mot en pålitelig kunnskapsbase for å sikre at de er korrekte og relevante.
Robusthet: Måle hvor godt modellen utfører seg med tvetydige, ufullstendige eller støyende input.

LLM-vurdering gir utviklere mulighet til å identifisere og løse begrensninger effektivt, slik at de kan forbedre den totale brukeropplevelsen. Hvis en LLM blir grundig vurdert, vil den være nøyaktig og robust nok til å håndtere forskjellige virkelige applikasjoner, også de med tvetydige eller uventede input.

Benchmark

LLM-er er en av de mest kompliserte teknologiene til dags dato og kan drive selv de mest kompliserte applikasjonene. Så vurderingsprosessen må være like komplisert, og teste tankeprosessen og teknisk nøyaktighet.

En benchmark bruker bestemte datasamlinger, målinger og vurderingsteknikker for å teste LLM-ytelse, og tillater sammenligning av forskjellige LLM-er og måling av nøyaktigheten, som igjen driver fremgangen i industrien gjennom forbedret ytelse.

Her er noen av de mest typiske aspektene ved LLM-ytelse:

Kunnskap: Modellens kunnskap må testes over forskjellige domener. Dette er hva kunnskapsbenchmark er for. Den vurderer hvor effektivt modellen kan gjøre rede for informasjon fra forskjellige felt, som fysikk, programmering, geografi osv.
Logisk tenkning: Dette innebærer å teste modellens evne til å «tenke» skritt for skritt og trekke en logisk konklusjon, vanligvis i scenarier hvor modellen må velge den mest plausibele fortsettelse eller forklaring basert på hverdagskunnskap og logisk tenkning.
Leseforståelse: Modellene må være utmerkede i å tolke naturlig språk og generere svar deretter. Testen ligner på å svare på spørsmål basert på passasjer for å måle forståelse, slutting og detaljbevaring. Lik en skolelesetest.
Kodeforståelse: Dette er nødvendig for å måle modellens ferdighet i å forstå, skrive og feilsøke kode. Disse benchmarkene gir modellen kodeoppgaver eller problemer som modellen må løse nøyaktig, ofte dekkende en rekke programmeringsspråk og paradigmer.
Verdenskunnskap: For å vurdere modellens grep om generell kunnskap om verden. Disse datasamlingene inneholder vanligvis spørsmål som krever bred, encyklopedisk kunnskap for å bli besvart korrekt, noe som gjør dem forskjellige fra mer spesifikke og spesialiserte kunnskapsbenchmark.

“Kunnskap” Benchmark

MMLU (Multimodal Language Understanding)

Denne benchmarken er laget for å teste LLM-ens grep om faktisk kunnskap over forskjellige emner som humaniora, samfunnsvitenskap, historie, datavitenskap og selv jus. 57 spørsmål og 15 000 oppgaver rettet mot å sikre at modellen har gode tenkeevner og håndtering av forskjellige emner.

Nylig har det blitt en nøkkelbenchmark for å vurdere LLM-er for ovennevnte områder. Utviklere ønsker alltid å optimalisere modellene sine for å overgå andre i denne benchmarken, noe som gjør den til en de facto-standard for å vurdere avansert tenkning og kunnskap i LLM-er. Store bedriftsmodeller har vist imponerende resultater på denne benchmarken, inkludert GPT-4-omni på 88,7%, Claude 3 Opus på 86,8%, Gemini 1,5 Pro på 85,9% og Llama-3 70B på 82%.

Men MMLU er ikke uten ulemper: den har kjente problemer som tvetydige spørsmål, feilaktige svar og manglende kontekst. Og mange mener at noen av oppgavene er for enkle for en ordentlig LLM-vurdering.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Denne benchmarken vurderer LLM-er på logisk tenkning ved hjelp av en datasamling med bare 448 spørsmål. Domene-eksperter har utviklet den, og den dekker emner i biologi, fysikk og kjemi.

Hvert spørsmål går gjennom følgende valideringsprosess:

En ekspert i samme emne besvarer spørsmålet og gir detaljert tilbakemelding.
Spørsmålsforfatteren reviderer spørsmålet basert på denne tilbakemeldingen.
En annen ekspert besvarer det reviderte spørsmålet.

Denne prosessen kan faktisk sikre at spørsmålene er objektive, nøyaktige og utfordrende for en språkmodell. Selv erfarne PhD-studenter oppnår bare en nøyaktighet på 65% på disse spørsmålene, mens GPT-4-omni bare når 53,6%, noe som understreker gapet mellom menneskelig og maskinell intelligens.

Kodebenchmark

HumanEval

164 programmeringsoppgaver, en ekte test for LLM-ens kodeevner. Det er HumanEval. Det er designet for å teste de grunnleggende kodeevnene til store språkmodeller (LLM-er). Det bruker pass@k-målingen til å vurdere den funksjonelle nøyaktigheten av den genererte koden, som utgangspunktet for å se om minst en av de øverste k LLM-genererte kodeeksemplene passer testtilfeller.

Mens HumanEval-datasamlingen inkluderer funksjonssignaturer, docstrings, kodekropper og flere enhetstester, inkluderer den ikke hele rekken av virkelige kodeproblemer, noe som ikke vil være nok til å teste en modells evne til å lage korrekt kode for forskjellige scenarioer.

MBPP (Mostly Basic Python Programming)

MBPP-benchmark består av 1000 crowdsourced Python-programmeringsoppgaver. Disse er innføringsoppgaver og fokuserer på grunnleggende programmeringsferdigheter. Den bruker noen skudd- og finjusteringsteknikker for å vurdere modellens ytelse, med større modeller som vanligvis utfører bedre på denne datasamlingen. Men, ettersom datasamlingen hovedsakelig består av innføringsoppgaver, representerer den ikke fullt ut kompleksiteten og utfordringene i virkelige applikasjoner.

Matematisk benchmark

Mens de fleste LLM-er er ganske gode til å strukturere standardrespons, er matematisk tenkning et mye større problem for dem. Hvorfor? Fordi det krever ferdigheter relatert til spørsmålsforståelse, en skritt-for-skritt logisk tilnærming med matematisk tenkning og avledning av det riktige svaret.

“Chain of Thought”-metoden er laget for å vurdere LLM-er på matematisk-relaterte benchmark, det innebærer å fremme modellene til å forklare deres skritt-for-skritt tenkeprosess når de løser et problem. Det er flere fordeler med dette. Det gjør tenkeprosessen mer gjennomsiktig, hjelper med å identifisere feil i modellens logikk og tillater en mer detaljert vurdering av problemløsningsevner. Ved å bryte ned komplekse problemer i en rekke enklere skritt, kan “Chain of Thought”-metoden forbedre modellens ytelse på matematisk benchmark og gi dypere innsikt i dens tenkeevner.

GSM8K: En populær matematisk benchmark

En av de mest kjente benchmarkene for å vurdere matematisk evner i LLM-er er GSM8K-datasamlingen. GSM8K består av 8,5 tusen midtskolematematikkoppgaver, som krever noen skritt for å løse, og løsningene innebærer hovedsakelig å utføre en rekke grunnleggende beregninger. Vanligvis er større modeller eller de som er spesifikt trent for matematisk tenkning, som utfører bedre på denne benchmarken, f.eks. GPT-4-modeller som hevder en score på 96,5%, mens DeepSeekMATH-RL-7B ligger litt bak på 88,2%.

Mens GSM8K er nyttig for å vurdere en modells evne til å håndtere grunnskolematematikk, kan den kanskje ikke fullt ut fange en modells evne til å løse mer avanserte eller diverse matematiske utfordringer, noe som begrenser dens effektivitet som en omfattende måling av matematisk evne.

Matematikk-datasamlingen: En omfattende alternativ

Matematikk-datasamlingen tok hånd om begrensningene til benchmark som GSM8K. Denne datasamlingen er mer omfattende, dekker grunnleggende aritmetikk til videregående og selv universitetsnivå. Den sammenlignes også med mennesker, med en datavitenskapsstudent som ikke liker matematikk som oppnår en nøyaktighet på 40% og en gullmedaljør som oppnår en nøyaktighet på 90%.

Den gir en mer allsidig vurdering av en LLMs matematiske evner. Den tar vare på å vise at modellen er dyktig i grunnleggende aritmetikk og kompetent i komplekse områder som algebra, geometri og kalkulus. Men den økte kompleksiteten og mangfoldet av problemer kan gjøre det utfordrende for modeller å oppnå høy nøyaktighet, spesielt de som ikke er eksplisitt trent på et bredt spekter av matematiske konsepter. Dessuten kan de varierte problemformatene i matematikk-datasamlingen innføre inkonsekvenser i modellens ytelse, noe som gjør det vanskeligere å trekke definitive konklusjoner om en modells totale matematiske evne.

Bruken av “Chain of Thought”-metoden med matematikk-datasamlingen kan forbedre vurderingen, da den avdekker de skritt-for-skritt tenkeevnene til LLM-er over et bredt spekter av matematiske utfordringer. En kombinasjonsmetode som denne sikrer en mer robust og detaljert vurdering av en LLMs sanne matematiske evner.

Leseforståelsesbenchmark

En lesingstest vurderer modellens evne til å forstå og prosessere kompleks tekst, noe som er spesielt viktig for applikasjoner som kundestøtte, innholdsgenerering og informasjonsgjenfinning. Det finnes flere benchmark som er designet for å vurdere denne ferdigheten, hver med unike egenskaper som bidrar til en omfattende vurdering av en modells evner.

RACE (Leseforståelsesdataset fra eksamener)

RACE-benchmark har nesten 28 000 passasjer og 100 000 spørsmål samlet fra engelskeksamen for mellom- og høyskoleelever i alderen 12-18 år. Den begrenser ikke spørsmål og svar til å bli trukket fra de gitt passasjene, noe som gjør oppgavene enda mer utfordrende.

Den dekker et bredt spekter av emner og spørsmålstyper, noe som gjør det til en grundig vurdering og inkluderer spørsmål på forskjellige vanskelighetsnivåer. Spørsmålene i RACE er spesifikt designet for å teste menneskelig lesingsevne og er skapt av domene-eksperter.

Men benchmarken har noen ulemper. Ettersom den er utviklet fra kinesiske utdanningsmateriell, er den utsatt for å innføre kulturelle fordommer som ikke reflekterer en global kontekst. Dessuten er vanskelighetsnivået i noen spørsmål ikke nødvendigvis representative for typiske virkelige oppgaver. Så vurderingene kan være misvisende.

DROP (Discrete Reasoning Over Paragraphs)

En annen betydelig tilnærming er DROP (Discrete Reasoning Over Paragraphs), som utfordrer modeller til å utføre diskret tenkning over passasjer. Den har 96 000 spørsmål for å teste tenkeevnene til LLM-er, og spørsmålene er trukket fra Wikipedia og crowdsourcet fra Amazon Mechanical Turk. DROP-spørsmål krever ofte at modellene utfører matematiske operasjoner som addisjon, subtraksjon og sammenligning basert på informasjon spredt over en passasje.

Spørsmålene er utfordrende. De krever at LLM-er finner flere tall i passasjen og adderer eller subtraherer dem for å få det endelige svaret. Store modeller som GPT-4 og Palm oppnår 80% og 85%, mens mennesker oppnår 96% på DROP-datasamlingen.

Benchmark for hverdagsforståelse

Å teste hverdagsforståelse i språkmodeller er en interessant utfordring, men også nødvendig, da den vurderer en modells evne til å gjøre dommer og slutninger som stemmer overens med vår – menneskelig tenkning. I motsetning til oss, som utvikler en omfattende verdensmodell gjennom praktisk erfaring, er språkmodeller trent på store datasamlinger uten å innehaft kontekst. Dette betyr at modellene sliter med oppgaver som krever en intuitiv forståelse av hverdagslige situasjoner, logisk tenkning og praktisk kunnskap, noe som er viktig for robuste og pålitelige AI-applikasjoner.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag er utviklet av Rowan Zellers og kolleger ved University of Washington og Allen Institute for Artificial Intelligence. Den er designet for å teste en modells evne til å forutsi den mest plausibele fortsettelsen av en gitt scenario. Denne benchmarken er konstruert ved hjelp av Adversarial Filtering (AF), hvor en rekke diskriminatorene iterativt velger adversarial maskin-genererte feilaktige svar. Denne metoden skaper en datasamling med trivielle eksempler for mennesker, men utfordrende for modeller, noe som resulterer i en “Goldilocks”-sone av vanskelighetsnivå.

Mens Hellaswag har vært utfordrende for tidligere modeller, har state-of-the-art-modeller som GPT-4 oppnådd ytelsesnivåer nær menneskelig nøyaktighet, noe som indikerer betydelig fremgang i feltet. Men disse resultater understreker behovet for kontinuerlig å utvikle nye benchmark for å holde pace med fremgangen i AI-evnen.

Openbook

Openbook-datasamlingen består av 5957 elementary-nivå vitenskapsmultiple-choice-spørsmål. Spørsmålene er samlet fra åpne bok-eksamener og utviklet for å vurdere menneskelig forståelse av emnet.

Openbook-benchmark krever tenkeevne utover informasjonsgjenfinning. GPT-4 oppnår den høyeste nøyaktigheten på 95,9% per nå.

OpenbookQA er modellert etter åpne bok-eksamener og består av 5957 multiple-choice elementary-nivå vitenskaps-spørsmål. Disse spørsmålene er designet for å teste forståelsen av 1326 grunnleggende vitenskapsfakta og deres anvendelse i nye situasjoner.

Lignende Hellaswag, har tidligere modeller funnet OpenbookQA utfordrende, men moderne modeller som GPT-4 har oppnådd nærmenneskelig ytelse. Denne fremgangen understreker viktigheten av å utvikle enda mer komplekse og nyanserte benchmark for å fortsette å drive grensene for AI-forståelse.

Er benchmark nok for LLM-ytelsevurdering?

Ja, mens de gir en standardisert tilnærming til å vurdere LLM-ytelse, kan de også være misvisende. Large Model Systems Organization sier at en god LLM-benchmark bør være skalerbar, i stand til å vurdere nye modeller med et relativt lite antall forsøk, og gi en unik rangeringsorden for alle modeller. Men det finnes grunner til at de kanskje ikke er nok. Her er noen:

Benchmark-lækasje

Dette er en vanlig hendelse, og det skjer når treningdata overlapper med testdata, noe som resulterer i en misvisende vurdering. Hvis en modell allerede har møtt noen testspørsmål under trening, kan resultatet ikke nødvendigvis reflektere dens sanne evner. Men en ideal benchmark bør minimere memorering og reflektere virkelige scenarioer.

Vurderingsforforstyrrelse

LLM-benchmark-ledere brukes til å sammenligne LLM-ers ytelse på forskjellige oppgaver. Men å stole på disse ledere for modell-sammenligning kan være misvisende. Enkle endringer i benchmark-tester, som å endre rekkefølgen på spørsmålene, kan skifte modell-rangeringen med opptil åtte posisjoner. Dessuten kan LLM-er oppføre seg forskjellig avhengig av vurderingsmetodene, noe som understreker viktigheten av å vurdere vurderingsforforstyrrelser.

Åpenhet

Virkelige LLM-interaksjoner involverer å designe promter for å generere ønskede AI-utdata. LLM-utdata avhenger av promtenes effektivitet, og benchmark er designet for å teste kontekstbevisstheten til LLM-er. Mens benchmark er designet for å teste en LLMs kontekstbevissthet, oversetter de ikke alltid direkte til virkelige ytelsesnivåer. For eksempel, en modell som oppnår en 100% score på en benchmark-datasamling, som LSAT, garanterer ikke det samme nivået av nøyaktighet i praktiske applikasjoner. Dette understreker viktigheten av å vurdere den åpne naturen til virkelige oppgaver i LLM-vurdering.

Effektiv vurdering for robuste LLM-er

Så nå vet du at benchmark ikke alltid er den beste løsningen, fordi de ikke alltid kan generalisere over alle problemer. Men det finnes andre måter.

Tilpassede benchmark

Disse er perfekte for å teste spesifikke atferd og funksjoner i oppgave-spesifikke scenarioer. La oss si at hvis en LLM er designet for medisinske offiserer, vil datasamlinger fra medisinske settinger effektivt representere virkelige scenarioer. Disse tilpassede benchmark kan fokusere på domene-spesifikke språkforståelse, ytelse og unike kontekstuelle krav. Ved å tilpasse benchmarkene med mulige virkelige scenarioer, kan du sikre at LLM-en utfører godt generelt og utmerker seg i de spesifikke oppgavene den er designet for. Dette kan hjelpe med å identifisere og løse eventuelle gap eller svakheter i modellens evner tidlig.

Data-lækasje-deteksjonsrørledning

Hvis du ønsker at vurderingene dine skal “vise” integritet, er det viktig å ha en data-lækasje-fri benchmark-rørledning. Data-lækasje skjer når benchmark-data er inkludert i modellens fortreningssamling, noe som resulterer i kunstig høye ytelsespoeng. For å unngå dette, bør benchmarkene være krysstestet mot fortreningssamlinger. Pluss, skritt for å unngå tidligere sett informasjon. Dette kan innebære å bruke proprietære eller nykurerte datasamlinger som holdes adskilt fra modellens treningssamling – dette vil sikre at ytelsespoengene du får, reflekterer modellens evne til å generalisere godt.

Menneskelig vurdering

Automatiserte målinger alene kan ikke fange det fulle spekteret av en modells ytelse, spesielt når det gjelder nyanserte og subjektive aspekter av språkforståelse og generering. Her gir menneskelig vurdering en mye bedre vurdering:

Anssettelse av fagfolk som kan gi detaljerte og pålitelige vurderinger, spesielt for spesialiserte domener.
Crowdsourcing! Plattformer som Amazon Mechanical Turk lar deg samle inn diverse menneskelige vurderinger raskt og til lav kostnad.
Samfunnsfeedback: Bruk av plattformer som LMSYS-leaderboard-arena, hvor brukere kan stemme og sammenligne modeller, legger til en ekstra lag med innsikt. LMSYS Chatbot Arena Hard, for eksempel, er spesielt effektiv i å høyde forskjellene mellom toppmodellene gjennom direkte brukerinteraksjoner og stemmer.

Konklusjon

Uten vurdering og benchmarking, ville vi ikke hatt noen måte å vite om LLM-ens evne til å håndtere virkelige oppgaver er like nøyaktig og anvendelig som vi tror det er. Men, som jeg sa, benchmark er ikke alltid en fullstendig sikker måte å sjekke det, de kan føre til gap i LLM-ens ytelse. Dette kan også bremse utviklingen av LLM-er som er virkelig robuste for arbeid.

Dette er hvordan det bør være i en ideal verden. LLM-er forstår brukerforespørsler, identifiserer feil i promter, fullfører oppgaver som instruert, og genererer pålitelige utdata. Resultatene er allerede gode, men ikke ideelle. Dette er der hvor oppgave-spesifikke benchmark viser seg å være svært nyttige, like menneskelig vurdering og deteksjon av benchmark-lækasje. Ved å bruke disse, får vi en sjanse til å produsere virkelig robuste LLM-er.

Irina Barskaya, PhD, Leder for kvalitetsanalyse ved Yandex

Irina Barskaya, PhD, er en fremtredende dataforsker med over ett tiår med erfaring, som omfatter både produktanalyse og analyse for banebrytende teknologier. Hun ledet utviklingen og analysen av Yasmina, den første fullt funksjonelle lokale AI-baserte taleassistenten for Saudi-Arabia, som håndterer kompleks data-lokalisering og merking for moderne standardarabisk og saudiarabisk dialekt. For tiden leder Irina kvalitetsanalyse ved Yandex, og driver fremgang i AI-teknologier.