Tanke ledare

Riktmärken för LLM

publicerade August 28, 2024

Irina Barskaja, Doktorsexamen, chefsdataforskare på Yandex

Förstå rollen och begränsningarna för riktmärken i utvärdering av LLM-prestanda. Utforska teknikerna för att utveckla robusta LLM:er.

Stora språkmodeller har vunnit enorm popularitet de senaste åren. Jag menar, du har sett det. LLM:s exceptionella förmåga att förstå mänskliga språkkommandon gjorde att de blev den absolut perfekta integrationen för företag, som stödde kritiska arbetsflöden och automatiserade uppgifter till maximal effektivitet. Dessutom, utöver den genomsnittliga användarens förståelse, finns det så mycket mer LLMs kan göra. Och när vårt beroende av dem växer, måste vi verkligen ägna mer uppmärksamhet åt åtgärder för att säkerställa nödvändig noggrannhet och tillförlitlighet. Detta är en global uppgift som berör hela institutioner, men inom företagssfären finns det nu flera riktmärken som kan användas för att utvärdera LLM:s prestanda över olika domäner. Dessa kan testa modellens förmågor inom förståelse, logikbyggande, matematik och så vidare, och resultaten avgör om en LLM är redo för affärsutrullning.

I den här artikeln har jag samlat en omfattande lista över de mest populära riktmärkena för LLM-utvärdering. Vi kommer att diskutera varje benchmark i detalj och se hur olika LLM:er klarar sig mot utvärderingskriterierna. Men först, låt oss förstå LLM-utvärdering mer i detalj.

Vad är LLM-utvärdering?

Liksom andra AI-modeller måste även LLM:er utvärderas mot specifika riktmärken som bedömer olika aspekter av språkmodellens prestanda: kunskap, noggrannhet, tillförlitlighet och konsekvens. Standarden innefattar vanligtvis:

Förstå användarfrågor: Att bedöma modellens förmåga att korrekt förstå och tolka ett brett utbud av användarinmatningar.
Utdataverifiering: Verifiera de AI-genererade svaren mot en pålitlig kunskapsbas för att säkerställa att de är korrekta och relevanta.
Robusthet: Mäter hur bra modellen presterar med tvetydiga, ofullständiga eller bullriga indata.

LLM-utvärdering ger utvecklare möjlighet att identifiera och hantera begränsningar effektivt, så att de kan förbättra den övergripande användarupplevelsen. Om en LLM utvärderas noggrant kommer den att vara noggrann och robust nog att hantera olika verkliga tillämpningar, även inklusive de med tvetydiga eller oväntade indata.

riktmärken

LLM är en av de mest komplicerade teknikerna hittills och kan driva även de svåraste applikationerna. Så utvärderingsprocessen måste helt enkelt vara lika komplex, och sätter dess tankeprocess och tekniska noggrannhet på prov.

Ett riktmärke använder specifika datamängder, mätvärden och utvärderingsuppgifter för att testa LLM-prestanda och gör det möjligt att jämföra olika LLM:er och mäta deras noggrannhet, vilket i sin tur driver framsteg i branschen genom förbättrad prestanda.

Här är några av de mest typiska aspekterna av LLM-prestanda:

Kunskap: Modellens kunskaper behöver testas över olika domäner. Det är vad kunskapsriktmärket är till för. Den utvärderar hur effektivt modellen kan återkalla information från olika områden, som fysik, programmering, geografi, etc.
logisk Resonemang: Innebär att testa en modells förmåga att "tänka" steg för steg och dra en logisk slutsats, de involverar vanligtvis scenarier där modellen måste välja den mest troliga fortsättningen eller förklaringen baserat på vardaglig kunskap och logiska resonemang.
Läsförståelse: Modeller måste vara utmärkta på naturlig språktolkning och sedan generera svar i enlighet med detta. Testet ser ut som att svara på frågor baserade på stycken för att mäta förståelse, slutsatser och bevarande av detaljer. Som ett läsprov i skolan.
Kodförståelse: Detta behövs för att mäta en modells färdighet i att förstå, skriva och felsöka kod. Dessa riktmärken ger modellen kodningsuppgifter eller problem som modellen måste lösa exakt, och täcker ofta en rad programmeringsspråk och paradigm.
Världskunskap: Att utvärdera modellens grepp om allmän kunskap om världen. Dessa datamängder har vanligtvis frågor som behöver bred, encyklopedisk kunskap för att besvaras korrekt, vilket skiljer dem från mer specifika och specialiserade kunskapsriktmärken.

"Kunskap" Benchmarks

MMLU (Multimodal Language Understanding)

Detta riktmärke är gjort för att testa LLM:s grepp om faktakunskap inom olika ämnen som humaniora, samhällsvetenskap, historia, datavetenskap och till och med juridik. 57 frågor och 15 XNUMX uppgifter alla inriktade på att se till att modellen har bra resonemangsförmåga. Detta gör MMLU till ett bra verktyg för att bedöma en LLM:s faktakunskaper och resonemang som behandlar olika ämnen.

Nyligen har det blivit ett viktigt riktmärke för att utvärdera LLM för ovan nämnda områden. Utvecklare vill alltid optimera sina modeller för att överträffa andra i detta riktmärke, vilket gör det till en de facto standard för att utvärdera avancerade resonemang och kunskaper i LLM. Stora företagsmodeller har visat imponerande poäng på detta riktmärke, inklusive GPT-4-omni på 88.7 %, Claude 3 Opus på 86.8 %, Gemini 1.5 Pro på 85.9 % och Llama-3 70B på 82 %. Små modeller presterar vanligtvis inte lika bra på detta riktmärke, vanligtvis inte överstigande 60-65 %, men den senaste prestandan för Phi-3-Small-7b på 75.3 % är något att tänka på.

Men MMLU är inte utan nackdelar: den har kända problem som tvetydiga frågor, felaktiga svaroch saknar sammanhang. Och många tror att vissa av dess uppgifter är för lätta för korrekt LLM-utvärdering.

Jag skulle vilja göra det klart att riktmärken som MMLU inte perfekt skildrar verkliga scenarier. Om en LLM uppnår bra poäng på detta betyder det inte alltid att den har blivit en ämnesexpert. Benchmarks är egentligen ganska begränsade i omfattning och förlitar sig ofta på flervalsfrågor, som aldrig helt kan fånga komplexiteten och sammanhanget i verkliga interaktioner. Sann förståelse behöver känna till fakta och tillämpa den kunskapen dynamiskt och detta involverar kritiskt tänkande, problemlösning och kontextuell förståelse. Av dessa skäl behöver LLM ständigt förfinas och uppdateras så att modellen behåller riktmärkets relevans och effektivitet.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Detta riktmärke bedömer LLMs på logiska resonemang med hjälp av en dataset med bara 448 frågor. Domänexperter utvecklade den och den täcker ämnen inom biologi, fysik och kemi.

Varje fråga går igenom följande valideringsprocess:

En expert inom samma ämne svarar på frågan och ger detaljerad feedback.
Frågeskrivaren reviderar frågan utifrån denna feedback.
En andra expert svarar på den reviderade frågan.

Denna process kan faktiskt se till att frågorna är objektiva, korrekta och utmanande för en språkmodell. Även erfarna doktorander uppnår endast en noggrannhet på 65 % i dessa frågor, medan GPT-4-omni endast når 53.6 %, vilket framhäver klyftan mellan mänsklig och maskinell intelligens.

På grund av de höga kvalifikationskraven är datasetet faktiskt ganska litet, vilket något begränsar dess statistiska kraft för att jämföra noggrannhet, och kräver stora effektstorlekar. Experterna som skapade och validerade dessa frågor kom från Upwork, så de introducerade potentiellt fördomar baserat på deras expertis och de ämnen som behandlas.

Kod benchmarks

HumanEval

164 programmeringsproblem, ett riktigt test för LLM:s kodningsförmåga. Dess HumanEval. Den är utformad för att testa de grundläggande kodningsförmågan hos stora språkmodeller (LLM). Den använder pass@k-måttet för att bedöma den funktionella noggrannheten hos koden som genereras, vilket matar ut sannolikheten för att minst ett av de k LLM-genererade kodexemplen klarar testfallen.

Medan HumanEval-datauppsättningen innehåller funktionssignaturer, docstrings, kodkroppar och flera enhetstester, inkluderar den inte hela spektrumet av verkliga kodningsproblem, som helt enkelt inte kommer att testa en modells förmåga att skapa korrekt kod för olika scenarier.

MBPP (Mostly Basic Python Programming)

Mbpp benchmark består av 1,000 XNUMX publikbaserade Python-programmeringsfrågor. Dessa är instegsproblem och de fokuserar på grundläggande programmeringsfärdigheter. Den använder några få-shot och finjusteringsmetoder för att utvärdera modellprestanda, med större modeller som vanligtvis presterar bättre på denna datauppsättning. Men eftersom datamängden huvudsakligen innehåller program på nybörjarnivå, representerar den fortfarande inte helt komplexiteten och utmaningarna med verkliga tillämpningar.

Matematiska riktmärken

Medan de flesta LLM:er är ganska bra på att strukturera standardsvar, är matematiska resonemang ett mycket större problem för dem. Varför? Eftersom det kräver färdigheter relaterade till frågeförståelse, ett steg-för-steg logiskt tillvägagångssätt med matematiska resonemang och att härleda rätt svar.

Metoden "Chain of Thought" (CoT) är gjord för att utvärdera LLM:er på matematikrelaterade riktmärken, den innebär att man uppmanar modeller att förklara sin steg-för-steg-resonemangsprocess när de löser ett problem. Det finns flera fördelar med detta. Det gör resonemangsprocessen mer transparent, hjälper till att identifiera brister i modellens logik och möjliggör en mer detaljerad bedömning av problemlösningsförmåga. Genom att bryta ner komplexa problem i en serie enklare steg kan CoT förbättra modellens prestanda på matematiska riktmärken och ge djupare insikter i dess resonemangsförmåga.

GSM8K: Ett populärt matematikriktmärke

Ett av de välkända riktmärkena för att utvärdera matematiska förmågor i LLM är GSM8K-datauppsättningen. GSM8K består av 8.5 4 matematikproblem i mitten av skolan, som tar några steg för att lösa, och lösningarna innebär i första hand att utföra en sekvens av elementära beräkningar. Vanligtvis tenderar större modeller eller de som är speciellt utbildade för matematiska resonemang att prestera bättre på detta riktmärke, t.ex. GPT-96.5-modeller har en poäng på 7 %, medan DeepSeekMATH-RL-88.2B ligger något efter med XNUMX %.

Även om GSM8K är användbar för att bedöma en modells förmåga att hantera matematiska problem på grundskolenivå, kanske den inte helt fångar en modells förmåga att lösa mer avancerade eller olika matematiska utmaningar, vilket begränsar dess effektivitet som ett omfattande mått på matematisk förmåga.

Math Dataset: Ett omfattande alternativ

Matematikens datauppsättning behandlade bristerna i riktmärken som GSM8K. Denna datauppsättning är mer omfattande och täcker elementär aritmetik till gymnasiet och till och med problem på högskolenivå. Det jämförs också med människor, med en doktorand i datavetenskap som inte gillar att matematik uppnår en noggrannhet på 40 % och en guldmedaljör som uppnår en noggrannhet på 90 %

Det ger en mer allsidig bedömning av en LLM:s matematiska kapacitet. Den tar hand om att bevisa att modellen är skicklig i grundläggande aritmetik och kompetent inom komplexa områden som algebra, geometri och kalkyl. Men den ökade komplexiteten och mångfalden av problem kan göra det utmanande för modeller att uppnå hög noggrannhet, särskilt de som inte är explicit tränade på ett brett spektrum av matematiska begrepp. Dessutom kan de olika problemformaten i Math-datauppsättningen introducera inkonsekvenser i modellens prestanda, vilket gör det mycket svårare att dra definitiva slutsatser om en modells övergripande matematiska skicklighet.

Att använda Chain of Thought-metoden med Math-datauppsättningen kan förbättra utvärderingen eftersom den avslöjar steg-för-steg-resonemangsförmågan hos LLM:er över ett brett spektrum av matematiska utmaningar. Ett kombinerat tillvägagångssätt som detta säkerställer att det finns en mer robust och detaljerad bedömning av en LLM:s sanna matematiska förmåga.

Benchmarks för läsförståelse

En läsförståelsebedömning utvärderar modellens förmåga att förstå och bearbeta komplex text, vilket är särskilt grundläggande för applikationer som kundsupport, innehållsgenerering och informationssökning. Det finns några riktmärken utformade för att bedöma denna färdighet, var och en med unika attribut som bidrar till en omfattande utvärdering av en modells kapacitet.

RACE (Reading Comprehension dataset from Examinations)

RACE-riktmärken har nästan 28,000 100,000 stycken och 12 18 frågor insamlade från de engelska proven för kinesiska elever i mellan- och gymnasieskolan mellan XNUMX och XNUMX år. desto mer utmanande.

Den täcker ett brett spektrum av ämnen och frågetyper, vilket ger en grundlig bedömning och inkluderar frågor på olika svårighetsnivåer. Även frågor i RACE är speciellt utformade för att testa mänsklig läsförmåga och skapas av domänexperter.

Men riktmärket har vissa nackdelar. Eftersom det är utvecklat på kinesiskt utbildningsmaterial är det benäget att introducera kulturella fördomar som inte speglar ett globalt sammanhang. Dessutom är den höga svårighetsgraden i vissa frågor inte representativ för typiska verkliga uppgifter. Så prestationsutvärderingar kan inte vara så exakta.

DROP (diskret resonemang över stycken)

Ett annat viktigt tillvägagångssätt är DROP (Discrete Reasoning Over Paragraphs), som utmanar modeller att utföra diskreta resonemang över stycken. Den har 96,000 XNUMX frågor för att testa resonemangsförmågan hos LLM:er och frågorna är extraherade från Wikipedia och crowdsourcade från Amazon Mechanical Turk. DROP-frågor kallar ofta modeller för att utföra matematiska operationer som addition, subtraktion och jämförelse baserat på information spridd över en passage.

Frågorna är utmanande. De kräver att LLM:er lokaliserar flera siffror i passagen och lägger till eller subtraherar dem för att få det slutliga svaret. Stora modeller som GPT-4 och palm uppnår 80 % och 85 %, medan människor uppnår 96 % på DROP-datauppsättningen.

Benchmarks för sunt förnuft

Att testa sunt förnuft i språkmodeller är intressant men också nyckeln eftersom det utvärderar en modells förmåga att göra bedömningar och slutsatser som överensstämmer med vårt – mänskliga resonemang. Till skillnad från oss, som utvecklar en heltäckande världsmodell genom praktiska erfarenheter, tränas språkmodeller på enorma datamängder utan att egentligen förstå sammanhanget. Detta innebär att modeller kämpar med uppgifter som kräver ett intuitivt grepp om vardagliga situationer, logiska resonemang och praktisk kunskap, vilket är mycket viktigt för robusta och pålitliga AI-applikationer.

HellaSwag (Hårdare avslutningar, längre sammanhang och low-shot-aktiviteter för situationer med motståndskraftiga generationer)

Hellaswag är utvecklad av Rowan Zellers och kollegor vid University of Washington och Allen Institute for Artificial Intelligence. Den är utformad för att testa en modells förmåga att förutsäga den mest troliga fortsättningen av ett givet scenario. Detta riktmärke är konstruerat med hjälp av Adversarial Filtering (AF), där en serie diskriminatorer iterativt väljer motstridiga maskingenererade fel svar. Denna metod skapar en datauppsättning med triviala exempel för människor men utmanande för modeller, vilket resulterar i en "Goldilocks" svårighetszon.

Medan Hellaswag har varit utmanande för tidigare modeller, har toppmoderna modeller som GPT-4 uppnått prestandanivåer nära mänsklig noggrannhet, vilket indikerar betydande framsteg på området. Dessa resultat tyder dock på behovet av ständigt utvecklande riktmärken för att hålla jämna steg med framsteg inom AI-kapacitet.

Öppen bok

Openbook-datauppsättningen består av 5957 flervalsfrågor för vetenskap på grundnivå. Frågorna samlas in från tentor i öppen bok och utvecklas för att bedöma mänsklig förståelse för ämnet.

Openbook benchmark kräver resonemangsförmåga bortom informationssökning. GPT-4 uppnår den högsta noggrannheten på 95.9 % för närvarande.

OpenbookQA är modellerad efter prov i öppen bok och består av 5,957 1,326 flervalsfrågor på elementär nivå. Dessa frågor är utformade för att undersöka förståelsen av XNUMX XNUMX grundläggande vetenskapliga fakta och deras tillämpning i nya situationer.

I likhet med Hellaswag tyckte tidigare modeller att OpenbookQA var utmanande, men moderna modeller som GPT-4 har uppnått nästan mänskliga prestandanivåer. Dessa framsteg understryker vikten av att utveckla ännu mer komplexa och nyanserade riktmärken för att fortsätta tänja på gränserna för AI-förståelse.

Är benchmarks tillräckligt för LLM Performance Evaluation?

Ja, även om de tillhandahåller en standardiserad metod för att utvärdera LLM-prestanda, kan de också vara vilseledande. Large Model Systems Organization säger att ett bra LLM-riktmärke bör vara skalbart, kunna utvärdera nya modeller med ett relativt litet antal försök och ge en unik rankningsordning för alla modeller. Men det finns anledningar till att de kanske inte räcker till. Här är några:

Benchmark läckage

Detta är ett vanligt möte, och det händer när träningsdata överlappar testdata, vilket gör en missvisande utvärdering. Om en modell redan har stött på några testfrågor under träningen kanske dess resultat inte exakt återspeglar dess verkliga kapacitet. Men ett idealiskt riktmärke bör minimera memorering och återspegla verkliga scenarier.

Utvärdering Bias

LLM benchmark leaderboards används för att jämföra LLM:ers prestation på olika uppgifter. Men att förlita sig på dessa topplistor för modelljämförelse kan vara vilseledande. Enkla förändringar i benchmark-tester som att ändra ordningen på frågorna kan förändra rankningen av modeller med upp till åtta positioner. Dessutom kan LLM:er prestera olika beroende på poängmetoderna, vilket understryker vikten av att överväga utvärderingsfördomar.

Öppet slut

LLM-interaktion i verkliga världen innebär att designa uppmaningar för att generera önskade AI-utdata. LLM-utdata beror på hur effektiva uppmaningarna är, och riktmärken är utformade för att testa sammanhangsmedvetenhet om LLM. Även om benchmarks är utformade för att testa en LLM:s sammanhangsmedvetenhet, översätts de inte alltid direkt till verkliga prestanda. Till exempel, en modell som uppnår 100 % poäng på en benchmarkdatauppsättning, såsom LSAT, garanterar inte samma nivå av noggrannhet i praktiska tillämpningar. Detta understryker vikten av att beakta den öppna karaktären hos verkliga uppgifter i LLM-utvärdering.

Effektiv utvärdering för robusta LLM:er

Så nu vet du att riktmärken inte alltid är det bästa alternativet eftersom de inte alltid kan generalisera över alla problem. Men det finns andra sätt.

Anpassade riktmärken

Dessa är perfekta för att testa specifika beteenden och funktioner i uppgiftsspecifika scenarier. Låt oss säga att om LLM är designat för läkare, kommer datauppsättningarna som samlas in från medicinska miljöer att representera verkliga scenarier. Dessa anpassade riktmärken kan fokusera på domänspecifik språkförståelse, prestanda och unika kontextuella krav. Genom att anpassa riktmärkena med möjliga verkliga scenarier kan du säkerställa att LLM presterar bra i allmänhet och utmärker sig i de specifika uppgifter den är avsedd för. Detta kan hjälpa till att tidigt identifiera och åtgärda eventuella luckor eller svagheter i modellens kapacitet.

Rörledning för upptäckt av dataläckage

Om du vill att dina utvärderingar ska "visa" integritet är det mycket viktigt att ha en dataläckagefri benchmarkpipeline. Dataläckage inträffar när benchmarkdata ingår i modellens förträningskorpus, vilket resulterar i artificiellt högpresterande poäng. För att undvika detta bör riktmärken korsreferens mot förträningsdata. Plus, steg för att undvika all tidigare sett information. Detta kan innebära att du använder egenutvecklade eller nyligen kurerade datauppsättningar som hålls åtskilda från modellens utbildningspipeline – detta kommer att säkerställa att prestationsmåtten du får återspeglar modellens förmåga att generalisera väl.

Mänsklig utvärdering

Automatiserade mätvärden på egen hand kan inte fånga hela spektrumet av en modells prestanda, särskilt när det kommer till mycket nyanserade och subjektiva aspekter av språkförståelse och generering. Här ger mänsklig utvärdering en mycket bättre bedömning:

Anställa proffs som kan ge detaljerade och tillförlitliga utvärderingar, särskilt för specialiserade domäner.
Crowdsourcing! Plattformar som Amazon Mechanical Turk låter dig samla olika mänskliga bedömningar snabbt och till låg kostnad.
Gemenskapens feedback: Att använda plattformar som LMSYS leaderboard-arenan, där användare kan rösta och jämföra modeller, lägger till ett extra lager av insikt. LMSYS Chatbot Arena Hard, till exempel, är särskilt effektiv för att framhäva subtila skillnader mellan toppmodeller genom direkta användarinteraktioner och röster.

Slutsats

Utan utvärdering och benchmarking skulle vi inte ha något sätt att veta om LLM:s förmåga att hantera verkliga uppgifter är så exakt och användbar som vi tror att den är. Men, som jag sa, benchmarks är inte ett helt idiotsäkert sätt att kontrollera det, de kan leda till luckor i prestanda för LLM. Detta kan också bromsa utvecklingen av LLM:er som verkligen är robusta för arbete.

Så här borde det vara i en idealisk värld. LLM:er förstår användarfrågor, identifierar fel i uppmaningar, slutför uppgifter enligt instruktionerna och genererar tillförlitliga utdata. Resultaten är redan bra men inte idealiska. Det är här uppgiftsspecifika riktmärken visar sig vara till stor hjälp precis som mänsklig utvärdering och detektering av riktmärkesläckage. Genom att använda dem får vi en chans att producera riktigt robusta LLM.

Relaterade ämnen:AI-riktmärken AI prestanda riktmärken LLM LLM prestandaövervakning

Strax

Är sentimentanalys effektiv för att förutsäga trender på finansmarknaderna?

Missa inte

Förstå On-Premise Data Lakehouse Architecture

Irina Barskaya, PhD, Head Data Scientist på Yandex

Irina Barskaya, PhD, är en framstående dataforskare med över ett decenniums erfarenhet, som omfattar både produktanalys och analys för banbrytande teknologier. Hon ledde skapandet och analysen för Yasmina, den första fullt fungerande lokaliserade AI-baserade röstassistenten för Saudiarabien, som hanterade komplex datalokalisering och märkning för modern standardarabiska och saudiska dialekter. För närvarande leder Irina kvalitetsanalys på Yandex, driver framsteg inom AI-teknik.