Tanke ledare
RiktmÀrken för LLM

FörstÄ rollen och begrÀnsningarna för riktmÀrken i utvÀrdering av LLM-prestanda. Utforska teknikerna för att utveckla robusta LLM:er.
Stora sprÄkmodeller har vunnit enorm popularitet de senaste Ären. Jag menar, du har sett det. LLM:s exceptionella förmÄga att förstÄ mÀnskliga sprÄkkommandon gjorde att de blev den absolut perfekta integrationen för företag, som stödde kritiska arbetsflöden och automatiserade uppgifter till maximal effektivitet. Dessutom, utöver den genomsnittliga anvÀndarens förstÄelse, finns det sÄ mycket mer LLMs kan göra. Och nÀr vÄrt beroende av dem vÀxer, mÄste vi verkligen Àgna mer uppmÀrksamhet Ät ÄtgÀrder för att sÀkerstÀlla nödvÀndig noggrannhet och tillförlitlighet. Detta Àr en global uppgift som berör hela institutioner, men inom företagssfÀren finns det nu flera riktmÀrken som kan anvÀndas för att utvÀrdera LLM:s prestanda över olika domÀner. Dessa kan testa modellens förmÄgor inom förstÄelse, logikbyggande, matematik och sÄ vidare, och resultaten avgör om en LLM Àr redo för affÀrsutrullning.
I den hÀr artikeln har jag samlat en omfattande lista över de mest populÀra riktmÀrkena för LLM-utvÀrdering. Vi kommer att diskutera varje benchmark i detalj och se hur olika LLM:er klarar sig mot utvÀrderingskriterierna. Men först, lÄt oss förstÄ LLM-utvÀrdering mer i detalj.
Vad Àr LLM-utvÀrdering?
Liksom andra AI-modeller mÄste Àven LLM:er utvÀrderas mot specifika riktmÀrken som bedömer olika aspekter av sprÄkmodellens prestanda: kunskap, noggrannhet, tillförlitlighet och konsekvens. Standarden innefattar vanligtvis:
- FörstÄ anvÀndarfrÄgor: Att bedöma modellens förmÄga att korrekt förstÄ och tolka ett brett utbud av anvÀndarinmatningar.
- Utdataverifiering: Verifiera de AI-genererade svaren mot en pÄlitlig kunskapsbas för att sÀkerstÀlla att de Àr korrekta och relevanta.
- Robusthet: MÀter hur bra modellen presterar med tvetydiga, ofullstÀndiga eller bullriga indata.
LLM-utvÀrdering ger utvecklare möjlighet att identifiera och hantera begrÀnsningar effektivt, sÄ att de kan förbÀttra den övergripande anvÀndarupplevelsen. Om en LLM utvÀrderas noggrant kommer den att vara noggrann och robust nog att hantera olika verkliga tillÀmpningar, Àven inklusive de med tvetydiga eller ovÀntade indata.
riktmÀrken
LLM Àr en av de mest komplicerade teknikerna hittills och kan driva Àven de svÄraste applikationerna. SÄ utvÀrderingsprocessen mÄste helt enkelt vara lika komplex, och sÀtter dess tankeprocess och tekniska noggrannhet pÄ prov.
Ett riktmÀrke anvÀnder specifika datamÀngder, mÀtvÀrden och utvÀrderingsuppgifter för att testa LLM-prestanda och gör det möjligt att jÀmföra olika LLM:er och mÀta deras noggrannhet, vilket i sin tur driver framsteg i branschen genom förbÀttrad prestanda.
HÀr Àr nÄgra av de mest typiska aspekterna av LLM-prestanda:
- Kunskap: Modellens kunskaper behöver testas över olika domÀner. Det Àr vad kunskapsriktmÀrket Àr till för. Den utvÀrderar hur effektivt modellen kan Äterkalla information frÄn olika omrÄden, som fysik, programmering, geografi, etc.
- logisk Resonemang: InnebÀr att testa en modells förmÄga att "tÀnka" steg för steg och dra en logisk slutsats, de involverar vanligtvis scenarier dÀr modellen mÄste vÀlja den mest troliga fortsÀttningen eller förklaringen baserat pÄ vardaglig kunskap och logiska resonemang.
- LÀsförstÄelse: Modeller mÄste vara utmÀrkta pÄ naturlig sprÄktolkning och sedan generera svar i enlighet med detta. Testet ser ut som att svara pÄ frÄgor baserade pÄ stycken för att mÀta förstÄelse, slutsatser och bevarande av detaljer. Som ett lÀsprov i skolan.
- KodförstÄelse: Detta behövs för att mÀta en modells fÀrdighet i att förstÄ, skriva och felsöka kod. Dessa riktmÀrken ger modellen kodningsuppgifter eller problem som modellen mÄste lösa exakt, och tÀcker ofta en rad programmeringssprÄk och paradigm.
- VÀrldskunskap: Att utvÀrdera modellens grepp om allmÀn kunskap om vÀrlden. Dessa datamÀngder har vanligtvis frÄgor som behöver bred, encyklopedisk kunskap för att besvaras korrekt, vilket skiljer dem frÄn mer specifika och specialiserade kunskapsriktmÀrken.
"Kunskap" Benchmarks
MMLU (Multimodal Language Understanding)
Detta riktmÀrke Àr gjort för att testa LLM:s grepp om faktakunskap inom olika Àmnen som humaniora, samhÀllsvetenskap, historia, datavetenskap och till och med juridik. 57 frÄgor och 15 XNUMX uppgifter alla inriktade pÄ att se till att modellen har bra resonemangsförmÄga. Detta gör MMLU till ett bra verktyg för att bedöma en LLM:s faktakunskaper och resonemang som behandlar olika Àmnen.
Nyligen har det blivit ett viktigt riktmÀrke för att utvÀrdera LLM för ovan nÀmnda omrÄden. Utvecklare vill alltid optimera sina modeller för att övertrÀffa andra i detta riktmÀrke, vilket gör det till en de facto standard för att utvÀrdera avancerade resonemang och kunskaper i LLM. Stora företagsmodeller har visat imponerande poÀng pÄ detta riktmÀrke, inklusive GPT-4-omni pÄ 88.7 %, Claude 3 Opus pÄ 86.8 %, Gemini 1.5 Pro pÄ 85.9 % och Llama-3 70B pÄ 82 %. SmÄ modeller presterar vanligtvis inte lika bra pÄ detta riktmÀrke, vanligtvis inte överstigande 60-65 %, men den senaste prestandan för Phi-3-Small-7b pÄ 75.3 % Àr nÄgot att tÀnka pÄ.
Men MMLU Àr inte utan nackdelar: den har kÀnda problem som tvetydiga frÄgor, felaktiga svaroch saknar sammanhang. Och mÄnga tror att vissa av dess uppgifter Àr för lÀtta för korrekt LLM-utvÀrdering.
Jag skulle vilja göra det klart att riktmÀrken som MMLU inte perfekt skildrar verkliga scenarier. Om en LLM uppnÄr bra poÀng pÄ detta betyder det inte alltid att den har blivit en Àmnesexpert. Benchmarks Àr egentligen ganska begrÀnsade i omfattning och förlitar sig ofta pÄ flervalsfrÄgor, som aldrig helt kan fÄnga komplexiteten och sammanhanget i verkliga interaktioner. Sann förstÄelse behöver kÀnna till fakta och tillÀmpa den kunskapen dynamiskt och detta involverar kritiskt tÀnkande, problemlösning och kontextuell förstÄelse. Av dessa skÀl behöver LLM stÀndigt förfinas och uppdateras sÄ att modellen behÄller riktmÀrkets relevans och effektivitet.
GPQA (Graduate-Level Google-Proof Q&A Benchmark)
Detta riktmÀrke bedömer LLMs pÄ logiska resonemang med hjÀlp av en dataset med bara 448 frÄgor. DomÀnexperter utvecklade den och den tÀcker Àmnen inom biologi, fysik och kemi.
Varje frÄga gÄr igenom följande valideringsprocess:
- En expert inom samma Àmne svarar pÄ frÄgan och ger detaljerad feedback.
- FrÄgeskrivaren reviderar frÄgan utifrÄn denna feedback.
- En andra expert svarar pÄ den reviderade frÄgan.
Denna process kan faktiskt se till att frĂ„gorna Ă€r objektiva, korrekta och utmanande för en sprĂ„kmodell. Ăven erfarna doktorander uppnĂ„r endast en noggrannhet pĂ„ 65 % i dessa frĂ„gor, medan GPT-4-omni endast nĂ„r 53.6 %, vilket framhĂ€ver klyftan mellan mĂ€nsklig och maskinell intelligens.
PÄ grund av de höga kvalifikationskraven Àr datasetet faktiskt ganska litet, vilket nÄgot begrÀnsar dess statistiska kraft för att jÀmföra noggrannhet, och krÀver stora effektstorlekar. Experterna som skapade och validerade dessa frÄgor kom frÄn Upwork, sÄ de introducerade potentiellt fördomar baserat pÄ deras expertis och de Àmnen som behandlas.
Kod benchmarks
HumanEval
164 programmeringsproblem, ett riktigt test för LLM:s kodningsförmÄga. Dess HumanEval. Den Àr utformad för att testa de grundlÀggande kodningsförmÄgan hos stora sprÄkmodeller (LLM). Den anvÀnder pass@k-mÄttet för att bedöma den funktionella noggrannheten hos koden som genereras, vilket matar ut sannolikheten för att minst ett av de k LLM-genererade kodexemplen klarar testfallen.
Medan HumanEval-datauppsÀttningen innehÄller funktionssignaturer, docstrings, kodkroppar och flera enhetstester, inkluderar den inte hela spektrumet av verkliga kodningsproblem, som helt enkelt inte kommer att testa en modells förmÄga att skapa korrekt kod för olika scenarier.
MBPP (Mostly Basic Python Programming)
Mbpp benchmark bestÄr av 1,000 XNUMX publikbaserade Python-programmeringsfrÄgor. Dessa Àr instegsproblem och de fokuserar pÄ grundlÀggande programmeringsfÀrdigheter. Den anvÀnder nÄgra fÄ-shot och finjusteringsmetoder för att utvÀrdera modellprestanda, med större modeller som vanligtvis presterar bÀttre pÄ denna datauppsÀttning. Men eftersom datamÀngden huvudsakligen innehÄller program pÄ nybörjarnivÄ, representerar den fortfarande inte helt komplexiteten och utmaningarna med verkliga tillÀmpningar.
Matematiska riktmÀrken
Medan de flesta LLM:er Àr ganska bra pÄ att strukturera standardsvar, Àr matematiska resonemang ett mycket större problem för dem. Varför? Eftersom det krÀver fÀrdigheter relaterade till frÄgeförstÄelse, ett steg-för-steg logiskt tillvÀgagÄngssÀtt med matematiska resonemang och att hÀrleda rÀtt svar.
Metoden "Chain of Thought" (CoT) Àr gjord för att utvÀrdera LLM:er pÄ matematikrelaterade riktmÀrken, den innebÀr att man uppmanar modeller att förklara sin steg-för-steg-resonemangsprocess nÀr de löser ett problem. Det finns flera fördelar med detta. Det gör resonemangsprocessen mer transparent, hjÀlper till att identifiera brister i modellens logik och möjliggör en mer detaljerad bedömning av problemlösningsförmÄga. Genom att bryta ner komplexa problem i en serie enklare steg kan CoT förbÀttra modellens prestanda pÄ matematiska riktmÀrken och ge djupare insikter i dess resonemangsförmÄga.
GSM8K: Ett populÀrt matematikriktmÀrke
Ett av de vÀlkÀnda riktmÀrkena för att utvÀrdera matematiska förmÄgor i LLM Àr GSM8K-datauppsÀttningen. GSM8K bestÄr av 8.5 4 matematikproblem i mitten av skolan, som tar nÄgra steg för att lösa, och lösningarna innebÀr i första hand att utföra en sekvens av elementÀra berÀkningar. Vanligtvis tenderar större modeller eller de som Àr speciellt utbildade för matematiska resonemang att prestera bÀttre pÄ detta riktmÀrke, t.ex. GPT-96.5-modeller har en poÀng pÄ 7 %, medan DeepSeekMATH-RL-88.2B ligger nÄgot efter med XNUMX %.
Ăven om GSM8K Ă€r anvĂ€ndbar för att bedöma en modells förmĂ„ga att hantera matematiska problem pĂ„ grundskolenivĂ„, kanske den inte helt fĂ„ngar en modells förmĂ„ga att lösa mer avancerade eller olika matematiska utmaningar, vilket begrĂ€nsar dess effektivitet som ett omfattande mĂ„tt pĂ„ matematisk förmĂ„ga.
Math Dataset: Ett omfattande alternativ
Matematikens datauppsÀttning behandlade bristerna i riktmÀrken som GSM8K. Denna datauppsÀttning Àr mer omfattande och tÀcker elementÀr aritmetik till gymnasiet och till och med problem pÄ högskolenivÄ. Det jÀmförs ocksÄ med mÀnniskor, med en doktorand i datavetenskap som inte gillar att matematik uppnÄr en noggrannhet pÄ 40 % och en guldmedaljör som uppnÄr en noggrannhet pÄ 90 %
Det ger en mer allsidig bedömning av en LLM:s matematiska kapacitet. Den tar hand om att bevisa att modellen Àr skicklig i grundlÀggande aritmetik och kompetent inom komplexa omrÄden som algebra, geometri och kalkyl. Men den ökade komplexiteten och mÄngfalden av problem kan göra det utmanande för modeller att uppnÄ hög noggrannhet, sÀrskilt de som inte Àr explicit trÀnade pÄ ett brett spektrum av matematiska begrepp. Dessutom kan de olika problemformaten i Math-datauppsÀttningen introducera inkonsekvenser i modellens prestanda, vilket gör det mycket svÄrare att dra definitiva slutsatser om en modells övergripande matematiska skicklighet.
Att anvÀnda Chain of Thought-metoden med Math-datauppsÀttningen kan förbÀttra utvÀrderingen eftersom den avslöjar steg-för-steg-resonemangsförmÄgan hos LLM:er över ett brett spektrum av matematiska utmaningar. Ett kombinerat tillvÀgagÄngssÀtt som detta sÀkerstÀller att det finns en mer robust och detaljerad bedömning av en LLM:s sanna matematiska förmÄga.
Benchmarks för lÀsförstÄelse
En lÀsförstÄelsebedömning utvÀrderar modellens förmÄga att förstÄ och bearbeta komplex text, vilket Àr sÀrskilt grundlÀggande för applikationer som kundsupport, innehÄllsgenerering och informationssökning. Det finns nÄgra riktmÀrken utformade för att bedöma denna fÀrdighet, var och en med unika attribut som bidrar till en omfattande utvÀrdering av en modells kapacitet.
RACE (Reading Comprehension dataset from Examinations)
RACE-riktmÀrken har nÀstan 28,000 100,000 stycken och 12 18 frÄgor insamlade frÄn de engelska proven för kinesiska elever i mellan- och gymnasieskolan mellan XNUMX och XNUMX Är. desto mer utmanande.
Den tĂ€cker ett brett spektrum av Ă€mnen och frĂ„getyper, vilket ger en grundlig bedömning och inkluderar frĂ„gor pĂ„ olika svĂ„righetsnivĂ„er. Ăven frĂ„gor i RACE Ă€r speciellt utformade för att testa mĂ€nsklig lĂ€sförmĂ„ga och skapas av domĂ€nexperter.
Men riktmÀrket har vissa nackdelar. Eftersom det Àr utvecklat pÄ kinesiskt utbildningsmaterial Àr det benÀget att introducera kulturella fördomar som inte speglar ett globalt sammanhang. Dessutom Àr den höga svÄrighetsgraden i vissa frÄgor inte representativ för typiska verkliga uppgifter. SÄ prestationsutvÀrderingar kan inte vara sÄ exakta.
DROP (diskret resonemang över stycken)
Ett annat viktigt tillvÀgagÄngssÀtt Àr DROP (Discrete Reasoning Over Paragraphs), som utmanar modeller att utföra diskreta resonemang över stycken. Den har 96,000 XNUMX frÄgor för att testa resonemangsförmÄgan hos LLM:er och frÄgorna Àr extraherade frÄn Wikipedia och crowdsourcade frÄn Amazon Mechanical Turk. DROP-frÄgor kallar ofta modeller för att utföra matematiska operationer som addition, subtraktion och jÀmförelse baserat pÄ information spridd över en passage.
FrÄgorna Àr utmanande. De krÀver att LLM:er lokaliserar flera siffror i passagen och lÀgger till eller subtraherar dem för att fÄ det slutliga svaret. Stora modeller som GPT-4 och palm uppnÄr 80 % och 85 %, medan mÀnniskor uppnÄr 96 % pÄ DROP-datauppsÀttningen.
Benchmarks för sunt förnuft
Att testa sunt förnuft i sprĂ„kmodeller Ă€r intressant men ocksĂ„ nyckeln eftersom det utvĂ€rderar en modells förmĂ„ga att göra bedömningar och slutsatser som överensstĂ€mmer med vĂ„rt â mĂ€nskliga resonemang. Till skillnad frĂ„n oss, som utvecklar en heltĂ€ckande vĂ€rldsmodell genom praktiska erfarenheter, trĂ€nas sprĂ„kmodeller pĂ„ enorma datamĂ€ngder utan att egentligen förstĂ„ sammanhanget. Detta innebĂ€r att modeller kĂ€mpar med uppgifter som krĂ€ver ett intuitivt grepp om vardagliga situationer, logiska resonemang och praktisk kunskap, vilket Ă€r mycket viktigt för robusta och pĂ„litliga AI-applikationer.
HellaSwag (HÄrdare avslutningar, lÀngre sammanhang och low-shot-aktiviteter för situationer med motstÄndskraftiga generationer)
Hellaswag Àr utvecklad av Rowan Zellers och kollegor vid University of Washington och Allen Institute for Artificial Intelligence. Den Àr utformad för att testa en modells förmÄga att förutsÀga den mest troliga fortsÀttningen av ett givet scenario. Detta riktmÀrke Àr konstruerat med hjÀlp av Adversarial Filtering (AF), dÀr en serie diskriminatorer iterativt vÀljer motstridiga maskingenererade fel svar. Denna metod skapar en datauppsÀttning med triviala exempel för mÀnniskor men utmanande för modeller, vilket resulterar i en "Goldilocks" svÄrighetszon.
Medan Hellaswag har varit utmanande för tidigare modeller, har toppmoderna modeller som GPT-4 uppnÄtt prestandanivÄer nÀra mÀnsklig noggrannhet, vilket indikerar betydande framsteg pÄ omrÄdet. Dessa resultat tyder dock pÄ behovet av stÀndigt utvecklande riktmÀrken för att hÄlla jÀmna steg med framsteg inom AI-kapacitet.
Ăppen bok
Openbook-datauppsÀttningen bestÄr av 5957 flervalsfrÄgor för vetenskap pÄ grundnivÄ. FrÄgorna samlas in frÄn tentor i öppen bok och utvecklas för att bedöma mÀnsklig förstÄelse för Àmnet.
Openbook benchmark krÀver resonemangsförmÄga bortom informationssökning. GPT-4 uppnÄr den högsta noggrannheten pÄ 95.9 % för nÀrvarande.
OpenbookQA Àr modellerad efter prov i öppen bok och bestÄr av 5,957 1,326 flervalsfrÄgor pÄ elementÀr nivÄ. Dessa frÄgor Àr utformade för att undersöka förstÄelsen av XNUMX XNUMX grundlÀggande vetenskapliga fakta och deras tillÀmpning i nya situationer.
I likhet med Hellaswag tyckte tidigare modeller att OpenbookQA var utmanande, men moderna modeller som GPT-4 har uppnÄtt nÀstan mÀnskliga prestandanivÄer. Dessa framsteg understryker vikten av att utveckla Ànnu mer komplexa och nyanserade riktmÀrken för att fortsÀtta tÀnja pÄ grÀnserna för AI-förstÄelse.
Ăr benchmarks tillrĂ€ckligt för LLM Performance Evaluation?
Ja, Àven om de tillhandahÄller en standardiserad metod för att utvÀrdera LLM-prestanda, kan de ocksÄ vara vilseledande. Large Model Systems Organization sÀger att ett bra LLM-riktmÀrke bör vara skalbart, kunna utvÀrdera nya modeller med ett relativt litet antal försök och ge en unik rankningsordning för alla modeller. Men det finns anledningar till att de kanske inte rÀcker till. HÀr Àr nÄgra:
Benchmark lÀckage
Detta Àr ett vanligt möte, och det hÀnder nÀr trÀningsdata överlappar testdata, vilket gör en missvisande utvÀrdering. Om en modell redan har stött pÄ nÄgra testfrÄgor under trÀningen kanske dess resultat inte exakt Äterspeglar dess verkliga kapacitet. Men ett idealiskt riktmÀrke bör minimera memorering och Äterspegla verkliga scenarier.
UtvÀrdering Bias
LLM benchmark leaderboards anvÀnds för att jÀmföra LLM:ers prestation pÄ olika uppgifter. Men att förlita sig pÄ dessa topplistor för modelljÀmförelse kan vara vilseledande. Enkla förÀndringar i benchmark-tester som att Àndra ordningen pÄ frÄgorna kan förÀndra rankningen av modeller med upp till Ätta positioner. Dessutom kan LLM:er prestera olika beroende pÄ poÀngmetoderna, vilket understryker vikten av att övervÀga utvÀrderingsfördomar.
Ăppet slut
LLM-interaktion i verkliga vĂ€rlden innebĂ€r att designa uppmaningar för att generera önskade AI-utdata. LLM-utdata beror pĂ„ hur effektiva uppmaningarna Ă€r, och riktmĂ€rken Ă€r utformade för att testa sammanhangsmedvetenhet om LLM. Ăven om benchmarks Ă€r utformade för att testa en LLM:s sammanhangsmedvetenhet, översĂ€tts de inte alltid direkt till verkliga prestanda. Till exempel, en modell som uppnĂ„r 100 % poĂ€ng pĂ„ en benchmarkdatauppsĂ€ttning, sĂ„som LSAT, garanterar inte samma nivĂ„ av noggrannhet i praktiska tillĂ€mpningar. Detta understryker vikten av att beakta den öppna karaktĂ€ren hos verkliga uppgifter i LLM-utvĂ€rdering.
Effektiv utvÀrdering för robusta LLM:er
SÄ nu vet du att riktmÀrken inte alltid Àr det bÀsta alternativet eftersom de inte alltid kan generalisera över alla problem. Men det finns andra sÀtt.
Anpassade riktmÀrken
Dessa Àr perfekta för att testa specifika beteenden och funktioner i uppgiftsspecifika scenarier. LÄt oss sÀga att om LLM Àr designat för lÀkare, kommer datauppsÀttningarna som samlas in frÄn medicinska miljöer att representera verkliga scenarier. Dessa anpassade riktmÀrken kan fokusera pÄ domÀnspecifik sprÄkförstÄelse, prestanda och unika kontextuella krav. Genom att anpassa riktmÀrkena med möjliga verkliga scenarier kan du sÀkerstÀlla att LLM presterar bra i allmÀnhet och utmÀrker sig i de specifika uppgifter den Àr avsedd för. Detta kan hjÀlpa till att tidigt identifiera och ÄtgÀrda eventuella luckor eller svagheter i modellens kapacitet.
Rörledning för upptÀckt av datalÀckage
Om du vill att dina utvĂ€rderingar ska "visa" integritet Ă€r det mycket viktigt att ha en datalĂ€ckagefri benchmarkpipeline. DatalĂ€ckage intrĂ€ffar nĂ€r benchmarkdata ingĂ„r i modellens förtrĂ€ningskorpus, vilket resulterar i artificiellt högpresterande poĂ€ng. För att undvika detta bör riktmĂ€rken korsreferens mot förtrĂ€ningsdata. Plus, steg för att undvika all tidigare sett information. Detta kan innebĂ€ra att du anvĂ€nder egenutvecklade eller nyligen kurerade datauppsĂ€ttningar som hĂ„lls Ă„tskilda frĂ„n modellens utbildningspipeline â detta kommer att sĂ€kerstĂ€lla att prestationsmĂ„tten du fĂ„r Ă„terspeglar modellens förmĂ„ga att generalisera vĂ€l.
MÀnsklig utvÀrdering
Automatiserade mÀtvÀrden pÄ egen hand kan inte fÄnga hela spektrumet av en modells prestanda, sÀrskilt nÀr det kommer till mycket nyanserade och subjektiva aspekter av sprÄkförstÄelse och generering. HÀr ger mÀnsklig utvÀrdering en mycket bÀttre bedömning:
- AnstÀlla proffs som kan ge detaljerade och tillförlitliga utvÀrderingar, sÀrskilt för specialiserade domÀner.
- Crowdsourcing! Plattformar som Amazon Mechanical Turk lÄter dig samla olika mÀnskliga bedömningar snabbt och till lÄg kostnad.
- Gemenskapens feedback: Att anvÀnda plattformar som LMSYS leaderboard-arenan, dÀr anvÀndare kan rösta och jÀmföra modeller, lÀgger till ett extra lager av insikt. LMSYS Chatbot Arena Hard, till exempel, Àr sÀrskilt effektiv för att framhÀva subtila skillnader mellan toppmodeller genom direkta anvÀndarinteraktioner och röster.
Slutsats
Utan utvÀrdering och benchmarking skulle vi inte ha nÄgot sÀtt att veta om LLM:s förmÄga att hantera verkliga uppgifter Àr sÄ exakt och anvÀndbar som vi tror att den Àr. Men, som jag sa, benchmarks Àr inte ett helt idiotsÀkert sÀtt att kontrollera det, de kan leda till luckor i prestanda för LLM. Detta kan ocksÄ bromsa utvecklingen av LLM:er som verkligen Àr robusta för arbete.
SÄ hÀr borde det vara i en idealisk vÀrld. LLM:er förstÄr anvÀndarfrÄgor, identifierar fel i uppmaningar, slutför uppgifter enligt instruktionerna och genererar tillförlitliga utdata. Resultaten Àr redan bra men inte idealiska. Det Àr hÀr uppgiftsspecifika riktmÀrken visar sig vara till stor hjÀlp precis som mÀnsklig utvÀrdering och detektering av riktmÀrkeslÀckage. Genom att anvÀnda dem fÄr vi en chans att producera riktigt robusta LLM.