Artificiell intelligens

Utvärdering av stora språkmodeller: En teknisk guide

Published January 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Stora språkmodeller (LLM) som GPT-4, Claude och LLaMA har exploderat i popularitet. Tack vare deras förmåga att generera imponerande mänskligt språk används dessa AI-system nu för allt från innehållsskapande till kundtjänstchattbotar.

Men hur vet vi om dessa modeller verkligen är bra? Med nya LLM som tillkännages konstant, alla påstående att de är större och bättre, hur utvärderar och jämför vi deras prestanda?

I denna omfattande guide kommer vi att utforska de bästa teknikerna för att utvärdera stora språkmodeller. Vi kommer att titta på fördelarna och nackdelarna med varje tillvägagångssätt, när de är bäst lämpade och hur du kan utnyttja dem i dina egna LLM-tester.

Uppgiftsspecifika mått

En av de mest raka sätten att utvärdera en LLM är att testa den på etablerade NLP-uppgifter med standardiserade mått. Till exempel:

Sammanfattning

För sammanfattningsuppgifter används mått som ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ofta. ROUGE jämför modellgenererad sammanfattning med en mänsklig “referens” sammanfattning, räknar överlappningen av ord eller fraser.

Det finns flera varianter av ROUGE, var och en med sina egna fördelar och nackdelar:

ROUGE-N: Jämför överlappning av n-gram (sekvenser av N ord). ROUGE-1 använder unigram (enskilda ord), ROUGE-2 använder bigram, etc. Fördelen är att det fångar ordordningen, men det kan vara för strikt.
ROUGE-L: Baserat på längsta gemensamma subsekvensen (LCS). Mer flexibel på ordordning men fokuserar på huvudpunkter.
ROUGE-W: Viktar LCS-matcher med deras betydelse. Försöker förbättra ROUGE-L.

I allmänhet är ROUGE-mått snabba, automatiska och fungerar bra för att rangordna systemets sammanfattningar. Men de mäter inte sammanhang eller mening. En sammanfattning kunde få ett högt ROUGE-poäng och fortfarande vara meningslös.

Formeln för ROUGE-N är:

$ROUGE-N = \sum ^{s \in {Referenssammanfattningar}} \sum ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) \sum ^{s \in {Referenssammanfattningar}} \sum ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Där:

Count_{match}(gram_n) är antalet n-gram i både den genererade och referenssammanfattningen.
Count(gram_n) är antalet n-gram i referenssammanfattningen.

Till exempel, för ROUGE-1 (unigram):

Genererad sammanfattning: “Katten satt.”
Referenssammanfattning: “Katten satt på mattan.”
Överlappande unigram: “Katten”, “satt”
ROUGE-1-poäng = 3/5 = 0,6

ROUGE-L använder den längsta gemensamma subsekvensen (LCS). Det är mer flexibelt med ordordning. Formeln är:

$ROUGE-L = max(length(genererad), length(referens)) L CS ( genererad , referens )$

Där LCS är längden på den längsta gemensamma subsekvensen.

ROUGE-W viktar LCS-matcher. Det tar hänsyn till betydelsen av varje match i LCS.

Översättning

För maskinöversättningsuppgifter är BLEU (Bilingual Evaluation Understudy) ett populärt mått. BLEU mäter likheten mellan modellens utdataöversättning och professionella mänskliga översättningar, med n-gram precision och en straff för brist på fullständighet.

Nyckelaspekter av hur BLEU fungerar:

Jämför överlappning av n-gram för n upp till 4 (unigram, bigram, trigram, 4-gram).
Beräknar en geometrisk medelvärde av n-gram precisions.
Tillämpar en straff för brist på fullständighet om översättning är mycket kortare än referens.
Vanligtvis varierar mellan 0 och 1, med 1 som är en perfekt match till referens.

BLEU korrelerar rimligt väl med mänskliga bedömningar av översättningskvalitet. Men det har fortfarande begränsningar:

Mäter endast precision mot referenser, inte återkallande eller F1.
Har svårt med kreativa översättningar som använder olika ord.
Känslig för “gaming” med översättningsknep.

Andra översättningsmått som METEOR och TER försöker förbättra BLEU:s svagheter. Men i allmänhet fångar automatiska mått inte fullständigt översättningskvalitet.

Andra uppgifter

Förutom sammanfattning och översättning kan mått som F1, noggrannhet, MSE och mer användas för att utvärdera LLM-prestanda på uppgifter som:

Textklassificering
Informationsextraktion
Frågesvar
Sentimentanalys
Grammatisk felidentifiering

Fördelen med uppgiftsspecifika mått är att utvärdering kan vara fullständigt automatiserad med standardiserade datamängder som SQuAD för QA och GLUE-benchmark för en rad uppgifter. Resultat kan enkelt spåras över tid när modeller förbättras.

Men dessa mått är smalt fokuserade och kan inte mäta övergripande språkkvalitet. LLM som presterar bra på mått för en enskild uppgift kan misslyckas med att generera sammanhängande, logisk, hjälpsam text i allmänhet.

Forskningsbenchmark

En populär metod för att utvärdera LLM är att testa dem mot omfattande forskningsbenchmark som täcker olika ämnen och färdigheter. Dessa benchmark tillåter modeller att testas snabbt i stor skala.

Några välkända benchmark är:

SuperGLUE – En utmanande uppsättning av 11 olika språkuppgifter.
GLUE – En samling av 9 meningförståelseuppgifter. Enklare än SuperGLUE.
MMLU – 57 olika STEM-, samhälls- och humanistiska uppgifter. Testar kunskap och resonemangs förmåga.
Winograd Schema Challenge – Pronomenlösning som kräver sunt förnuft.
ARC – Utmanande naturliga språkresonemangs uppgifter.
Hellaswag – Sunt förnuft om situationer.
PIQA – Fysikfrågor som kräver diagram.

Genom att utvärdera på benchmark som dessa kan forskare snabbt testa modeller på deras förmåga att utföra matematik, logik, resonemang, kodning, sunt förnuft och mycket mer. Procentandelen korrekt besvarade frågor blir ett benchmark-mått för att jämföra modeller.

Men ett stort problem med benchmark är träningsdata förorening. Många benchmark innehåller exempel som redan har setts av modeller under förträning. Detta möjliggör för modeller att “memorera” svar på specifika frågor och prestera bättre än deras verkliga förmåga.

Försök görs för att “avförorena” benchmark genom att ta bort överlappande exempel. Men detta är svårt att göra omfattande, särskilt när modeller kan ha sett parafraserade eller översatta versioner av frågor.

Så medan benchmark kan testa en bred uppsättning färdigheter effektivt, kan de inte tillförlitligt mäta sann resonemangs förmåga eller undvika poänginflation på grund av förorening. Kompletterande utvärderingsmetoder behövs.

LLM-självutvärdering

En intressant metod är att låta en LLM utvärdera en annan LLM:s utdata. Idén är att utnyttja “lättare” uppgiftskoncept:

Att producera en högkvalitativ utdata kan vara svårt för en LLM.
Men att bestämma om en given utdata är av hög kvalitet kan vara en lättare uppgift.

Till exempel, medan en LLM kan ha svårt att generera en faktuell, sammanhängande paragraf från scratch, kan den mer lätt bedöma om en given paragraf har logisk mening och passar sammanhanget.

Så processen är:

Skicka inmatningsprompt till första LLM för att generera utdata.
Skicka inmatningsprompt + genererad utdata till andra “utvärderare” LLM.
Be utvärderare LLM en fråga för att bedöma utdatans kvalitet. t.ex. “Har ovanstående svar logisk mening?”

Denna metod är snabb att implementera och automatiserar LLM-utvärdering. Men det finns några utmaningar:

Prestanda beror starkt på valet av utvärderare LLM och promptformulering.
Begränsas av svårigheten hos den ursprungliga uppgiften. Utvärdering av komplex resonemang är fortfarande svårt för LLM.
Kan vara beräkningsmässigt dyrt om API-baserade LLM används.

Självutvärdering är särskilt lovande för att bedöma hämtad information i RAG (retrieval-augmented generation) system. Ytterligare LLM-frågor kan validera om hämtat sammanhang används på rätt sätt.

Sammanfattningsvis visar självutvärdering potential men kräver omsorg vid implementering. Det kompletterar, snarare än ersätter, mänsklig utvärdering.

Mänsklig utvärdering

Med tanke på begränsningarna hos automatiserade mått och benchmark är mänsklig utvärdering fortfarande guldstandarden för att rigoröst bedöma LLM-kvalitet.

Experter kan ge detaljerade kvalitativa bedömningar av:

Noggrannhet och faktuell korrekthet
Logik, resonemang och sunt förnuft
Sammanhang, konsekvens och läsbarhet
Lämplighet av ton, stil och röst
Grammatiskhet och flyt
Kreativitet och nyans

För att utvärdera en modell ges mänskliga bedömare en uppsättning inmatningsprompt och LLM-genererade svar. De bedömer kvaliteten på svaren, ofta med hjälp av bedömnings skalor och rubriker.

Nackdelen är att manuell mänsklig utvärdering är dyrt, långsamt och svårt att skala. Det kräver också utveckling av standardiserade kriterier och utbildning av bedömare för att tillämpa dem konsekvent.

Några forskare har utforskat kreativa sätt att crowdfunda mänsklig LLM-utvärdering med hjälp av turneringsstil system där människor satsar på och bedömer matchningar mellan modeller. Men täckningen är fortfarande begränsad jämfört med fullständig manuell utvärdering.

För affärsanvändningsfall där kvalitet är viktigare än rå skala, förblir expertmänsklig testning guldstandarden trots kostnaderna. Detta är särskilt sant för riskfyllda tillämpningar av LLM.

Slutsats

Att utvärdera stora språkmodeller grundligt kräver användning av en diversifierad verktygslåda med kompletterande metoder, snarare än att förlita sig på en enda teknik.

Genom att kombinera automatiserade tillvägagångssätt för hastighet med rigorös mänsklig tillsyn för noggrannhet, kan vi utveckla tillförlitliga testmetoder för stora språkmodeller. Med robust utvärdering kan vi låsa upp den enorma potentialen hos LLM samtidigt som vi hanterar riskerna på ett ansvarsfullt sätt.

Aayush Mittal

Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.

Unite.AI