stub Utvärdera stora språkmodeller: En teknisk guide - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

Utvärdera stora språkmodeller: En teknisk guide

mm

publicerade

 on

Utvärdera stora språkmodeller

Stora språkmodeller (LLM) som GPT-4, Claude och LLaMA har exploderat i popularitet. Tack vare deras förmåga att generera imponerande människoliknande text, används dessa AI-system nu för allt från innehållsskapande till kundtjänstchatbotar.

Men hur vet vi om dessa modeller faktiskt är bra? Med nya LLMs som ständigt tillkännages, alla påstår sig vara större och bättre, hur utvärderar och jämför vi deras prestanda?

I den här omfattande guiden kommer vi att utforska de bästa teknikerna för att utvärdera stora språkmodeller. Vi kommer att titta på för- och nackdelarna med varje tillvägagångssätt, när de bäst tillämpas, och hur du kan utnyttja dem i din egen LLM-testning.

Uppgiftsspecifika mätvärden

Ett av de enklaste sätten att utvärdera en LLM är att testa den på etablerade NLP-uppgifter med hjälp av standardiserade mätvärden. Till exempel:

Sammanfattning

För sammanfattningsuppgifter, mätvärden som RÖD (Recall-Oriented Understudy for Gisting Evaluation) används ofta. ROUGE jämför den modellgenererade sammanfattningen med en mänsklig skriven "referens" sammanfattning, som räknar överlappningen av ord eller fraser.

Det finns flera smaker av ROUGE, alla med sina egna för- och nackdelar:

  • ROUGE-N: Jämför överlappning av n-gram (sekvenser av N ord). ROUGE-1 använder unigram (enkla ord), ROUGE-2 använder bigram, etc. Fördelen är att det fångar ordföljd, men det kan vara för strikt.
  • ROUGE-L: Baserat på längsta gemensamma undersekvens (LCS). Mer flexibel på ordföljd men fokuserar på huvudpunkter.
  • ROUGE-W: Vikter LCS matchar efter deras betydelse. Försök att förbättra ROUGE-L.

Generellt sett är ROUGE-mätvärden snabba, automatiska och fungerar bra för att rangordna systemsammanfattningar. Men de mäter inte koherens eller mening. En sammanfattning kan få en hög ROUGE-poäng och ändå vara nonsens.

Formeln för ROUGE-N är:

ROUGE-N=∑∈{Referenssammanfattningar}∑∑�∈{Referenssammanfattningar}∑

Var:

  • Count_{match}(gram_n) är antalet n-gram i både den genererade sammanfattningen och referenssammanfattningen.
  • Count(gram_n) är antalet n-gram i referenssammanfattningen.

Till exempel, för ROUGE-1 (unigram):

  • Genererad sammanfattning: "Katten satt."
  • Referenssammanfattning: "Katten satt på mattan."
  • Överlappande unigram: "The", "cat", "sat"
  • ROUGE-1 poäng = 3/5 = 0.6

ROUGE-L använder den längsta gemensamma undersekvensen (LCS). Det är mer flexibelt med ordföljd. Formeln är:

ROUGE-L=���(genererad,referens)max(längd(genererad), längd(referens))

Var LCS är längden på den längsta gemensamma undersekvensen.

ROUGE-W vikter som LCS matchar. Den tar hänsyn till betydelsen av varje match i LCS.

Översättning

För maskinöversättningsuppgifter, BLÅ (Bilingual Evaluation Understudy) är ett populärt mått. BLEU mäter likheten mellan modellens utgående översättning och professionella mänskliga översättningar, med n-gram-precision och ett korthetsstraff.

Nyckelaspekter av hur BLEU fungerar:

  • Jämför överlappningar av n-gram för n upp till 4 (unigram, bigram, trigram, 4-gram).
  • Beräknar ett geometriskt medelvärde av n-grams precisioner.
  • Tillämpar ett korthetsstraff om översättningen är mycket kortare än referensen.
  • I allmänhet sträcker sig från 0 till 1, där 1 är perfekt matchning till referens.

BLEU korrelerar ganska bra med mänskliga bedömningar av översättningskvalitet. Men det har fortfarande begränsningar:

  • Mäter endast precision mot referenser, inte återkallelse eller F1.
  • Kämpar med kreativa översättningar med olika formuleringar.
  • Mottaglig för "spel" med översättningsknep.

Andra översättningsmått som METEOR och TER försöker förbättra BLEU:s svagheter. Men i allmänhet fångar inte automatiska mätvärden översättningskvaliteten helt.

Andra uppgifter

Förutom sammanfattning och översättning kan mätvärden som F1, noggrannhet, MSE och mer användas för att utvärdera LLM-prestanda för uppgifter som:

  • Textklassificering
  • Informationsutvinning
  • Frågesvar
  • Sentimentanalys
  • Detektering av grammatiska fel

Fördelen med uppgiftsspecifika mätvärden är att utvärderingen kan automatiseras helt med hjälp av standardiserade datamängder som t.ex Trupp för QA och LIM riktmärke för en rad uppgifter. Resultaten kan lätt spåras över tid när modellerna förbättras.

Dessa mätvärden är dock snävt fokuserade och kan inte mäta övergripande språkkvalitet. LLM:er som presterar bra på mätvärden för en enskild uppgift kan misslyckas med att generera sammanhängande, logisk och användbar text i allmänhet.

Research Benchmarks

Ett populärt sätt att utvärdera LLM är att testa dem mot omfattande forskningsriktmärken som täcker olika ämnen och färdigheter. Dessa riktmärken gör att modeller snabbt kan testas i stor skala.

Några välkända riktmärken inkluderar:

  • Superlim – Utmanande uppsättning av 11 olika språkuppgifter.
  • LIM – Samling av 9 meningsförståelseuppgifter. Enklare än SuperGLUE.
  • MMLU – 57 olika STEM-, samhällsvetenskapliga och humanistiska uppgifter. Testar kunskap och resonemangsförmåga.
  • Winograd Schema Challenge – Pronomenupplösningsproblem som kräver sunt förnuftsresonemang.
  • BÅGE – Utmanande resonemangsuppgifter med naturligt språk.
  • Hellaswag – Sunt förnuftsresonemang om situationer.
  • PIQA – Fysiska frågor som kräver diagram.

Genom att utvärdera på riktmärken som dessa kan forskare snabbt testa modeller för deras förmåga att utföra matematik, logik, resonemang, kodning, sunt förnuft och mycket mer. Andelen korrekt besvarade frågor blir ett riktmärke för att jämföra modeller.

Ett stort problem med riktmärken är dock kontaminering av träningsdata. Många riktmärken innehåller exempel som redan sågs av modeller under förträningen. Detta gör det möjligt för modeller att "memorera” svarar på specifika frågor och presterar bättre än sina verkliga förmågor.

Det görs försök att "sanera” riktmärken genom att ta bort överlappande exempel. Men detta är utmanande att göra heltäckande, särskilt när modeller kan ha sett omskrivna eller översatta versioner av frågor.

Så även om benchmarks kan testa en bred uppsättning färdigheter effektivt, kan de inte på ett tillförlitligt sätt mäta sanna resonemangsförmåga eller undvika poänginflation på grund av kontaminering. Kompletterande utvärderingsmetoder behövs.

LLM självutvärdering

Ett spännande tillvägagångssätt är att låta en LLM utvärdera en annan LLM:s resultat. Tanken är att utnyttja det "enklare" uppgiftskonceptet:

  • Att producera en utskrift av hög kvalitet kan vara svårt för en LLM.
  • Men att avgöra om en given produktion är av hög kvalitet kan vara en lättare uppgift.

Till exempel, medan en LLM kan kämpa för att generera ett sakligt, sammanhängande stycke från början, kan det lättare bedöma om ett givet stycke är logiskt vettigt och passar sammanhanget.

Så processen är:

  1. Skicka ingångsuppmaning till första LLM för att generera utdata.
  2. Skicka ingångsuppmaning + genererad utdata till andra "utvärderare" LLM.
  3. Ställ en fråga till utvärderaren LLM för att bedöma utdatakvaliteten. t.ex. "Går svaret ovan logiskt?"

Denna metod är snabb att implementera och automatiserar LLM-utvärdering. Men det finns några utmaningar:

  • Prestanda beror mycket på val av utvärderare LLM och snabb formulering.
  • Begränsad av svårighetsgraden för den ursprungliga uppgiften. Att utvärdera komplexa resonemang är fortfarande svårt för LLMs.
  • Kan bli beräkningsmässigt dyrt om man använder API-baserade LLM:er.

Självutvärdering är särskilt lovande för att bedöma hämtad information i RAG (retrieval-augmented generation) system. Ytterligare LLM-frågor kan valideras om hämtad kontext används på rätt sätt.

Sammantaget visar självutvärdering potential men kräver omsorg vid genomförandet. Den kompletterar, snarare än ersätter, mänsklig utvärdering.

Mänsklig utvärdering

Med tanke på begränsningarna för automatiserade mätvärden och riktmärken är mänsklig utvärdering fortfarande guldstandarden för att noggrant bedöma LLM-kvalitet.

Experter kan ge detaljerade kvalitativa bedömningar om:

  • Noggrannhet och saklig riktighet
  • Logik, resonemang och sunt förnuft
  • Sammanhållning, konsekvens och läsbarhet
  • Lämplighet av ton, stil och röst
  • Grammatik och flyt
  • Kreativitet och nyanser

För att utvärdera en modell får människor en uppsättning inmatningsmeddelanden och de LLM-genererade svaren. De bedömer kvaliteten på svaren, ofta med hjälp av betygsskalor och rubriker.

Nackdelen är att manuell mänsklig utvärdering är dyr, långsam och svår att skala. Det kräver också att man utvecklar standardiserade kriterier och utbildar bedömare för att tillämpa dem konsekvent.

Vissa forskare har utforskat kreativa sätt att crowdfunda mänskliga LLM-utvärderingar med hjälp av turneringsliknande system där människor satsar på och bedömer matchningar mellan modeller. Men täckningen är fortfarande begränsad jämfört med fullständiga manuella utvärderingar.

För företagsanvändningsfall där kvalitet är viktigare än råskala, är experttestning fortfarande guldstandarden trots dess kostnader. Detta gäller särskilt för mer riskfyllda tillämpningar av LLM.

Slutsats

Att noggrant utvärdera stora språkmodeller kräver användning av en mångsidig verktygslåda av kompletterande metoder, snarare än att förlita sig på någon enskild teknik.

Genom att kombinera automatiserade tillvägagångssätt för hastighet med rigorös mänsklig tillsyn för noggrannhet, kan vi utveckla pålitliga testmetoder för stora språkmodeller. Med robust utvärdering kan vi låsa upp LLMs enorma potential samtidigt som vi hanterar deras risker på ett ansvarsfullt sätt.

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.