stub Evaluering af store sprogmodeller: En teknisk vejledning - Unite.AI
Følg os

Kunstig intelligens

Evaluering af store sprogmodeller: En teknisk vejledning

mm

Udgivet

 on

Evaluering af store sprogmodeller

Store sprogmodeller (LLM'er) som GPT-4, Claude og LLaMA er eksploderet i popularitet. Takket være deres evne til at generere imponerende menneskelignende tekst, bliver disse AI-systemer nu brugt til alt fra indholdsskabelse til kundeservice chatbots.

Men hvordan ved vi, om disse modeller rent faktisk er gode? Med nye LLM'er, der konstant annonceres, som alle hævder at være større og bedre, hvordan evaluerer og sammenligner vi deres præstationer?

I denne omfattende guide vil vi udforske de bedste teknikker til evaluering af store sprogmodeller. Vi vil se på fordele og ulemper ved hver tilgang, hvornår de bedst anvendes, og hvordan du kan udnytte dem i din egen LLM-test.

Opgavespecifikke målinger

En af de mest ligefremme måder at evaluere en LLM på er at teste den på etablerede NLP-opgaver ved hjælp af standardiserede metrics. For eksempel:

Resumé

Til opsummeringsopgaver kan målinger som f.eks RED (Recall-Oriented Understudy for Gisting Evaluation) er almindeligt anvendt. ROUGE sammenligner det modelgenererede resumé med et menneskeskrevet "reference"-resumé, der tæller overlapningen af ​​ord eller sætninger.

Der er flere varianter af ROUGE, hver med deres egne fordele og ulemper:

  • ROUGE-N: Sammenligner overlap af n-gram (sekvenser af N ord). ROUGE-1 bruger unigrammer (enkeltord), ROUGE-2 bruger bigrammer osv. Fordelen er, at den fanger ordrækkefølge, men den kan være for streng.
  • ROUGE-L: Baseret på længste fælles subsequence (LCS). Mere fleksibel på ordstilling, men fokuserer på hovedpunkter.
  • ROUGE-W: Vægte LCS matcher efter deres betydning. Forsøg på at forbedre ROUGE-L.

Generelt er ROUGE-målinger hurtige, automatiske og fungerer godt til rangering af systemoversigter. Men de måler ikke sammenhæng eller mening. Et resumé kunne få en høj ROUGE-score og stadig være useriøs.

Formlen for ROUGE-N er:

ROUGE-N=∑∈{Referenceoversigter}∑∑�∈{Referenceoversigter}∑

Hvor:

  • Count_{match}(gram_n) er antallet af n-gram i både den genererede oversigt og referenceoversigten.
  • Count(gram_n) er antallet af n-gram i referenceoversigten.

For eksempel for ROUGE-1 (unigram):

  • Genereret oversigt: "Katten sad."
  • Referenceoversigt: "Katten sad på måtten."
  • Overlappende unigrammer: "The", "cat", "sat"
  • ROUGE-1 score = 3/5 = 0.6

ROUGE-L bruger den længste fælles undersekvens (LCS). Det er mere fleksibelt med ordstilling. Formlen er:

ROUGE-L=���(genereret,reference)max(længde(genereret), længde(reference))

Hvor LCS er længden af ​​den længste fælles undersekvens.

ROUGE-W vægter LCS matcher. Den overvejer betydningen af ​​hver kamp i LCS.

Oversættelse

Til maskinoversættelsesopgaver, BLUE (Bilingual Evaluation Understudy) er en populær metrik. BLEU måler ligheden mellem modellens output-oversættelse og professionelle menneskelige oversættelser ved hjælp af n-gram-præcision og en korthedsstraf.

Nøgleaspekter af, hvordan BLEU virker:

  • Sammenligner overlapninger af n-gram for n op til 4 (unigram, bigram, trigram, 4-gram).
  • Beregner et geometrisk gennemsnit af n-gram-præcisionerne.
  • Pålægger en korthedsstraf, hvis oversættelsen er meget kortere end referencen.
  • Generelt varierer fra 0 til 1, hvor 1 er perfekt match til reference.

BLEU korrelerer rimeligt godt med menneskelige vurderinger af oversættelseskvalitet. Men det har stadig begrænsninger:

  • Måler kun præcision mod referencer, ikke genkald eller F1.
  • Kæmper med kreative oversættelser ved hjælp af forskellige formuleringer.
  • Modtagelig for "spil" med oversættelsestricks.

Andre oversættelsesmålinger som METEOR og TER forsøger at forbedre BLEUs svagheder. Men generelt fanger automatiske målinger ikke fuldt ud oversættelseskvaliteten.

Andre opgaver

Ud over opsummering og oversættelse kan målinger som F1, nøjagtighed, MSE og mere bruges til at evaluere LLM-ydeevne på opgaver som:

  • Tekstklassificering
  • Informationsudtræk
  • Besvarelse af spørgsmål
  • Følelsesanalyse
  • Registrering af grammatisk fejl

Fordelen ved opgavespecifikke metrikker er, at evaluering kan automatiseres fuldt ud ved hjælp af standardiserede datasæt som f.eks SQUAD for QA og lIM benchmark for en række opgaver. Resultater kan nemt spores over tid, efterhånden som modeller forbedres.

Disse målinger er dog snævert fokuserede og kan ikke måle den overordnede sprogkvalitet. LLM'er, der klarer sig godt på metrics for en enkelt opgave, kan mislykkes med at generere sammenhængende, logisk, nyttig tekst generelt.

Research Benchmarks

En populær måde at evaluere LLM'er på er at teste dem i forhold til omfattende forskningsbenchmarks, der dækker forskellige emner og færdigheder. Disse benchmarks gør det muligt for modeller hurtigt at blive testet i skala.

Nogle velkendte benchmarks inkluderer:

  • Super lim – Udfordrende sæt af 11 forskellige sprogopgaver.
  • lIM – Samling af 9 sætningsforståelsesopgaver. Enklere end SuperGLUE.
  • MMLU – 57 forskellige STEM-, samfundsvidenskabelige og humanistiske opgaver. Tester viden og ræsonnement.
  • Winograd Schema Challenge – Pronomenopløsningsproblemer, der kræver sund fornuft.
  • ARC – Udfordrende ræsonnement i naturligt sprog.
  • Hellaswag – Sund fornuft ræsonnement om situationer.
  • PIQA – Fysiske spørgsmål, der kræver diagrammer.

Ved at evaluere på benchmarks som disse kan forskere hurtigt teste modeller for deres evne til at udføre matematik, logik, ræsonnement, kodning, sund fornuft og meget mere. Procentdelen af ​​spørgsmål, der er besvaret korrekt, bliver en benchmark-måling til sammenligning af modeller.

Et stort problem med benchmarks er dog forurening af træningsdata. Mange benchmarks indeholder eksempler, der allerede blev set af modeller under fortræning. Dette gør det muligt for modeller at "huske” svarer på specifikke spørgsmål og yder bedre end deres sande evner.

Der gøres forsøg på at "rense” benchmarks ved at fjerne overlappende eksempler. Men dette er udfordrende at gøre omfattende, især når modeller kan have set omskrevet eller oversat versioner af spørgsmål.

Så selvom benchmarks kan teste et bredt sæt af færdigheder effektivt, kan de ikke pålideligt måle sande ræsonnementevner eller undgå scoreinflation på grund af forurening. Der er behov for supplerende evalueringsmetoder.

LLM Selvevaluering

En spændende tilgang er at få en LLM til at evaluere en anden LLM's output. Ideen er at udnytte det "lettere" opgavekoncept:

  • At producere et output af høj kvalitet kan være svært for en LLM.
  • Men det kan være en lettere opgave at afgøre, om et givet output er af høj kvalitet.

For eksempel, mens en LLM kan kæmpe for at generere et faktuelt, sammenhængende afsnit fra bunden, kan det lettere vurdere, om et givet afsnit giver logisk mening og passer til konteksten.

Så processen er:

  1. Send inputprompt til første LLM for at generere output.
  2. Send inputprompt + genereret output til anden "evaluator" LLM.
  3. Stil evaluator LLM et spørgsmål for at vurdere outputkvaliteten. f.eks. "Gir ovenstående svar logisk mening?"

Denne tilgang er hurtig at implementere og automatiserer LLM-evaluering. Men der er nogle udfordringer:

  • Ydeevne afhænger i høj grad af valg af evaluator LLM og hurtig formulering.
  • Begrænset af sværhedsgraden af ​​den oprindelige opgave. Det er stadig svært for LLM'er at evaluere komplekse ræsonnementer.
  • Kan være beregningsmæssigt dyrt, hvis du bruger API-baserede LLM'er.

Selvevaluering er især lovende til vurdering af hentet information i RAG (genfinding-augmented generation) systemer. Yderligere LLM-forespørgsler kan validere, hvis den hentede kontekst bruges korrekt.

Overordnet set viser selvevaluering potentiale, men kræver omhu i implementeringen. Det supplerer, snarere end erstatter, menneskelig evaluering.

Menneskelig evaluering

I betragtning af begrænsningerne af automatiserede målinger og benchmarks er menneskelig evaluering stadig guldstandarden for streng vurdering af LLM-kvalitet.

Eksperter kan give detaljerede kvalitative vurderinger om:

  • Nøjagtighed og faktuel rigtighed
  • Logik, ræsonnement og sund fornuft
  • Sammenhæng, konsekvens og læsbarhed
  • Egnethed af tone, stil og stemme
  • Grammatik og flydende
  • Kreativitet og nuance

For at evaluere en model får mennesker et sæt input-prompter og de LLM-genererede svar. De vurderer kvaliteten af ​​svarene, ofte ved hjælp af vurderingsskalaer og rubrikker.

Ulempen er, at manuel menneskelig evaluering er dyr, langsom og svær at skalere. Det kræver også udvikling af standardiserede kriterier og uddannelse af bedømmere for at anvende dem konsekvent.

Nogle forskere har undersøgt kreative måder at crowdfunde menneskelige LLM-evalueringer på ved hjælp af turneringslignende systemer, hvor folk satser på og bedømmer matchups mellem modeller. Men dækningen er stadig begrænset i forhold til fuld manuelle evalueringer.

For forretningsbrug, hvor kvalitet betyder mere end rå skala, forbliver eksperttestning af mennesker guldstandarden på trods af omkostningerne. Dette gælder især for mere risikable anvendelser af LLM'er.

Konklusion

En grundig evaluering af store sprogmodeller kræver brug af et mangfoldigt værktøjssæt af komplementære metoder, snarere end at stole på en enkelt teknik.

Ved at kombinere automatiserede tilgange til hastighed med streng menneskelig overvågning for nøjagtighed, kan vi udvikle troværdige testmetoder til store sprogmodeller. Med robust evaluering kan vi frigøre LLM'ers enorme potentiale, mens vi håndterer deres risici ansvarligt.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.