Kunstmatige intelligentie
Evaluatie van grote taalmodellen: een technische gids

Grote taalmodellen (LLM’s) zoals GPT-4, Claude en LLaMA zijn enorm in populariteit gestegen. Dankzij hun vermogen om indrukwekkend menselijke tekst te genereren, worden deze AI-systemen nu gebruikt voor alles, van inhoudscreatie tot klantenservicechatbots.
Maar hoe weten we of deze modellen eigenlijk goed zijn? Met nieuwe LLM’s die constant worden aangekondigd, allemaal bewerend dat ze groter en beter zijn, hoe kunnen we hun prestaties evalueren en vergelijken?
In deze uitgebreide gids zullen we de beste technieken voor het evalueren van grote taalmodellen onderzoeken. We zullen de voor- en nadelen van elke benadering bekijken, wanneer ze het beste worden toegepast en hoe u ze in uw eigen LLM-testen kunt gebruiken.
Task-Specifieke Metrics
Een van de meest rechttoe rechtaan manieren om een LLM te evalueren is door het te testen op gevestigde NLP-taken met behulp van gestandaardiseerde metrics. Bijvoorbeeld:
Samenvatting
Voor samenvattings taken worden metrics zoals ROUGE (Recall-Oriented Understudy for Gisting Evaluation) veel gebruikt. ROUGE vergelijkt de door het model gegenereerde samenvatting met een door een mens geschreven “referentie” samenvatting, door de overlap van woorden of zinnen te tellen.
Er zijn verschillende varianten van ROUGE, elk met hun eigen voor- en nadelen:
- ROUGE-N: Vergelijkt overlap van n-grammen (reeksen van N woorden). ROUGE-1 gebruikt unigrammen (enkelvoudige woorden), ROUGE-2 gebruikt bigrammen, enz. Het voordeel is dat het de woordvolgorde vastlegt, maar het kan te streng zijn.
- ROUGE-L: Gebaseerd op de langste gemeenschappelijke subreeks (LCS). Meer flexibel in woordvolgorde, maar richt zich op de belangrijkste punten.
- ROUGE-W: Weegt LCS-overeenkomsten op basis van hun belang. Probeert ROUGE-L te verbeteren.
In het algemeen zijn ROUGE-metrics snel, automatisch en werken ze goed voor het rangschikken van systeem samenvattingen. Echter, ze meten geen coherentie of betekenis. Een samenvatting kan een hoge ROUGE-score krijgen en toch nonsens zijn.
De formule voor ROUGE-N is:
ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑
Waar:
Count_{match}(gram_n)is het aantal n-grammen in zowel de gegenereerde als de referentie samenvatting.Count(gram_n)is het aantal n-grammen in de referentie samenvatting.
Bijvoorbeeld, voor ROUGE-1 (unigrammen):
- Gegenereerde samenvatting: “De kat zat.”
- Referentie samenvatting: “De kat zat op de mat.”
- Overlappende unigrammen: “De”, “kat”, “zat”
- ROUGE-1 score = 3/5 = 0,6
ROUGE-L gebruikt de langste gemeenschappelijke subreeks (LCS). Het is flexibeler met woordvolgorde. De formule is:
ROUGE-L=���(generated,reference)max(length(generated), length(reference))
Waar LCS de lengte van de langste gemeenschappelijke subreeks is.
ROUGE-W weegt de LCS-overeenkomsten. Het houdt rekening met de belangrijkheid van elke overeenkomst in de LCS.
Vertaling
Voor machinetaakvertalingstaken is BLEU (Bilingual Evaluation Understudy) een populaire metric. BLEU meet de gelijkenis tussen de uitvoer van het model en professionele menselijke vertalingen, met behulp van n-gram precisie en een straf voor kortere vertalingen.
Sleutelaspecten van hoe BLEU werkt:
- Vergelijkt overlappen van n-grammen voor n tot 4 (unigrammen, bigrammen, trigrammen, 4-grammen).
- Berekent een meetkundig gemiddelde van de n-gram precisies.
- Past een straf voor kortere vertalingen toe als de vertaling veel korter is dan de referentie.
- Varieert meestal tussen 0 en 1, waarbij 1 een perfecte overeenkomst met de referentie is.
BLEU correleert redelijk goed met menselijke oordelen over de kwaliteit van de vertaling. Maar het heeft nog steeds beperkingen:
- Meet alleen precisie tegenover referenties, niet recall of F1.
- Heeft moeite met creatieve vertalingen met andere woorden.
- Gevolg voor “gaming” met vertalingstrucs.
Andere vertaalmetrics zoals METEOR en TER proberen BLEU’s zwakke punten te verbeteren. Maar in het algemeen vangen automatische metrics de vertaalingskwaliteit niet volledig.
Andere taken
Naast samenvatting en vertaling, kunnen metrics zoals F1, nauwkeurigheid, MSE en meer worden gebruikt om de prestaties van LLM’s te evalueren op taken zoals:
- Tekstclassificatie
- Informatie-extractie
- Vraagbeantwoording
- Sentimentanalyse
- Grammaticale foutdetectie
Het voordeel van taak-specifieke metrics is dat de evaluatie volledig geautomatiseerd kan worden met behulp van gestandaardiseerde datasets zoals SQuAD voor QA en GLUE benchmark voor een reeks taken. Resultaten kunnen gemakkelijk over tijd worden bijgehouden naarmate modellen verbeteren.
Echter, deze metrics zijn smal gefocust en kunnen de algehele taalkwaliteit niet meten. LLM’s die goed presteren op metrics voor een enkele taak, kunnen falen bij het genereren van coherente, logische, nuttige tekst in het algemeen.
Onderzoeksbenchmarks
Een populaire manier om LLM’s te evalueren is door ze te testen tegen uitgebreide onderzoeksbenchmarks die diverse onderwerpen en vaardigheden dekken. Deze benchmarks stellen modellen in staat om snel op grote schaal te worden getest.
Enkele bekende benchmarks zijn:
- SuperGLUE – Een uitdagende set van 11 diverse taaltaken.
- GLUE – Een collectie van 9 zinbegrips taken. Eenvoudiger dan SuperGLUE.
- MMLU – 57 verschillende STEM-, sociale wetenschappen- en geesteswetenschappelijke taken. Test kennis en redeneervaardigheid.
- Winograd Schema Challenge – Pronoomresolutieproblemen die gezond verstand vereisen.
- ARC – Uitdagende natuurlijke taalredeneertaken.
- Hellaswag – Gezond verstand redeneren over situaties.
- PIQA – Fysica vragen die diagrammen vereisen.
Door te evalueren op benchmarks zoals deze, kunnen onderzoekers snel modellen testen op hun vermogen om wiskunde, logica, redenering, codering, gezond verstand en veel meer te doen. Het percentage correct beantwoorde vragen wordt een benchmarkmetric voor het vergelijken van modellen.
Echter, een groot probleem met benchmarks is trainingsgegevensverontreiniging. Veel benchmarks bevatten voorbeelden die al door modellen zijn gezien tijdens de voorafgaande training. Dit stelt modellen in staat om “antwoorden” op specifieke vragen te onthouden en beter te presteren dan hun werkelijke capaciteiten.
Pogingen worden gedaan om benchmarks “te decontamineren” door overlappende voorbeelden te verwijderen. Maar dit is moeilijk te doen, vooral wanneer modellen mogelijk parafraseerde of vertaalde versies van vragen hebben gezien.
Dus, terwijl benchmarks een brede set vaardigheden efficiënt kunnen testen, kunnen ze de werkelijke redeneervaardigheden niet betrouwbaar meten of score-inflatie door verontreiniging voorkomen. Aanvullende evaluatiemethoden zijn nodig.
LLM-Zelfevaluatie
Een intrigerende benadering is om een LLM de uitvoer van een andere LLM te laten evalueren. Het idee is om het “eenvoudigere” taakconcept te benutten:
- Het produceren van een hoge kwaliteit uitvoer kan moeilijk zijn voor een LLM.
- Maar bepalen of een gegeven uitvoer van hoge kwaliteit is, kan een eenvoudigere taak zijn.
Bijvoorbeeld, terwijl een LLM moeite kan hebben om een feitelijke, coherente alinea van scratch te genereren, kan het gemakkelijker bepalen of een gegeven alinea logisch is en past bij de context.
Dus het proces is:
- Geef de invoerprompt door aan de eerste LLM om uitvoer te genereren.
- Geef de invoerprompt + gegenereerde uitvoer door aan de tweede “evaluator” LLM.
- Vraag de evaluator LLM een vraag om de kwaliteit van de uitvoer te beoordelen. bijv. “Maakt de bovenstaande reactie logische zin?”
Deze benadering is snel te implementeren en automatiseert LLM-evaluatie. Maar er zijn enkele uitdagingen:
- Prestaties zijn sterk afhankelijk van de keuze van de evaluator LLM en de formulering van de prompt.
- Wordt beperkt door de moeilijkheid van de oorspronkelijke taak. Evalueren van complexe redenering is nog steeds moeilijk voor LLM’s.
- Kan computationeel duur zijn als API-gebaseerde LLM’s worden gebruikt.
Zelfevaluatie is vooral veelbelovend voor het beoordelen van opgehaalde informatie in RAG (retrieval-augmented generation) systemen. Aanvullende LLM-vragen kunnen valideren of opgehaalde context op de juiste manier wordt gebruikt.
Al met al toont zelfevaluatie potentieel, maar vereist zorgvuldige implementatie. Het vult, in plaats van vervangt, menselijke evaluatie aan.
Menselijke Evaluatie
Gezien de beperkingen van geautomatiseerde metrics en benchmarks, is menselijke evaluatie nog steeds de gouden standaard voor het grondig evalueren van LLM-kwaliteit.
Deskundigen kunnen gedetailleerde kwalitatieve beoordelingen geven over:
- Accuratesse en feitelijke correctheid
- Logica, redenering en gezond verstand
- Coherentie, consistentie en leesbaarheid
- Passendheid van toon, stijl en stem
- Grammaticaliteit en vloeiendheid
- Creativiteit en nuance
Om een model te evalueren, krijgen mensen een set invoerprompt en de LLM-gegenereerde reacties. Ze beoordelen de kwaliteit van de reacties, vaak met behulp van beoordelingsschalen en rubrieken.
Het nadeel is dat handmatige menselijke evaluatie duur, langzaam en moeilijk schaalbaar is. Het vereist ook het ontwikkelen van gestandaardiseerde criteria en het trainen van beoordelaars om ze consistent toe te passen.
Sommige onderzoekers hebben creatieve manieren onderzocht om menselijke LLM-evaluaties te crowdfunden met behulp van toernooistijlsystemen waarin mensen wedden op en beoordelen matchups tussen modellen. Maar de dekking is nog steeds beperkt in vergelijking met volledige handmatige evaluaties.
Voor bedrijfsgevallen waar kwaliteit meer telt dan brute kracht, blijft expertmenselijke testen de gouden standaard, ondanks de kosten. Dit is vooral waar voor riskantere toepassingen van LLM’s.
Conclusie
Het grondig evalueren van grote taalmodellen vereist het gebruik van een diverse set aanvullende methoden, in plaats van te vertrouwen op één enkele techniek.
Door geautomatiseerde benaderingen voor snelheid te combineren met grondige menselijke toezicht voor nauwkeurigheid, kunnen we betrouwbare testmethoden voor grote taalmodellen ontwikkelen. Met robuuste evaluatie kunnen we het enorme potentieel van LLM’s ontsluiten en hun risico’s verantwoordelijk beheren.












