Artificial Intelligence

Evaluatie van grote taalmodellen: een technische gids

gepubliceerd

3 maanden geleden

29 januari 2024

Grote taalmodellen (LLM's) zoals GPT-4, Claude en LLaMA zijn in populariteit geëxplodeerd. Dankzij hun vermogen om indrukwekkend mensachtige tekst te genereren, worden deze AI-systemen nu voor alles gebruikt, van het maken van inhoud tot chatbots voor klantenservice.

Maar hoe weten we of deze modellen daadwerkelijk goed zijn? Hoe kunnen we hun prestaties evalueren en vergelijken, nu er voortdurend nieuwe LLM’s worden aangekondigd die allemaal beweren groter en beter te zijn?

In deze uitgebreide handleiding verkennen we de beste technieken voor het evalueren van grote taalmodellen. We zullen kijken naar de voor- en nadelen van elke aanpak, wanneer deze het beste kunnen worden toegepast en hoe u deze kunt gebruiken bij uw eigen LLM-testen.

Taakspecifieke statistieken

Een van de meest eenvoudige manieren om een LLM te evalueren, is door deze te testen op gevestigde NLP-taken met behulp van gestandaardiseerde statistieken. Bijvoorbeeld:

Samenvattend

Voor samenvattingstaken zijn statistieken zoals ROOD (Recall-Oriented Understudy for Gisting Evaluation) worden vaak gebruikt. ROUGE vergelijkt de door het model gegenereerde samenvatting met een door mensen geschreven ‘referentie’-samenvatting, waarbij de overlap van woorden of zinsdelen wordt geteld.

Er zijn verschillende smaken ROUGE, elk met hun eigen voor- en nadelen:

ROUGE-N: Vergelijkt de overlap van n-grammen (reeksen van N woorden). ROUGE-1 gebruikt unigrammen (losse woorden), ROUGE-2 maakt gebruik van bigrams, enz. Het voordeel is dat het de woordvolgorde vastlegt, maar het kan te strikt zijn.
ROUGE-L: Gebaseerd op de langste gemeenschappelijke deelreeks (LCS). Flexibeler wat betreft woordvolgorde, maar richt zich op hoofdpunten.
ROUGE-W: Gewichten LCS komen overeen op basis van hun betekenis. Pogingen om ROUGE-L te verbeteren.

Over het algemeen zijn ROUGE-statistieken snel, automatisch en werken ze goed voor samenvattingen van classificatiesystemen. Ze meten echter geen samenhang of betekenis. Een samenvatting kan een hoge ROUGE-score krijgen en toch onzinnig zijn.

De formule voor ROUGE-N is:

$ROUGE-N = Σ ^{s \in {Referentiesamenvattingen}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Referentiesamenvattingen}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Waar:

Count_{match}(gram_n) is het aantal n-grammen in zowel de gegenereerde samenvatting als de referentiesamenvatting.
Count(gram_n) is het aantal n-grammen in de referentiesamenvatting.

Bijvoorbeeld voor ROUGE-1 (unigrammen):

Gegenereerde samenvatting: “De kat zat.”
Referentiesamenvatting: “De kat zat op de mat.”
Overlappende unigrammen: “De”, “kat”, “zat”
ROUGE-1-score = 3/5 = 0.6

ROUGE-L gebruikt de langste gemeenschappelijke deelreeks (LCS). Het is flexibeler met de woordvolgorde. De formule is:

$ROUGE-L = max(lengte(gegenereerd), lengte(referentie)) L CS ( gegenereerde , referentie )$

Waar LCS is de lengte van de langste gemeenschappelijke deelreeks.

ROUGE-W weegt de LCS-wedstrijden. Het houdt rekening met de betekenis van elke wedstrijd in de LCS.

Vertaling

Voor machinevertalingstaken, BLUE (Bilingual Evaluation Understudy) is een populaire maatstaf. BLEU meet de gelijkenis tussen de outputvertaling van het model en professionele menselijke vertalingen, met behulp van n-gram-precisie en een beknoptheidsboete.

Belangrijkste aspecten van hoe BLEU werkt:

Vergelijkt overlappingen van n-grammen voor n tot en met 4 (unigrammen, bigrams, trigrammen, 4-grammen).
Berekent een geometrisch gemiddelde van de n-gram-precisiewaarden.
Past een beknoptheidsboete toe als de vertaling veel korter is dan de referentie.
Over het algemeen varieert dit van 0 tot 1, waarbij 1 perfect overeenkomt met de referentie.

BLEU correleert redelijk goed met menselijke oordelen over vertaalkwaliteit. Maar het heeft nog steeds beperkingen:

Meet alleen de nauwkeurigheid ten opzichte van referenties, niet terugroepen of F1.
Heeft moeite met creatieve vertalingen met verschillende bewoordingen.
Gevoelig voor ‘gamen’ met vertaaltrucs.

Andere vertaalstatistieken zoals METEOR en TER proberen de zwakke punten van BLEU te verbeteren. Maar over het algemeen geven automatische statistieken de vertaalkwaliteit niet volledig weer.

Andere taken

Naast samenvatting en vertaling kunnen statistieken zoals F1, nauwkeurigheid, MSE en meer worden gebruikt om LLM-prestaties te evalueren op taken zoals:

Tekstclassificatie
Informatie-extractie
Vraag beantwoorden
Sentiment analyse
Detectie van grammaticale fouten

Het voordeel van taakspecifieke statistieken is dat de evaluatie volledig kan worden geautomatiseerd met behulp van gestandaardiseerde datasets zoals Ploeg voor QA en LIJM maatstaf voor een scala aan taken. Resultaten kunnen eenvoudig in de loop van de tijd worden gevolgd naarmate de modellen verbeteren.

Deze statistieken zijn echter beperkt gericht en kunnen de algehele taalkwaliteit niet meten. LLM's die goed presteren op het gebied van statistieken voor een enkele taak, kunnen er in het algemeen niet in slagen coherente, logische, nuttige tekst te genereren.

Onderzoeksbenchmarks

Een populaire manier om LLM's te evalueren is om ze te testen aan de hand van uitgebreide onderzoeksbenchmarks die diverse onderwerpen en vaardigheden bestrijken. Met deze benchmarks kunnen modellen snel op schaal worden getest.

Enkele bekende benchmarks zijn onder meer:

Superlijm – Uitdagende set van 11 verschillende taaltaken.
LIJM – Verzameling van 9 taken voor het begrijpen van zinnen. Eenvoudiger dan SuperGLUE.
MMLU – 57 verschillende STEM-, sociale wetenschappen en geesteswetenschappelijke taken. Test kennis en redeneervermogen.
Winograd Schema-uitdaging – Problemen met het oplossen van voornaamwoorden die een redenering met gezond verstand vereisen.
ARC – Uitdagende redeneertaken in natuurlijke taal.
Hellaswag – Redeneren met gezond verstand over situaties.
PIQA – Natuurkundige vragen waarvoor diagrammen nodig zijn.

Door dit soort benchmarks te beoordelen, kunnen onderzoekers modellen snel testen op hun vermogen om wiskunde, logica, redeneren, coderen, gezond verstand en nog veel meer uit te voeren. Het percentage correct beantwoorde vragen wordt een maatstaf voor het vergelijken van modellen.

Een groot probleem met benchmarks is echter wel besmetting van trainingsgegevens. Veel benchmarks bevatten voorbeelden die modellen al tijdens de pre-training hebben gezien. Hierdoor kunnen modellen “memoriseren”antwoorden op specifieke vragen en presteren beter dan hun werkelijke capaciteiten.

Er wordt geprobeerd om “ontsmettenbenchmarks door overlappende voorbeelden te verwijderen. Maar dit is een uitdaging om alomvattend te doen, vooral wanneer modellen mogelijk geparafraseerde of vertaalde versies van vragen hebben gezien.

Dus hoewel benchmarks een breed scala aan vaardigheden efficiënt kunnen testen, kunnen ze het ware redeneervermogen niet op betrouwbare wijze meten of de score-inflatie als gevolg van vervuiling vermijden. Er zijn aanvullende evaluatiemethoden nodig.

LLM-zelfevaluatie

Een intrigerende aanpak is om een LLM de resultaten van een andere LLM te laten evalueren. Het idee is om gebruik te maken van het ‘gemakkelijkere’ taakconcept:

Het produceren van een output van hoge kwaliteit kan moeilijk zijn voor een LLM.
Maar bepalen of een bepaalde output van hoge kwaliteit is, kan een eenvoudiger taak zijn.

Hoewel een LLM bijvoorbeeld moeite kan hebben om vanuit het niets een feitelijke, samenhangende alinea te genereren, kan hij gemakkelijker beoordelen of een bepaalde alinea logisch logisch is en in de context past.

Het proces is dus:

Geef de invoerprompt door aan de eerste LLM om uitvoer te genereren.
Geef de invoerprompt + gegenereerde uitvoer door aan de tweede “evaluator” LLM.
Stel de evaluator LLM een vraag om de kwaliteit van de output te beoordelen. bijvoorbeeld: "Is het bovenstaande antwoord logisch?"

Deze aanpak is snel te implementeren en automatiseert de LLM-evaluatie. Maar er zijn enkele uitdagingen:

De prestaties zijn sterk afhankelijk van de keuze van de LLM van de beoordelaar en de snelle formulering.
Beperkt door de moeilijkheidsgraad van de oorspronkelijke taak. Het evalueren van complexe redeneringen is nog steeds moeilijk voor LLM's.
Kan computationeel duur zijn als u op API gebaseerde LLM's gebruikt.

Zelfevaluatie is vooral veelbelovend voor het beoordelen van opgehaalde informatie RAG (ophaalbare generatie) systemen. Aanvullende LLM-query's kunnen valideren of de opgehaalde context op de juiste manier wordt gebruikt.

Over het geheel genomen laat zelfevaluatie potentieel zien, maar vereist zorgvuldigheid bij de implementatie. Het is een aanvulling op de menselijke evaluatie, in plaats van deze te vervangen.

Menselijke evaluatie

Gezien de beperkingen van geautomatiseerde statistieken en benchmarks is menselijke evaluatie nog steeds de gouden standaard voor het rigoureus beoordelen van de LLM-kwaliteit.

Deskundigen kunnen gedetailleerde kwalitatieve beoordelingen geven over:

Nauwkeurigheid en feitelijke correctheid
Logica, redenering en gezond verstand
Samenhang, consistentie en leesbaarheid
Passing van toon, stijl en stem
Grammaticaliteit en vloeiendheid
Creativiteit en nuance

Om een model te evalueren, krijgen mensen een reeks invoerprompts en de door de LLM gegenereerde antwoorden. Ze beoordelen de kwaliteit van de antwoorden, vaak met behulp van beoordelingsschalen en rubrieken.

Het nadeel is dat handmatige menselijke evaluatie duur, traag en moeilijk op te schalen is. Het vereist ook de ontwikkeling van gestandaardiseerde criteria en het trainen van beoordelaars om deze consistent toe te passen.

Sommige onderzoekers hebben creatieve manieren onderzocht om menselijke LLM-evaluaties te crowdfunden met behulp van systemen in toernooistijl waarbij mensen wedden op matchups tussen modellen en deze beoordelen. Maar de dekking is nog steeds beperkt vergeleken met volledig handmatige evaluaties.

Voor zakelijke gebruiksscenario's waarbij kwaliteit belangrijker is dan ruwe schaal, blijven deskundige menselijke tests, ondanks de kosten ervan, de gouden standaard. Dit geldt vooral voor risicovollere toepassingen van LLM's.

Conclusie

Het grondig evalueren van grote taalmodellen vereist het gebruik van een diverse toolkit van complementaire methoden, in plaats van te vertrouwen op één enkele techniek.

Door geautomatiseerde benaderingen voor snelheid te combineren met strikt menselijk toezicht op nauwkeurigheid, kunnen we betrouwbare testmethodologieën ontwikkelen voor grote taalmodellen. Met een robuuste evaluatie kunnen we het enorme potentieel van LLM's ontsluiten en tegelijkertijd hun risico's op verantwoorde wijze beheren.

Gerelateerde onderwerpen:AI GPT Lama metriek

Navigeren door het tijdperk van desinformatie: het pleidooi voor datacentrische generatieve AI

Mis het niet

De toekomst van serverloze inferentie voor grote taalmodellen

Aayush Mittal

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.

Verenig.AI

Evaluatie van grote taalmodellen: een technische gids

Artificial Intelligence

Evaluatie van grote taalmodellen: een technische gids

Inhoudsopgave