Thought leaders

Benchmarks voor LLM’s

Published August 28, 2024

Updated May 20, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Ontdek de rol en beperkingen van benchmarks bij de evaluatie van de prestaties van LLM’s. Verken de technieken voor het ontwikkelen van robuuste LLM’s.

Large Language Models hebben de afgelopen jaren een enorme populariteit verworven. Ik bedoel, je hebt het gezien. De uitzonderlijke mogelijkheid van LLM’s om menselijke taalopdrachten te begrijpen, heeft hen tot de perfecte integratie voor bedrijven gemaakt, waardoor kritieke workflows worden ondersteund en taken worden geautomatiseerd voor maximale efficiëntie. Bovendien is er, voorbij het gemiddelde begrip van de gebruiker, nog veel meer dat LLM’s kunnen doen. En naarmate onze afhankelijkheid van hen groeit, moeten we echt meer aandacht besteden aan maatregelen om de benodigde nauwkeurigheid en betrouwbaarheid te garanderen. Dit is een wereldwijde taak die hele instellingen aangaat, maar in het domein van bedrijven zijn er nu verschillende benchmarks die kunnen worden gebruikt om de prestaties van LLM’s te evalueren in verschillende domeinen. Deze kunnen de mogelijkheden van het model testen op het gebied van begrip, logisch redeneren, wiskunde enzovoort, en de resultaten bepalen of een LLM klaar is voor bedrijfsimplementatie.

In dit artikel heb ik een uitgebreide lijst samengesteld van de meest populaire benchmarks voor LLM-evaluatie. We zullen elke benchmark in detail bespreken en zien hoe verschillende LLM’s presteren tegen de evaluatiecriteria. Maar eerst, laten we LLM-evaluatie in meer detail begrijpen.

Wat is LLM-evaluatie?

Net als andere AI-modellen, moeten LLM’s ook worden geëvalueerd tegen specifieke benchmarks die verschillende aspecten van de prestaties van het taalmodel beoordelen: kennis, nauwkeurigheid, betrouwbaarheid en consistentie. De standaard omvat meestal:

Gebruikersaanvragen begrijpen: Het evalueren van de mogelijkheid van het model om een breed scala aan gebruikersinvoer nauwkeurig te begrijpen en te interpreteren.
Uitvoer verifiëren: Het verifiëren van de door de AI gegenereerde antwoorden tegen een vertrouwd kennisbasis om ervoor te zorgen dat ze correct en relevant zijn.
Robuustheid: Het meten van hoe goed het model presteert met dubbelzinnige, onvolledige of lawaaierige invoer.

LLM-evaluatie geeft ontwikkelaars de mogelijkheid om beperkingen efficiënt te identificeren en aan te pakken, zodat ze de totale gebruikerservaring kunnen verbeteren. Als een LLM grondig wordt geëvalueerd, zal het nauwkeurig en robuust genoeg zijn om verschillende real-world-toepassingen aan te kunnen, zelfs die met dubbelzinnige of onverwachte invoer.

Benchmarks

LLM’s zijn een van de meest complexe stukken technologie tot nu toe en kunnen zelfs de moeilijkste toepassingen aandrijven. Dus het evaluatieproces moet net zo complex zijn, waarbij het denkproces en de technische nauwkeurigheid worden getest.

Een benchmark gebruikt specifieke datasets, metrics en evaluatietaken om de prestaties van LLM’s te testen en stelt u in staat om verschillende LLM’s te vergelijken en hun nauwkeurigheid te meten, wat op zijn beurt de vooruitgang in de industrie drijft door verbeterde prestaties.

Hier zijn enkele van de meest typische aspecten van LLM-prestaties:

Kennis: De kennis van het model moet worden getest in verschillende domeinen. Dat is waar de kennisbenchmark voor is. Het evalueert hoe effectief het model informatie uit verschillende gebieden kan oproepen, zoals Fysica, Programmeren, Geografie enzovoort.
Logisch redeneren: Het testen van de mogelijkheid van het model om ‘stap voor stap’ te denken en een logische conclusie te trekken, meestal met scenario’s waarin het model de meest plausibele voortzetting of verklaring moet kiezen op basis van alledaagse kennis en logisch redeneren.
Leesvaardigheid: Modellen moeten uitstekend zijn in natuurlijke taalinterpretatie en vervolgens antwoorden genereren. De test ziet eruit als het beantwoorden van vragen op basis van passages om begrip, inferentie en detailbehoud te meten. Net als een schoolleesproef.
Codebegrip: Dit is nodig om de vaardigheid van het model in het begrijpen, schrijven en debuggen van code te meten. Deze benchmarks geven het model codetaken of -problemen die het model moet oplossen, vaak in een reeks programmeertalen en -paradigma’s.
Wereldkennis: Om de greep van het model op algemene kennis over de wereld te evalueren. Deze datasets bevatten typisch vragen die brede, encyclopedische kennis vereisen om correct te worden beantwoord, waardoor ze verschillen van meer specifieke en gespecialiseerde kennisbenchmarks.

“Kennis” Benchmarks

MMLU (Multimodal Language Understanding)

Deze benchmark is ontworpen om de greep van de LLM op feitelijke kennis in verschillende onderwerpen te testen, zoals geesteswetenschappen, sociale wetenschappen, geschiedenis, informatica en zelfs recht. 57 vragen en 15.000 taken, allemaal gericht op het waarborgen dat het model uitstekende redeneervaardigheden heeft. Dit maakt MMLU een goed instrument om de feitelijke kennis en redeneervaardigheden van een LLM te beoordelen in verschillende onderwerpen.

Onlangs is het een sleutelbenchmark geworden voor het evalueren van LLM’s voor de bovengenoemde gebieden. Ontwikkelaars willen hun modellen optimaliseren om andere modellen in deze benchmark te overtreffen, waardoor het een de facto-standaard is voor het evalueren van geavanceerd redeneren en kennis in LLM’s. Grote, ondernemingsbrede modellen hebben indrukwekkende scores behaald op deze benchmark, waaronder de GPT-4-omni met 88,7%, Claude 3 Opus met 86,8%, Gemini 1,5 Pro met 85,9% en Llama-3 70B met 82%. Kleine modellen presteren meestal niet zo goed op deze benchmark, meestal niet meer dan 60-65%, maar de recente prestatie van Phi-3-Small-7b met 75,3% is iets om over na te denken.

Echter, MMLU is niet zonder nadelen: het heeft bekende problemen zoals dubbelzinnige vragen, onjuiste antwoorden en ontbrekende context. En veel mensen denken dat sommige van zijn taken te gemakkelijk zijn voor een juiste LLM-evaluatie.

Ik wil duidelijk maken dat benchmarks zoals MMLU de werkelijke scenario’s niet perfect weergeven. Als een LLM een geweldige score haalt op deze, betekent dit niet noodzakelijk dat het een onderwerpdeskundige is geworden. Benchmarks zijn echt beperkt in omvang en gebruiken meestal multiplechoicevragen, die nooit de complexiteit en context van werkelijke interacties volledig kunnen vangen. Echte begrip vereist het kennen van feiten en het toepassen van die kennis dynamisch, en dit omvat kritisch denken, probleemoplossing en contextuele begrip. Om deze redenen moeten LLM’s constant worden verfijnd en bijgewerkt, zodat het model de relevantie en effectiviteit van de benchmark behoudt.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Deze benchmark evalueert LLM’s op logisch redeneren met behulp van een dataset met slechts 448 vragen. Domeinexperts hebben deze ontwikkeld en deze dekt onderwerpen in biologie, fysica en scheikunde.

Elke vraag gaat door het volgende validatieproces:

Een expert in hetzelfde onderwerp beantwoordt de vraag en geeft gedetailleerde feedback.
De vraagschrijver herziet de vraag op basis van deze feedback.
Een tweede expert beantwoordt de herziene vraag.

Dit proces kan ervoor zorgen dat de vragen objectief, nauwkeurig en uitdagend zijn voor een taalmodel. Zelfs ervaren PhD-scholars behalen slechts een nauwkeurigheid van 65% op deze vragen, terwijl GPT-4-omni slechts 53,6% haalt, waardoor de kloof tussen menselijke en machine-intelligentie wordt benadrukt.

Vanwege de hoge kwalificatievereisten is de dataset in feite vrij klein, waardoor de statistische kracht voor het vergelijken van nauwkeurigheid beperkt is en grote effectgroottes vereist. De experts die deze vragen hebben gemaakt en gevalideerd, kwamen van Upwork, dus ze kunnen bepaalde vooroordelen hebben geïntroduceerd op basis van hun expertise en de onderwerpen die worden behandeld.

Code Benchmarks

HumanEval

164 programmeringsproblemen, een echte test voor de coderingsmogelijkheden van LLM’s. Het is HumanEval. Het is ontworpen om de basiscoderingsmogelijkheden van grote taalmodellen (LLM’s) te testen. Het gebruikt de pass@k-metric om de functionele nauwkeurigheid van de gegenereerde code te beoordelen, die de kans uitvoert dat ten minste een van de bovenste k gegenereerde codevoorbeelden van het LLM de testcases doorstaat.

Hoewel de HumanEval-dataset functiesignaturen, docstrings, codebodies en verschillende unittests bevat, bevat het niet het volledige bereik van real-world-coderingsproblemen, waardoor het niet volledig in staat is om de capaciteit van een model te testen om correcte code voor diverse scenario’s te maken.

MBPP (Mostly Basic Python Programming)

Mbpp-benchmark bestaat uit 1.000 crowdsourced Python-programmeeropdrachten. Deze zijn instapniveau-problemen en richten zich op fundamentele programmeringsvaardigheden. Het gebruikt een few-shot- en fine-tune-aanpak om modelprestaties te evalueren, waarbij grotere modellen doorgaans beter presteren op deze dataset. Echter, aangezien de dataset voornamelijk instapniveau-programma’s bevat, vertegenwoordigt het nog steeds niet volledig de complexiteit en uitdagingen van real-world-toepassingen.

Wiskunde Benchmarks

Terwijl de meeste LLM’s erg goed zijn in het structureren van standaardantwoorden, is wiskundig redeneren een veel groter probleem voor hen. Waarom? Omdat het vaardigheden vereist die verband houden met vraagbegrip, een stap-voor-stap-logische aanpak met wiskundig redeneren en het afleiden van het juiste antwoord.

De “Chain of Thought” (CoT)-methode is ontwikkeld om LLM’s te evalueren op wiskunde-gerelateerde benchmarks, waarbij modellen worden geprompt om hun stap-voor-stap-redeneringsproces uit te leggen bij het oplossen van een probleem. Er zijn verschillende voordelen aan deze methode. Het maakt het redeneringsproces transparanter, helpt bij het identificeren van gebreken in de logica van het model en stelt u in staat om de probleemoplossingsvaardigheden op een meer granuliere manier te beoordelen. Door complexe problemen op te splitsen in een reeks eenvoudigere stappen, kan CoT de prestaties van het model op wiskunde-benchmarks verbeteren en diepere inzichten bieden in zijn redeneervaardigheden.

GSM8K: Een Populaire Wiskunde Benchmark

Een van de bekende benchmarks voor het evalueren van wiskundige vaardigheden in LLM’s is de GSM8K-dataset. GSM8K bestaat uit 8,5k middelbare-scholwiskunde-problemen, die enkele stappen vereisen om op te lossen, en oplossingen die voornamelijk bestaan uit het uitvoeren van een reeks elementaire berekeningen. Doorgaans presteren grotere modellen of modellen die specifiek zijn getraind voor wiskundig redeneren beter op deze benchmark, bijv. GPT-4-modellen behalen een score van 96,5%, terwijl DeepSeekMATH-RL-7B iets achterblijft met 88,2%.

Hoewel GSM8K nuttig is voor het beoordelen van de mogelijkheid van een model om middelbare-scholwiskunde-problemen op te lossen, vangt het mogelijk niet volledig de capaciteit van een model om meer geavanceerde of diverse wiskundige uitdagingen aan te gaan, waardoor de effectiviteit ervan als een alomvattende maatstaf voor wiskundige vaardigheid beperkt is.

De Wiskunde Dataset: Een Uitgebreid Alternatief

De wiskundedataset loste de tekortkomingen van benchmarks zoals GSM8K op. Deze dataset is uitgebreider, met onderwerpen variërend van elementaire rekenkunde tot middelbare school- en zelfs universitaire wiskunde. Het wordt ook vergeleken met menselijke prestaties, waarbij een PhD-student in informatica die geen van wiskunde houdt een nauwkeurigheid van 40% behaalt en een gouden medaillewinnaar een nauwkeurigheid van 90%.

Het biedt een meer alomvattende beoordeling van de wiskundige capaciteiten van een LLM. Het zorgt ervoor dat het model vaardig is in basisrekenkunde en competent is in complexe gebieden zoals algebra, meetkunde en calculus. Echter, de toegenomen complexiteit en diversiteit van problemen kunnen het voor modellen moeilijk maken om hoge nauwkeurigheid te behalen, vooral voor modellen die niet expliciet zijn getraind op een breed scala aan wiskundige concepten. Bovendien kunnen de gevarieerde probleemformaten in de wiskundedataset inconsistenties in modelprestaties introduceren, waardoor het moeilijker wordt om definitieve conclusies te trekken over de algehele wiskundige vaardigheid van een model.

Het gebruik van de Chain of Thought-methode met de wiskundedataset kan de evaluatie verbeteren, omdat het de stap-voor-stap-redeneervaardigheden van LLM’s onthult over een breed spectrum van wiskundige uitdagingen. Een gecombineerde aanpak zoals deze zorgt ervoor dat er een robuustere en gedetailleerdere beoordeling is van de werkelijke wiskundige capaciteiten van een LLM.

Leesvaardigheidsbenchmarks

Een leesvaardigheidsevaluatie beoordeelt de mogelijkheid van het model om complexe tekst te begrijpen en te verwerken, wat vooral essentieel is voor toepassingen zoals klantenservice, inhoudsgeneratie en informatieverwerving. Er zijn verschillende benchmarks ontwikkeld om deze vaardigheid te beoordelen, elk met unieke kenmerken die bijdragen aan een alomvattende evaluatie van de capaciteiten van een model.

RACE (Leesvaardigheidsdataset van Examen)

RACE-benchmarks hebben bijna 28.000 passages en 100.000 vragen verzameld uit de Engelse examens voor middelbare-scholieren in China tussen de leeftijd van 12 en 18. Het beperkt de vragen en antwoorden niet tot die welke zijn geëxtraheerd uit de gegeven passages, waardoor de taken nog uitdagender worden.

Het dekt een breed scala aan onderwerpen en vraagtypes, waardoor een grondige beoordeling mogelijk is en omvat vragen op verschillende moeilijkheidsniveaus. Bovendien zijn vragen in RACE specifiek ontworpen voor het testen van menselijke leesvaardigheden en zijn gemaakt door domeinexperts.

Echter, de benchmark heeft enkele nadelen. Aangezien het is ontwikkeld op basis van Chinese onderwijsmateriaal, is het vatbaar voor het introduceren van culturele vooroordelen die niet representatief zijn voor een wereldwijd perspectief. Bovendien is het hoge moeilijkheidsniveau in sommige vragen niet noodzakelijkerwijs representatief voor typische real-world-taken. Daarom kunnen prestatiebeoordelingen niet zo nauwkeurig zijn.

DROP (Discrete Reasoning Over Paragraphs)

Een andere significante benadering is DROP (Discrete Reasoning Over Paragraphs), die modellen uitdaagt om discrete redenering over alinea’s uit te voeren. Het heeft 96.000 vragen om de redeneervaardigheden van LLM’s te testen en de vragen zijn geëxtraheerd uit Wikipedia en crowdsourced van Amazon Mechanical Turk. DROP-vragen vereisen vaak dat modellen wiskundige bewerkingen uitvoeren, zoals optellen, aftrekken en vergelijken, op basis van informatie die verspreid is over een passage.

De vragen zijn uitdagend. Ze vereisen dat LLM’s meerdere nummers in de passage lokaliseren en optellen of aftrekken om het eindantwoord te krijgen. Grote modellen zoals GPT-4 en Palm behalen 80% en 85%, terwijl mensen 96% behalen op de DROP-dataset.

Alledaagse Benchmarks

Het testen van alledaagse kennis in taalmodellen is interessant, maar ook essentieel, omdat het de mogelijkheid van een model beoordeelt om oordelen en inferenties te maken die overeenkomen met menselijke redenering. In tegenstelling tot ons, die een alomvattend wereldmodel ontwikkelen via praktische ervaringen, worden taalmodellen getraind op enorme datasets zonder inherent de context te begrijpen. Dit betekent dat modellen worstelen met taken die een intuïtief begrip van alledaagse situaties, logisch redeneren en praktische kennis vereisen, die essentieel zijn voor robuuste en betrouwbare AI-toepassingen.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag is ontwikkeld door Rowan Zellers en collega’s aan de Universiteit van Washington en het Allen Institute for Artificial Intelligence. Het is ontworpen om de mogelijkheid van een model te testen om de meest plausibele voortzetting van een gegeven scenario te voorspellen. Deze benchmark is gemaakt met behulp van Adversarial Filtering (AF), waarbij een reeks discriminators iteratief adversarial machine-gegenereerde incorrecte antwoorden selecteert. Deze methode creëert een dataset met voorbeelden die triviaal zijn voor mensen, maar uitdagend voor modellen, waardoor een “Goldilocks”-zone van moeilijkheid ontstaat.

Hoewel Hellaswag eerder moeilijk was voor eerdere modellen, hebben state-of-the-art-modellen zoals GPT-4 prestatieniveaus behaald die dicht bij menselijke nauwkeurigheid liggen, wat aangeeft dat er significante vooruitgang is geboekt in het veld. Echter, deze resultaten suggereren de noodzaak om benchmarks voortdurend te ontwikkelen om gelijke tred te houden met de vooruitgang in AI-mogelijkheden.

Openbook

De Openbook-dataset bestaat uit 5957 multiple-choice-vragen op elementair niveau over natuurkunde. De vragen zijn verzameld uit open-boekexamens en ontwikkeld om menselijk begrip van het onderwerp te beoordelen.

Openbook-benchmark vereist redeneervaardigheden die verder gaan dan informatie-opvragen. GPT-4 behaalt de hoogste nauwkeurigheid van 95,9% tot nu toe.

OpenbookQA is gemodelleerd naar open-boekexamens en bestaat uit 5.957 multiple-choice-vragen over natuurkunde op elementair niveau. Deze vragen zijn ontworpen om het begrip van 1.326 kernfeiten over natuurkunde en hun toepassing in nieuwe situaties te onderzoeken.

Net als Hellaswag vonden eerdere modellen OpenbookQA uitdagend, maar moderne modellen zoals GPT-4 hebben prestatieniveaus behaald die dicht bij menselijke prestaties liggen. Deze vooruitgang benadrukt het belang van het ontwikkelen van nog complexere en genuanceerdere benchmarks om de grenzen van AI-begrip voortdurend te blijven verleggen.

Zijn benchmarks voldoende voor LLM-prestatiebeoordeling?

Ja, terwijl ze een gestandaardiseerde aanpak bieden voor het evalueren van LLM-prestaties, kunnen ze ook misleidend zijn. De Large Model Systems Organization zegt dat een goede LLM-benchmark schaalbaar moet zijn, in staat moet zijn om nieuwe modellen te evalueren met een relatief klein aantal tests en een unieke rangorde voor alle modellen moet bieden. Maar er zijn redenen waarom ze mogelijk niet voldoende zijn. Hier zijn er een paar:

Benchmark-lekkage

Dit is een veel voorkomend probleem en het gebeurt wanneer trainingsdata overlapt met testdata, waardoor een misleidende evaluatie ontstaat. Als een model al enkele testvragen heeft gezien tijdens de training, kan het resultaat niet noodzakelijkerwijs de werkelijke capaciteiten van het model weerspiegelen. Maar een ideale benchmark moet memorisatie minimaliseren en werkelijke scenario’s weerspiegelen.

Evaluatievooroordeel

LLM-benchmark-leaderboards worden gebruikt om de prestaties van LLM’s op verschillende taken te vergelijken. Echter, het vertrouwen op deze leaderboards voor modelvergelijking kan misleidend zijn. Eenvoudige wijzigingen in benchmarktests, zoals het wijzigen van de volgorde van vragen, kunnen de rangorde van modellen met maximaal acht posities verschuiven. Bovendien kunnen LLM’s verschillend presteren afhankelijk van de scoresmethoden, waardoor evaluatievooroordeel belangrijk wordt.

Open-eindigheid

Wereldwijde LLM-interactie omvat het ontwerpen van prompts om gewenste AI-uitvoer te genereren. LLM-uitvoer is afhankelijk van de effectiviteit van prompts, en benchmarks zijn ontworpen om de contextuele bewustheid van LLM’s te testen. Hoewel benchmarks zijn ontworpen om de contextuele bewustheid van LLM’s te testen, vertalen ze niet altijd direct naar wereldwijde prestaties. Bijvoorbeeld, een model dat een scores van 100% haalt op een benchmarkdataset, zoals de LSAT, garandeert niet hetzelfde niveau van nauwkeurigheid in praktische toepassingen. Dit benadrukt het belang van het overwegen van de open-eindige aard van wereldwijde taken bij LLM-evaluatie.

Effectieve evaluatie voor robuuste LLM’s

Dus, nu weet u dat benchmarks niet altijd de beste optie zijn, omdat ze niet altijd kunnen generaliseren naar alle problemen. Maar er zijn andere manieren.

Aangepaste benchmarks

Deze zijn perfect voor het testen van specifiek gedrag en functionaliteit in taakspecifieke scenario’s. Laten we zeggen dat, als een LLM is ontworpen voor medische officieren, de datasets verzameld uit medische instellingen effectief werkelijke scenario’s zullen weerspiegelen. Deze aangepaste benchmarks kunnen zich richten op domeinspecifieke taalbegrip, prestaties en unieke contextuele vereisten. Door de benchmarks af te stemmen op mogelijke werkelijke scenario’s, kunt u ervoor zorgen dat de LLM over het algemeen goed presteert en uitblinkt in de specifieke taken waarvoor het is bedoeld. Dit kan helpen bij het identificeren en aanpakken van eventuele lacunes of zwakke punten in de capaciteiten van het model.

Data-lekkage detectiepijplijn

Als u wilt dat uw evaluaties “integriteit” laten zien, is het hebben van een benchmarkpijplijn zonder data-lekkage erg belangrijk. Data-lekkage gebeurt wanneer de benchmarkdata is opgenomen in de pre-training corpus van het model, waardoor kunstmatig hoge prestatiescores ontstaan. Om dit te voorkomen, moeten benchmarks worden gecontroleerd op de pre-training data. Bovendien moeten stappen worden genomen om alle eerder gezien informatie te vermijden. Dit kan het gebruik van propriëtaire of nieuw verzamelde datasets omvatten die zijn gescheiden van de trainingspijplijn van het model – dit zal ervoor zorgen dat de prestatieparameters die u krijgt de capaciteit van het model weerspiegelen om goed te generaliseren.

Menselijke evaluatie

Geautomatiseerde metrics alleen kunnen het volledige spectrum van de prestaties van een model niet vangen, vooral wanneer het gaat om zeer subtiele en subjectieve aspecten van taalbegrip en -generatie. Hier biedt menselijke evaluatie een veel betere beoordeling:

Professionals inhuren die gedetailleerde en betrouwbare evaluaties kunnen bieden, vooral voor gespecialiseerde domeinen.
Crowdsourcing! Platforms zoals Amazon Mechanical Turk stellen u in staat om diverse menselijke oordelen snel en tegen lage kosten te verzamelen.
Gemeenschapsfeedback: Het gebruik van platforms zoals de LMSYS-leaderboardarena, waar gebruikers modellen kunnen stemmen en vergelijken, voegt een extra laag van inzicht toe. De LMSYS Chatbot Arena Hard, bijvoorbeeld, is bijzonder effectief in het benadrukken van subtiele verschillen tussen topmodellen via directe gebruikersinteracties en stemmen.

Conclusie

Zonder evaluatie en benchmarking zouden we geen manier hebben om te weten of de mogelijkheid van LLM’s om werkelijke taken aan te kunnen, zo nauwkeurig en toepasbaar is als we denken dat het is. Maar, zoals ik zei, benchmarks zijn niet een volledig waterdicht middel om dit te controleren; ze kunnen leiden tot prestatiegaten in LLM’s. Dit kan ook de ontwikkeling van LLM’s die echt robuust zijn voor werk vertragen.

Dit is hoe het zou moeten zijn in een ideale wereld. LLM’s begrijpen gebruikersaanvragen, identificeren fouten in prompts, voltooien taken zoals geïnstrueerd en genereren betrouwbare uitvoer. De resultaten zijn al geweldig, maar niet ideaal. Dit is waar taakspecifieke benchmarks erg nuttig zijn, net als menselijke evaluatie en het detecteren van benchmark-lekkage. Door deze te gebruiken, krijgen we de kans om echt robuuste LLM’s te produceren.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, is een gerenommeerde datawetenschapper met meer dan een decennium aan ervaring, waarin zowel productanalyse als analyse voor cutting-edge technologieën zijn begrepen. Ze heeft de creatie en analyse voor Yasmina geleid, de eerste volledig functionele gelokaliseerde AI-gebaseerde spraakassistent voor Saoedi-Arabië, waarbij complexe gegevenslocalisatie en labeling voor Modern Standard Arabic en Saoedische dialecten werden behandeld. Momenteel leidt Irina de kwaliteitsanalyse bij Yandex, waar zij de vooruitgang in AI-technologieën stimuleert.