Connect with us

Sandheden om syntetisk data: Hvorfor menneskelig ekspertise er afgørende for LLM-succes

Tankeledere

Sandheden om syntetisk data: Hvorfor menneskelig ekspertise er afgørende for LLM-succes

mm

LLM-udviklere vælger i stigende grad syntetisk data for at accelerere udviklingen og reducere omkostningerne. Forskerne bag flere topmodeller, såsom LLama 3, Qwen 2 og DeepSeek R1, har nævnt brugen af syntetisk data til at træne deres modeller i forskningspapirerne. Set udefra, ligner det den perfekte løsning: en uendelig kilde af information for at accelerere udviklingen og reducere omkostningerne. Men denne løsning har en skjult omkostning, som erhvervsledere ikke kan ignorere.

I simple termer er syntetisk data genereret af AI-modeller for at skabe kunstige datasets til træning, finjustering og evaluering af LLM’er og AI-agenter. I forhold til traditionel menneskelig annotering tillader datapipelines at skala hurtigt, hvilket er afgørende i det hurtigt udviklende og konkurrencedygtige landskab for AI-udvikling.

Virksomheder kan have andre grunde til at bruge “falsk” data, som f.eks. beskyttelse af følsomme eller fortrolige oplysninger i finansielle eller sundhedsindstillinger ved at generere anonymiserede versioner. Syntetisk data er også en god erstatning, når proprietær data ikke er tilgængelig, f.eks. før lancering af et produkt eller når data tilhører eksterne kunder.

Men er syntetisk data revolutionerende for AI-udviklingen? Det korte svar er et kvalificeret ja: det har stor potentiale, men det kan også udsætte LLM’er og agenter for kritiske sårbarheder uden rigorøs menneskelig oversigt. LLM-producenter og AI-agentudviklere kan opdage, at AI-modeller trænet på utilstrækkeligt vurderet syntetisk data kan generere ukorrekte eller fordomsfulde udgangspunkter, skabe reputationskriser og resultere i ikke-overholdelse af branchens og etiske standarder. Investering i menneskelig oversigt til at raffinere syntetisk data er en direkte investering i beskyttelse af bundlinjen, opretholdelse af stakeholder-tillid og sikring af ansvarlig AI-adopter.

Med menneskelig input kan syntetisk data omdannes til højkvalitets træningsdata. Der er tre kritiske grunde til at raffinere genereret data før brug til træning af AI: for at udfylde huller i kilde-modellkendskab, for at forbedre datakvaliteten og reducere stikprøvestørrelsen og for at tilpasse sig med menneskelige værdier.

Vi har brug for at fange unik viden

Syntetisk data genereres primært af LLM’er, der er trænet på offentligt tilgængelige internetkilder, hvilket skaber en indbygget begrænsning. Offentligt indhold fanger sjældent den praktiske, håndgribelige viden, der bruges i virkelighedens arbejde. Aktiviteter som design af en markedsføringskampagne, forberedelse af en finansielle prognose eller gennemførelse af markedsanalyse er typisk private og ikke dokumenterede online. Derudover tenderer kilderne til at reflektere USA-centrisk sprog og kultur, hvilket begrænser den globale repræsentation.

For at overvinde disse begrænsninger kan vi inddrage eksperter til at skabe datasæt i områder, hvor vi formoder, at syntetisk datagenereringsmodellen ikke kan dække. Ved at vende tilbage til det corporate-eksempel, hvis vi ønsker, at vores endelige model skal kunne håndtere finansielle prognoser og markedsanalyse effektivt, skal træningsdataen indeholde realistiske opgaver fra disse felter. Det er vigtigt at identificere disse huller og supplere syntetisk data med ekspertskabt samples.

Eksperter er ofte involveret tidligt i projektet for at definere arbejdets omfang. Dette inkluderer oprettelse af en taksonomi, der fastlægger de specifikke områder af viden, hvor modellen skal udføre. F.eks. i sundhedssektoren kan almindelig medicin deles op i underemner som ernæring, hjertesundhed, allergier og mere. En sundhedsfokuseret model skal være trænet i alle underområder, det forventes at dække. Efter at taksonomien er defineret af sundhedseksperter, kan LLM’er bruges til at generere datapunkter med typiske spørgsmål og svar hurtigt og i stor målestok. Menneskelige eksperter er stadig nødvendige for at gennemgå, korrigere og forbedre dette indhold for at sikre, at det ikke kun er nøjagtigt, men også sikkert og kontekstligt passende. Denne kvalitetssikringsproces er nødvendig i højrisikoapplikationer, såsom sundhedssektoren, for at sikre dataakkuratesse og minimere potentiel skade.

Kvalitet over kvantitet: drivende model-effektivitet med færre, bedre samples

Når domæne-eksperter skaber data til træning af LLM’er og AI-agenter, skaber de taksonomier for datasets, skriver prompts, udformer de ideelle svar eller simulerer en bestemt opgave. Alle disse skridt er omhyggeligt designede til at tilpasse sig modellens formål, og kvaliteten sikres af fagfolk i de pågældende fagområder.

Syntetisk datagenerering replicerer ikke fuldstændigt denne proces. Den afhænger af styrkerne i den underliggende model, der bruges til at generere data, og den resulterende kvalitet er ofte ikke på niveau med menneskeligt kurateret data. Dette betyder, at syntetisk data ofte kræver større volumener for at opnå tilfredsstillende resultater, hvilket driver op for beregningsomkostningerne og udviklingstiden.

I komplekse domæner er der nuancer, som kun menneskelige eksperter kan spotte, især med outliers eller edge-cases. Menneskeligt kurateret data leverer konsekvent bedre modelpræstation, selv med væsentligt mindre datasets. Ved at integrere menneskelig ekspertise i dataskabningsprocessen kan vi reducere antallet af samples, der er nødvendige for, at modellen kan udføre effektivt.

I vores erfaring er den bedste måde at imødegå denne udfordring på at inddrage fagfolk i opbygningen af syntetiske datasets. Når eksperter designer reglerne for datagenerering, definerer data-taxonomier og gennemgår eller korrigere den genererede data, er den endelige kvalitet af dataene meget højere. Denne tilgang har enablede vores kunder til at opnå stærke resultater ved at bruge færre datasamples, hvilket har ført til en hurtigere og mere effektiv vej til produktion.

Opbygning af tillid: den uerstattelige rolle for mennesker i AI-sikkerhed og alignment

Automatiserede systemer kan ikke forudse alle sårbarheder eller sikre alignment med menneskelige værdier, især i edge-cases og tvetydige scenarier. Ekspert-menneskelige gennemgangere spiller en afgørende rol i identificering af fremvoksende risici og sikring af etiske resultater før udvikling. Dette er et lag af beskyttelse, som AI, i hvert fald for nu, ikke fuldstændigt kan levere på egen hånd.

Derfor er det vigtigt at inddrage sikkerhedseksperter tidligt i processen for at opbygge en stærk red teaming-dataset. De kan hjælpe med at kortlægge de typer af potentielle angreb og guide strukturen af datasettet. LLM’er kan derefter bruges til at generere en stor mængde af eksempler. Efterfølgende er eksperter nødvendige for at verificere og raffinere data for at sikre, at det er realistisk, højkvalitets og nyttigt til test af AI-systemer. F.eks. kan en LLM generere tusindvis af standard hacking-prompts, men en menneskelig sikkerhedsekspert kan skabe nye ‘social engineering’-angreb, der udnytter nuancerede psykologiske fordomme – en kreativ trussel, som automatiserede systemer kæmper med at opfinde på egen hånd.

Der har været betydelig fremgang i at aligne LLM’er ved hjælp af automatiseret feedback. I papiret RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” viser forskerne, at AI-baseret alignment kan udføre sammenlignbart med menneskelig feedback i mange tilfælde. Imidlertid, mens AI-feedback forbedrer sig, som modellerne forbedres, viser vores erfaring, at RLAIF stadig kæmper i komplekse domæner og med edge-cases eller outliers, områder hvor præstation kan være kritisk afhængigt af anvendelsen. Menneskelige eksperter er mere effektive til at håndtere opgave-nuancer og kontekst, hvilket gør dem mere pålidelige til alignment.

AI-agenter kan også drage fordel af automatiseret testning for at imødegå en bred vifte af sikkerhedsrisici. Virtuelle testmiljøer bruger genereret data til at simulere agentadfærd som f.eks. interaktion med onlineværktøjer og udførelse af handlinger på websteder. For at maksimere testdækningen i realistiske scenarier er menneskelig ekspertise integreret til at designe testcases, verificere resultaterne af automatiserede evalueringer og rapportere om sårbarheder.

Fremtiden for syntetisk data

Syntetisk data er en meget værdifuld teknik til udvikling af store sprogmodeller, især når skala og hurtig udvikling er kritisk i dagens hurtigt udviklende landskab. Selv om der ikke er fundamentale fejl i syntetisk data i sig selv, kræver det raffinering for at nå sin fulde potentiale og levere den mest værdi. En hybridtilgang, der kombinerer automatiseret datagenerering med menneskelig ekspertise, er en meget effektiv metode til at udvikle dygtige og pålidelige modeller, da den endelige modelpræstation afhænger mere af datakvalitet end af total volumen. Denne integrerede proces, der bruger AI til skala og menneskelige eksperter til validering, producerer mere dygtige modeller med forbedret sikkerhedsalignment, hvilket er afgørende for at bygge brugertillid og sikre ansvarlig AI-adopter.

Ilya Kochik er vicepræsident for forretningsudvikling i Toloka, en menneskelig data-partner for førende GenAI-forskningslab, hvor han specialiserer sig i banebrydende opgaver for frontmodeller og agente systemer. Med base i London omfatter hans baggrund ledelses- og tekniske roller i Google, QuantumBlack (AI by McKinsey) og Bain & Company.