Kontakt med oss

Tankeledere

Sannheten om syntetiske data: Hvorfor menneskelig ekspertise er avgjørende for suksess med LLM

mm

LLM-utviklere tyr i økende grad til syntetiske data for å fremskynde utviklingen og redusere kostnader. Forskere bak flere toppmodeller, som LLama 3, Qwen 2 og DeepSeek R1, har nevnt bruk av syntetiske data for å trene modellene sine i forskningsartiklene. Sett utenfra ser det ut som den perfekte løsningen: en uendelig kilde av informasjon for å fremskynde utviklingen og kutte kostnader. Men denne løsningen kommer med en skjult kostnad som bedriftsledere ikke kan ignorere.

For å si det enkelt, syntetiske data genereres av AI-modeller for å lage kunstige datasett for trening, finjustering og evaluering av LLM-er og AI-agenter. Sammenlignet med tradisjonell menneskelig annotering, tillater den at datapipelinen skaleres raskt, noe som er viktig i det raskt utviklende og konkurransepregede landskapet for AI-utvikling.

Bedrifter kan ha andre grunner til å bruke «falske» data, som å beskytte sensitiv eller konfidensiell informasjon i finans- eller helsevesenet ved å generere anonymiserte versjoner. Syntetiske data er også en god erstatning når proprietære data ikke er tilgjengelige, for eksempel før lansering av et produkt eller når dataene tilhører eksterne kunder.

Men revolusjonerer syntetiske data utviklingen av kunstig intelligens? Det korte svaret er et kvalifisert ja: det har et stort potensial, men det kan også utsette LLM-er og agenter for kritiske sårbarheter uten streng menneskelig tilsyn. LLM-produsenter og AI-agentutviklere kan oppleve at AI-modeller trent på utilstrekkelig kontrollerte syntetiske data kan generere unøyaktige eller partiske resultater, skape omdømmekriser og føre til manglende overholdelse av bransje- og etiske standarder. Å investere i menneskelig tilsyn for å forbedre syntetiske data er en direkte investering i å beskytte bunnlinjen, opprettholde interessentenes tillit og sikre ansvarlig AI-adopsjon.

Med menneskelig innspill kan syntetiske data omdannes til treningsdata av høy kvalitet. Det er tre kritiske grunner til å forbedre genererte data før de brukes til å trene AI: å fylle hull i kunnskap om kildemodeller, å forbedre datakvaliteten og redusere utvalgsstørrelsen, og å samkjøre med menneskelige verdier.

Vi må tilegne oss unik kunnskap

Syntetiske data genereres primært av LLM-er som er opplært på offentlig tilgjengelige internettkilder, noe som skaper en iboende begrensning. Offentlig innhold fanger sjelden opp den praktiske, praktiske kunnskapen som brukes i det virkelige liv. Aktiviteter som å utforme en markedsføringskampanje, utarbeide en økonomisk prognose eller gjennomføre markedsanalyser er vanligvis private og dokumenteres ikke på nett. I tillegg har kildene en tendens til å gjenspeile USA-sentrisk språk og kultur, noe som begrenser global representasjon.

For å overvinne disse begrensningene kan vi involvere eksperter for å lage dataeksempler på områder vi mistenker at modellen for generering av syntetiske data ikke kan dekke. For å gå tilbake til bedriftseksemplet, hvis vi ønsker at den endelige modellen vår skal håndtere økonomiske prognoser og markedsanalyser effektivt, må treningsdataene inkludere realistiske oppgaver fra disse feltene. Det er viktig å identifisere disse hullene og supplere syntetiske data med ekspertlagde eksempler.

Eksperter involveres ofte tidlig i prosjektet for å definere omfanget av arbeidet. Dette inkluderer å lage en taksonomi som skisserer de spesifikke kunnskapsområdene der modellen må fungere. Innen helsevesenet kan for eksempel allmennmedisin deles inn i undertemaer som ernæring, kardiovaskulær helse, allergier og mer. En helsefokusert modell må trenes i alle underområdene den forventes å dekke. Etter at taksonomien er definert av helseeksperter, kan LLM-er brukes til å generere datapunkter med typiske spørsmål og svar raskt og i stor skala. Menneskelige eksperter er fortsatt nødvendige for å gjennomgå, korrigere og forbedre dette innholdet for å sikre at det ikke bare er nøyaktig, men også trygt og kontekstuelt passende. Denne kvalitetssikringsprosessen er nødvendig i høyrisikoapplikasjoner, for eksempel helsevesenet, for å sikre datanøyaktighet og redusere potensiell skade.

Kvalitet fremfor kvantitet: øker modelleffektiviteten med færre, bedre prøver

Når domeneeksperter lager data for opplæring av LLM-er og AI-agenter, lager de taksonomier for datasett, skriver ledetekster, utformer de ideelle svarene eller simulerer en spesifikk oppgave. Alle trinnene er nøye utformet for å passe modellens formål, og kvaliteten sikres av fageksperter innen de tilsvarende feltene.

Generering av syntetiske data gjenskaper ikke denne prosessen fullt ut. Den er avhengig av styrkene til den underliggende modellen som brukes til å lage dataene, og den resulterende kvaliteten er ofte ikke på nivå med menneskelig kuraterte data. Dette betyr at syntetiske data ofte krever mye større volumer for å oppnå tilfredsstillende resultater, noe som driver opp beregningskostnader og utviklingstid.

I komplekse domener finnes det nyanser som bare menneskelige eksperter kan oppdage, spesielt med avvikere eller kanttilfeller. Menneskelig kuraterte data gir konsekvent bedre modellytelse, selv med betydelig mindre datasett. Ved å strategisk integrere menneskelig ekspertise i dataopprettingsprosessen kan vi redusere antall prøver som trengs for at modellen skal fungere effektivt.

Etter vår erfaring, er den beste måten å håndtere denne utfordringen på å involvere fageksperter i byggingen av syntetiske datasett. Når eksperter utformer reglene for datagenerering, definerer datataksonomier og gjennomgår eller korrigerer de genererte dataene, er den endelige kvaliteten på dataene mye høyere. Denne tilnærmingen har gjort det mulig for kundene våre å oppnå sterke resultater ved å bruke færre dataprøver, noe som fører til en raskere og mer effektiv vei til produksjon.

Bygge tillit: menneskers uerstattelige rolle i AI-sikkerhet og -tilpasning

Automatiserte systemer kan ikke forutse alle sårbarheter eller sikre samsvar med menneskelige verdier, spesielt i marginale tilfeller og tvetydige scenarier. Ekspertvurderinger spiller en avgjørende rolle i å identifisere nye risikoer og sikre etiske resultater før utrulling. Dette er et beskyttelseslag som AI, i hvert fall foreløpig, ikke fullt ut kan gi på egenhånd.

Derfor er ikke syntetiske data alene tilstrekkelig for å bygge et sterkt datasett for røde team. Det er viktig å involvere sikkerhetseksperter tidlig i prosessen. De kan bidra til å kartlegge typene potensielle angrep og veilede strukturen til datasettet. LLM-er kan deretter brukes til å generere et stort antall eksempler. Deretter trengs eksperter for å verifisere og forbedre dataene for å sikre at de er realistiske, av høy kvalitet og nyttige for testing av AI-systemer. For eksempel kan en LLM generere tusenvis av standard hacking-prompter, men en ekspert på menneskelig sikkerhet kan lage nye «sosial ingeniørkunst»-angrep som utnytter nyanserte psykologiske skjevheter – en kreativ trussel som automatiserte systemer sliter med å finne opp på egenhånd.

Det har vært betydelige fremskritt i å tilpasse LLM-er ved hjelp av automatisert tilbakemelding. I artikkelen "RLAIF vs. RLHF: Skalering av forsterkningslæring fra menneskelig tilbakemelding med AI-tilbakemelding, " Forskere viser at AI-basert justering i mange tilfeller kan yte på samme måte som menneskelig tilbakemelding. Selv om AI-tilbakemeldinger forbedres etter hvert som modellene forbedres, viser vår erfaring at RLAIF fortsatt sliter i komplekse domener og med kanttilfeller eller avvikere, områder der ytelse kan være kritisk avhengig av applikasjonen. Menneskelige eksperter er mer effektive til å håndtere oppgavenyanser og kontekst, noe som gjør dem mer pålitelige for justering.

AI-agenter drar også nytte av automatisert testing for å håndtere et bredt spekter av sikkerhetsrisikoer. Virtuelle testmiljøer bruker genererte data for å simulere agentatferd, som å samhandle med nettbaserte verktøy og utføre handlinger på nettsteder. For å maksimere testdekningen i realistiske scenarier er menneskelig ekspertise integrert i utformingen av testtilfeller, verifisering av resultatene av automatiserte evalueringer og rapportering av sårbarheter.

Fremtiden for syntetiske data

Syntetiske data er en svært verdifull teknikk for å utvikle store språkmodeller, spesielt når skalering og rask distribusjon er avgjørende i dagens raske landskap. Selv om det ikke er noen grunnleggende feil i syntetiske data i seg selv, krever det forbedring for å nå sitt fulle potensial og levere mest mulig verdi. En hybrid tilnærming som kombinerer automatisert datagenerering med menneskelig ekspertise er en svært effektiv metode for å utvikle kapable og pålitelige modeller, ettersom den endelige modellens ytelse avhenger mer av datakvalitet enn av totalt volum. Denne integrerte prosessen, som bruker AI for skalering og menneskelige eksperter for validering, produserer mer kapable modeller med forbedret sikkerhetsjustering, noe som er avgjørende for å bygge brukertillit og sikre ansvarlig distribusjon.

Ilya Kochik er visepresident for forretningsutvikling hos Toloka, en partner innen menneskelige data for ledende GenAI-forskningslaboratorier, hvor han spesialiserer seg på banebrytende oppgaver for frontmodeller og agentsystemer. Han er basert i London, og har bakgrunn fra lederstillinger og tekniske roller hos Google, QuantumBlack (AI av McKinsey) og Bain & Company.