Tankeledere
Sannheten om syntetisk data: Hvorfor menneskelig ekspertise er kritisk for LLM-suksess

LLM-utviklere vendes stadig mer mot syntetisk data for å påskynde utviklingen og redusere kostnadene. Forskerne bak flere toppmodeller, som LLama 3, Qwen 2 og DeepSeek R1, har nevnt bruk av syntetisk data for å trene modellene i forskningsrapportene. Utenfra ser det ut som den perfekte løsningen: en ubegrenset kilde av informasjon for å påskynde utviklingen og kutte kostnadene. Men denne løsningen kommer med en skjult kostnad som forretningsledere ikke kan ignorere.
I enkle ord, syntetisk data genereres av AI-modeller for å lage kunstige datasamlinger for trening, finjustering og evaluering av LLM og AI-agenter. I sammenligning med tradisjonell menneskelig annotering, lar data-pipeline skaleres raskt, noe som er essensielt i den raske og konkurransepregede landskapet av AI-utvikling.
Bedrifter kan ha andre grunner til å bruke “falsk” data, som å beskytte følsomme eller konfidensielle opplysninger i finansielle eller helsemessige sammenhenger ved å generere anonymiserte versjoner. Syntetisk data er også en god erstatning når proprietær data ikke er tilgjengelig, som før lansering av et produkt eller når data tilhører eksterne kunder.
Men er syntetisk data revolusjonererende for AI-utvikling? Det korte svaret er et kvalifisert ja: det har stor potensiale, men det kan også exponere LLM og agenter for kritiske sårbarheter uten rigorøs menneskelig tilsyn. LLM-produsenter og AI-agent-utviklere kan finne at AI-modeller trent på utilstrekkelig verifisert syntetisk data kan generere uriktige eller forvrengte utdata, skape omdømmekriser og føre til brudd på bransje- og etiske standarder. Investering i menneskelig tilsyn for å forbedre syntetisk data er en direkte investering i å beskytte bunnskatten, opprettholde stakeholder-tillit og sikre ansvarlig AI-tilpasning.
Med menneskelig innsats kan syntetisk data omformes til høykvalitets treningdata. Det finnes tre kritiske grunner til å forbedre generert data før den brukes til å trene AI: for å fylle hull i kilde-modell-kunnskap, for å forbedre datakvalitet og redusere prøvestørrelse, og for å sammenligne med menneskelige verdier.
Vi må fange unik kunnskap
Syntetisk data genereres primært av LLM som er trent på offentlig tilgjengelige internett-kilder, noe som skaper en innebygd begrensning. Offentlig innhold fanger sjelden den praktiske, hånd-til-hånd-kunnskapen som brukes i virkelige arbeidssammenhenger. Aktiviteter som å designe en markedsføringskampanje, forberede en finansiell prognose eller utføre markedanalyse er vanligvis private og ikke dokumentert på nettet. I tillegg reflekterer kildene ofte U.S.-sentriske språk og kultur, noe som begrenser global representasjon.
For å overvinne disse begrensningene, kan vi involvere eksperter for å lage datasamlinger i områder vi mistenker at den syntetiske data-genereringsmodellen ikke kan dekke. Ved å returnere til det korporative eksemplet, hvis vi ønsker at vårt endelige modell skal håndtere finansielle prognoser og markedanalyse effektivt, må treningdataene inneholde realistiske oppgaver fra disse feltene. Det er viktig å identifisere disse hullene og supplere syntetisk data med ekspert-lagde prøver.
Eksperter er ofte involvert tidlig i prosjektet for å definere arbeidets omfang. Dette inkluderer å lage en taksonomi, som omfatter de spesifikke kunnskapsområdene hvor modellen må fungere. For eksempel i helsevesenet, kan generell medisin deles inn i underemner som ernæring, hjerte-helse, allergier og mer. En helse-fokusert modell må være trent i alle underområdene den forventes å dekke. Etter at taksonomien er definert av helse-eksperter, kan LLM brukes til å generere datapunkter med typiske spørsmål og svar raskt og i stor skala. Menneskelig eksperter er likevel nødvendige for å gjennomgå, korrigere og forbedre denne innholdet for å sikre at det ikke bare er nøyaktig, men også trygt og kontekstuell passende. Denne kvalitetsikringsprosessen er nødvendig i høyrisiko-applikasjoner, som helsevesenet, for å sikre data-nøyaktighet og minimere potensiell skade.
Kvalitet over kvantitet: å drive modell-effektivitet med færre, bedre prøver
Når domene-eksperter lager data for trening av LLM og AI-agenter, lager de taksonomier for datasamlinger, skriver oppfordringer, lager ideelle svar eller simulerer en bestemt oppgave. Alle disse stegene er nøye designet for å passe modellens formål, og kvaliteten sikres av fag-eksperter i tilhørende felt.
Syntetisk data-generering gjentar ikke fullstendig denne prosessen. Den avhenger av styrkene til den underliggende modellen som brukes til å lage data, og den resulterende kvaliteten er ofte ikke på samme nivå som menneskelig-kurert data. Dette betyr at syntetisk data ofte krever mye større volumer for å nå tilfredsstillende resultater, noe som driver opp beregningskostnadene og utviklingstiden.
I komplekse domener finnes det nuanser som bare menneskelig eksperter kan se, spesielt med outliers eller edge-cases. Menneskelig-kurert data leverer konsistent bedre modell-prestasjon, selv med betydelig mindre datasamlinger. Ved å strategisk integrere menneskelig ekspertise i data-skaper-prosessen, kan vi redusere antallet prøver som trengs for at modellen skal fungere effektivt.
I vår erfaring, er den beste måten å møte denne utfordringen å involvere fag-eksperter i bygging av syntetiske datasamlinger. Når eksperter designer regler for data-generering, definerer data-taksonomier og gjennomgår eller korrigere den genererte data, er den endelige kvaliteten på dataene mye høyere. Denne tilnærmingen har gjort det mulig for våre kunder å oppnå sterke resultater ved å bruke færre datasamlinger, noe som har ført til en raskere og mer effektiv vei til produksjon.
Bygge tillit: den uerstattelige rollen til mennesker i AI-sikkerhet og -tilpasning
Automatiserte systemer kan ikke forutse alle sårbarheter eller sikre tilpasning med menneskelige verdier, spesielt i edge-cases og tvetydige scenarioer. Ekspert-menneskelig gjennomgang spiller en kritisk rolle i å identifisere fremvoksende risiko og sikre etiske resultater før deployering. Dette er et lag av beskyttelse som AI, i alle fall for nå, ikke fullstendig kan levere på egen hånd.
Derfor, for å bygge en sterk red teaming-datasamling, er syntetisk data alene ikke nok. Det er viktig å involvere sikkerhets-eksperter tidlig i prosessen. De kan hjelpe med å kartlegge typene potensielle angrep og guide strukturen på datasamlingen. LLM kan deretter brukes til å generere et stort volum med eksempler. Etter det, er eksperter nødvendige for å verifisere og forbedre dataene for å sikre at de er realistiske, høykvalitets og nyttige for testing av AI-systemer. For eksempel, kan en LLM generere tusenvis av standard hacking-oppfordringer, men en menneskelig sikkerhets-ekspert kan lage nye ‘sosiale ingeniør’-angrep som utnytter nyanserte psykologiske fordommer – en kreativ trussel som automatiserte systemer sliter med å oppfinne på egen hånd.
Det har vært betydelig fremgang i å tilpasse LLM ved hjelp av automatisert tilbakemelding. I artikkelen “RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” viser forskerne at AI-basert tilpasning kan fungere sammenlignbart med menneskelig tilbakemelding i mange tilfeller. Likevel, mens AI-tilbakemelding forbedres når modellene forbedres, viser vår erfaring at RLAIF likevel sliter i komplekse domener og med edge-cases eller outliers, områder hvor ytelse kan være kritisk avhengig av applikasjonen. Menneskelig eksperter er mer effektive i å håndtere oppgave-nyanser og kontekst, noe som gjør dem mer pålitelige for tilpasning.
AI-agenter kan også dra nytte av automatisert testing for å møte en rekke sikkerhetsrisiko. Virtuelle test-miljøer bruker generert data for å simulere agent-atferd som å kommunisere med nett-verktøy og utføre handlinger på nett-sider. For å maksimere test-dekningen i realistiske scenarioer, er menneskelig ekspertise avgjørende for å designe test-tilfellene, verifisere resultater fra automatiserte evalueringer og rapportere om sårbarheter.
Fremtiden for syntetisk data
Syntetisk data er en svært verdifull teknikk for å utvikle store språkmodeller, spesielt når skalerbarhet og rask deployering er kritisk i dagens raske landskap. Mens det ikke finnes noen grunnleggende feil i syntetisk data i seg selv, krever det forbedring for å nå sitt fulle potensiale og levere mest verdi. En hybrid-tilnærming som kombinerer automatisert data-generering med menneskelig ekspertise er en svært effektiv metode for å utvikle dyktige og pålitelige modeller, da sluttmål-prestasjon avhenger mer av data-kvalitet enn av totalt volum. Denne integrerte prosessen, som bruker AI for skala og menneskelig eksperter for validering, produserer mer dyktige modeller med forbedret sikkerhets-tilpasning, noe som er essensielt for å bygge bruker-tillit og sikre ansvarlig AI-deployering.












