Tankeledare
Sanningen om syntetisk data: Varför mÀnsklig expertis Àr avgörande för LLM:s framgÄng

Utvecklare av LLM är alltmer benägna att använda syntetisk data för att påskynda utvecklingen och minska kostnaderna. Forskare bakom flera toppmodeller, såsom LLama 3, Qwen 2 och DeepSeek R1, har nämnt att de använt syntetisk data för att träna sina modeller i forskningsartiklarna. Utifrån sett verkar det som den perfekta lösningen: en outsinlig källa till information för att påskynda utvecklingen och minska kostnaderna. Men denna lösning medför en dold kostnad som affärsledare inte kan bortse ifrån.
I enkla termer är syntetisk data genererad av AI-modeller för att skapa artificiella datamängder för utbildning, finjustering och utvärdering av LLM och AI-agenter. Jämfört med traditionell mänsklig annotering möjliggör det att datapiplen kan skalas upp snabbt, vilket är avgörande i den snabbt föränderliga och konkurrensutsatta landskapet för AI-utveckling.
Företag kan ha andra skäl att använda “falsk” data, som att skydda känslig eller konfidentiell information i finansiella eller hälso- och sjukvårdsinställningar genom att generera anonyma versioner. Syntetisk data är också en bra ersättning när proprietär data inte är tillgänglig, såsom före lanseringen av en produkt eller när data tillhör externa kunder.
Men är syntetisk data revolutionerande för AI-utveckling? Det korta svaret är ett kvalificerat ja: den har stor potential, men den kan också exponera LLM och agenter för kritiska sårbarheter utan rigorös mänsklig tillsyn. LLM-tillverkare och AI-agentutvecklare kan upptäcka att AI-modeller som tränats på otillräckligt granskad syntetisk data kan generera felaktiga eller partiska utdata, skapa reputationskriser och leda till bristande efterlevnad av bransch- och etiska standarder. Att investera i mänsklig tillsyn för att förfinare syntetisk data är en direkt investering i att skydda resultaträkningen, upprätthålla aktieägarnas förtroende och säkerställa ansvarsfull AI-antagande.
Med mänskligt ingång kan syntetisk data omvandlas till högkvalitativ utbildningsdata. Det finns tre kritiska skäl att förfinare den genererade datan innan den används för att träna AI: för att fylla luckor i källmodellens kunskap, för att förbättra datakvaliteten och minska urvalsstorleken, och för att anpassa sig till mänskliga värderingar.
Vi måste fånga unik kunskap
Syntetisk data genereras primärt av LLM som tränats på offentligt tillgängliga internetkällor, vilket skapar en inbyggd begränsning. Offentligt innehåll fångar sällan den praktiska, handgripliga kunskap som används i verkliga arbetslivet. Aktiviteter som att utforma en marknadsföringskampanj, förbereda en finansiell prognos eller genomföra marknadsanalys är vanligtvis privata och inte dokumenterade online. Dessutom tenderar källorna att återspegla USA-centrerad språk och kultur, vilket begränsar den globala representationen.
För att övervinna dessa begränsningar kan vi involvera experter för att skapa dataspecimen i områden som vi misstänker att den syntetiska datagenereringsmodellen inte kan täcka. Om vi vill att vår slutliga modell ska hantera finansiella prognoser och marknadsanalys effektivt, behöver utbildningsdatan innehålla realistiska uppgifter från dessa områden. Det är viktigt att identifiera dessa luckor och komplettera den syntetiska datan med expertskapade specimen.
Experter är ofta involverade tidigt i projektet för att definiera arbetsomfattningen. Detta inkluderar att skapa en taxonomi, som anger de specifika kunskapsområden där modellen behöver prestera. Till exempel i hälso- och sjukvården kan allmänmedicin delas in i underområden som nutrition, hjärthälsa, allergier och mer. En hälsoinriktad modell måste tränas i alla underområden som den förväntas täcka. Efter att taxonomin har definierats av hälsoexperter kan LLM användas för att generera datapunkter med typiska frågor och svar snabbt och i stor skala. Mänskliga experter behövs fortfarande för att granska, korrigera och förbättra innehållet för att säkerställa att det inte bara är korrekt utan också säkert och kontextuellt lämpligt. Denna kvalitetssäkringsprocess är nödvändig i högrisktillämpningar, såsom hälso- och sjukvård, för att säkerställa datakvalitet och minimera potentiell skada.
Kvalitet före kvantitet: att driva modellens effektivitet med färre, bättre specimen
När domänexperter skapar data för utbildning av LLM och AI-agenter, skapar de taxonomier för datamängder, skriver prompter, utformar ideala svar eller simulerar en specifik uppgift. Alla steg är noggrant utformade för att passa modellens syfte, och kvaliteten säkerställs av ämnesexperter inom respektive områden.
Syntetisk datagenerering replikerar inte fullständigt denna process. Den förlitar sig på styrkorna hos den underliggande modell som används för att skapa datan, och den resulterande kvaliteten är ofta inte i nivå med mänskligt kuraterad data. Detta innebär att syntetisk data ofta kräver mycket större volymer för att uppnå tillfredsställande resultat, vilket driver upp beräkningskostnaderna och utvecklingstiden.
I komplexa domäner finns det nyanser som endast mänskliga experter kan upptäcka, särskilt med avvikare eller gränsfall. Mänskligt kuraterad data levererar konsekvent bättre modellprestanda, även med betydligt mindre datamängder. Genom att strategiskt integrera mänsklig expertis i dataskapandeprocessen kan vi minska antalet specimen som behövs för att modellen ska fungera effektivt.
I vår erfarenhet är det bästa sättet att hantera denna utmaning att involvera ämnesexperter i byggandet av syntetiska datamängder. När experter utformar reglerna för datagenerering, definierar datataxonomier och granskar eller korrigerar den genererade datan, är den slutliga kvaliteten på datan mycket högre. Detta tillvägagångssätt har möjliggjort för våra kunder att uppnå starka resultat med färre dataspecimen, vilket leder till en snabbare och mer effektiv väg till produktion.
Att bygga förtroende: den oumbärliga rollen för människor i AI-säkerhet och anpassning
Automatiserade system kan inte förutse alla sårbarheter eller säkerställa anpassning till mänskliga värderingar, särskilt i gränsfall och tvetydiga scenarier. Expertmänskliga granskare spelar en avgörande roll i att identifiera framväxande risker och säkerställa etiska resultat före distribution. Detta är ett lager av skydd som AI, åtminstone för närvarande, inte kan tillhandahålla fullständigt på egen hand.
Därför räcker det inte att använda syntetisk data ensam för att skapa en stark red team-dataset. Det är viktigt att involvera säkerhetsexperter tidigt i processen. De kan hjälpa till att kartlägga typer av potentiella attacker och vägleda strukturen på datamängden. LLM kan sedan användas för att generera en stor volym exempel. Därefter behövs experter för att verifiera och förfinare datan för att säkerställa att den är realistisk, högkvalitativ och användbar för att testa AI-system. Till exempel kan en LLM generera tusentals standardhackingprompt, men en mänsklig säkerhetsexpert kan skapa nya “sociala ingenjörsattacker” som utnyttjar nyanserade psykologiska bias – en kreativ hot som automatiserade system kämpar för att uppfinna på egen hand.
Det har skett betydande framsteg i att anpassa LLM med automatiserad återkoppling. I artikeln “RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback” visar forskare att AI-baserad anpassning kan prestera jämförbart med mänsklig återkoppling i många fall. Men medan AI-återkoppling förbättras när modellerna förbättras, visar vår erfarenhet att RLAIF fortfarande kämpar i komplexa domäner och med gränsfall eller avvikare, områden där prestanda kan vara avgörande beroende på tillämpningen. Mänskliga experter är mer effektiva i att hantera uppgiftsnyanser och kontext, vilket gör dem mer tillförlitliga för anpassning.
AI-agenter dra också nytta av automatiserad testning för att hantera en bred spektrum av säkerhetsrisker. Virtuella testmiljöer använder genererad data för att simulera agentbeteenden som att interagera med onlineverktyg och utföra åtgärder på webbplatser. För att maximera testtäckningen i realistiska scenarier är mänsklig expertis avgörande för att utforma testfallen, verifiera resultaten av automatiserade utvärderingar och rapportera om sårbarheter.
Den framtida syntetiska datan
Syntetisk data är en mycket värdefull teknik för utveckling av stora språkmodeller, särskilt när skalbarhet och snabb distribution är avgörande i dagens snabbt föränderliga landskap. Medan det inte finns några grundläggande fel i den syntetiska datan i sig, kräver den förfining för att nå sin fulla potential och leverera det mesta av värdet. En hybridmetod som kombinerar automatiserad datagenerering med mänsklig expertis är en mycket effektiv metod för att utveckla kapabla och tillförlitliga modeller, eftersom den slutliga modellprestandan beror mer på datakvalitet än på total volym. Denna integrerade process, som använder AI för skalbarhet och mänskliga experter för validering, producerar mer kapabla modeller med förbättrad säkerhetsanpassning, vilket är avgörande för att bygga användarförtroende och säkerställa ansvarsfull AI-antagande.












