Tankeledare
Den syntetiska datans uppgång, och varför den kommer att komplettera snarare än ersätta riktiga data

Elon Musk proklamerade nyligen att vi har uttömt den mänskliga datan som finns tillgänglig för att träna AI-modeller. Hans varning är den senaste kommentaren om behovet av nya datakällor om AI ska fortsätta sin snabba utveckling. I branscher som hälsovård och finans gör stränga sekretessregler bristen på data ännu mer akut.
Medan syntetisk data – en möjlig lösning på denna brist – inte är ny, fortsätter dess betydelse att växa, som visas av de senaste sammanslagningarna och investeringarna inom detta område. Det finns dock vissa djupa osäkerheter kring användningen av syntetisk data, särskilt risken för modellkollaps, där kvaliteten på en multimodal Large Language Models (LLM) utdata försämras utan riktiga världens data för att träna på. Om detta problem visar sig vara olösligt eller lösbart kan det ha en betydande inverkan på framtiden för generativ AI (Gen AI).
Vad är syntetisk data och hur skapas den?
Syntetisk data skapas artificiellt snarare än samlas in från riktiga händelser. AI-genererad syntetisk data är nu den vanligaste formen, som innebär att modeller tränas på riktiga världens data för att upptäcka mönster och korrelationer, och sedan generera ny data som imiterar dessa statistiska egenskaper.
LLM används för att generera en mängd olika typer av syntetisk data, inklusive strukturerad data, såsom tabelldata, och ostrukturerad data, som fritext, videor och bilder. En mängd metoder används, beroende på den typ av data som produceras.
Till exempel är två vanliga metoder som används för att generera syntetisk bilddata GANs och diffusionsmodeller. GANs använder två neurala nätverk: en generator skapar artificiella versioner av riktiga data, medan en diskriminatör identifierar vilka som är riktiga och genererade. Genom att arbeta tillsammans kontinuerligt försöker generatoren “lura” diskriminatören, och förbättrar kontinuerligt realismen och mångfalden av artificiell data. Diffusionsmodeller använder en annan metod, genom att lära sig att förvränga riktiga data och sedan reversera denna process för att “avlägsna brus” från den. När de tränas effektivt kan de producera högkvalitativ syntetisk audio- och videodata.
Den växande betydelsen av syntetisk data
Det har funnits ett långvarigt intresse för syntetisk data. Men under de senaste 5 åren har den snabba utvecklingen av LLM har både ökat efterfrågan på syntetisk data och skapat ett allt mer effektivt sätt att generera den i stor skala. Som ett resultat har användningen av syntetisk data skjutit i höjden.
Gartner förutspår att syntetisk data kommer att utgöra 60% av all data som används för att träna LLM under 2024, upp från bara 1% under 2021. Det finns alla skäl att tro att denna uppskattning är i stort sett korrekt. Till exempel, Microsofts Phi-4-modell, som presterar bättre än andra LLM trots att den är mycket mindre, tränades framgångsrikt på mestadels syntetisk data. Samtidigt undersöker ingenjörerna bakom Amazons Alexa användningen av en “lärare/elev”-modell där “lärar”-modellen genererar syntetisk data som sedan används för att finjustera en mindre “elev”-modell.
Denna allmänna antagande speglas av stora drag i marknaden. Den syntetiska datasektorn såg en investeringsboom under 2021-22. Gretel AI och Tonic.ai säkrade serie B-rundor på 50 miljoner dollar respektive 35 miljoner dollar. Dessa följdes av MOSTLY AI som stängde en serie B-runda på 25 miljoner dollar och Synthesis AI säkrade 17 miljoner dollar i serie A-finansiering.
Mer nyligen har trenden varit mot storskaliga förvärv. NVIDIA:s förvärv av Gretel i våras kommer att stödja teknikjättens eget arbete inom detta område. Likaså, AI-lösningsspecialisten SAS förvärvade syntetisk data-startupen Hazy i november 2024.
Den analytiska firman Cognilytica uppskattade marknaden för syntetisk data generation till cirka 110 miljoner dollar under 2021. Företaget förväntar sig att den kommer att nå 1,15 miljarder dollar under 2027. Andra prognoser förutser en årlig tillväxttakt på 31% för sektorn, då den växer till $2,33 miljarder i värde under 2030.
Modellkollaps
Men den syntetiska datans spännande potential kommer med en betydande nackdel: modellkollaps. Detta är ett fenomen där LLM som tränas enbart på syntetisk data börjar producera mindre exakta eller mindre varierade utdata.
Medan riktiga världens data tenderar att vara hög i komplexitet, är syntetisk data ofta förenklad och kondenserad av modeller. Till exempel fann forskare att noggrannheten hos en modell som tränats för att upptäcka cancerogena födelsemärken från fotografier var invers relaterad till mängden syntetisk träningsdata. En nyligen studie av akademiker från Oxford, Cambridge, Imperial College och University of Toronto fann att användningen av modellgenererad data utan diskriminering ledde till “oåterkalleliga defekter i den resulterande modellen.”
Ännu värre, de flesta LLM är “svarta lådor”, vilket gör det svårt att förstå hur de kommer att svara på syntetisk data. Forskare från Rice University och Stanford drog slutsatsen att utan någon färsk riktiga världens data, “framtida generativa modeller är dömda att ha sin kvalitet (precision) eller mångfald (återkallande) progressivt minska.”
Den pågående behovet av riktiga världens data
Tydligtvis, även med den ökade efterfrågan på syntetisk data, kvarstår behovet av riktiga världens data. Faktum är att efterfrågan på högkvalitativ riktiga världens data kan till och med öka. Anledningen till detta är tvåfaldig. Först, riktiga världens data kommer alltid att behövas för att träna AI-modellerna som sedan genererar den syntetiska datan. Och för det andra, för att undvika modellkollaps, är det nödvändigt att kontinuerligt synkronisera syntetisk data med riktiga världens data.
Riktiga data för träningsmodeller som producerar syntetisk data
Som nämnts tidigare, skapas den största delen av den syntetiska datan idag med hjälp av Gen AI. Och dessa Gen AI-modeller måste tränas på riktiga världens data för att skapa användbar syntetisk data. Det beror på att de bara kan skapa syntetisk data genom att replikera mönster och statistiska egenskaper hos en riktig världens datamängd.
Till exempel den nyligen exempel på ett försäkringsbolag som kunde använda syntetisk data för att testa olika leverantörer utan att kompromettera sin känsliga kunddata. För att generera denna syntetiska datamängd, som precis imiterade verkligheten, var de tvungna att använda sin egen riktiga världens data för att träna AI-modellen som sedan genererade den syntetiska datan.
Riktiga data för att mildra modellkollaps
Det finns flera strategier för att mildra risken för modellkollaps. Dessa inkluderar att validera och sedan regelbundet granska syntetiska datamängder, och kontrollera kvaliteten på syntetisk data innan den används i generativa modeller. Men den vanligaste metoden är att diversifiera datan som används genom att kombinera syntetisk data med mänsklig data. Gartners undersökning fann att 63% av respondenterna föredrar att använda en delvis syntetisk datamängd, med endast 13% som säger att de använder fullständigt syntetisk data.
Även tillägg av modesta mängder riktiga världens data kan förbättra en modells prestanda avsevärt. Forskare från University of South California fann att företag kan ersätta upp till 90% av sin riktiga data med syntetisk data utan att se en betydande nedgång i prestanda. Men att ersätta den sista 10% av mänsklig data resulterar i en betydande nedgång.
Kvalitet räknas också, som illustreras av fallet med Microsofts framgång med Phi-4. Denna LLM tränades på mestadels syntetisk data genererad av GPT-4o. Men mycket av förträningsdatan – en allmän datamängd som används för den första fasen av träningsfasen innan en modell finjusteras – var noggrant utvald, högkvalitativ riktiga världens data, inklusive böcker och forskningsartiklar.
Potentiella fördelar som syntetisk data kan medföra
När syntetisk data används på ett intelligent sätt och kombineras effektivt med riktiga världens data, har den potentialen att lösa sex specifika problem när det gäller AI-träningsdata: brist, tillgänglighet, homogenitet, fördomar, sekretessproblem och kostnad.
Databrist
När AI-företag tävlar om att vinna marknadsandelar och uppnå nya försteg, ökar den outsinliga efterfrågan på data för att träna deras LLM. Syntetisk data har potentialen att fylla denna lucka, enligt Gartners forskning. Men det bör noteras att användning av betydande mängder riktiga data i förträningsdatamängder och för att synkronisera för att undvika modellkollaps fortfarande kommer att behövas.
Datatillgänglighet
Alltmer, agerar stora teknikföretag som grindvakter när det gäller data, vilket skapar en barriär för mindre aktörer. Syntetisk data har potentialen att demokratisera Gen AI genom att göra stora mängder träningsdata tillgängliga och överkomliga. Men detta kommer inte att ta bort ansvaret för stora teknikföretag att förbättra tillgången till riktiga världens data, eftersom den fortfarande behövs för att träna modeller som skapar syntetisk data.
Datahomogenitet
I vissa nischfall, som tränar AI för självkörande fordon, är riktiga världens datamängder för homogena. I fallet med körning kan utvecklare generera syntetisk data för att fylla luckor i datan för ovanliga situationer. Detta möjliggör att modeller kan träna för sällsynta händelser på vägen.
Fördomar
Vissa riktiga världens datamängder innehåller inbyggda fördomar, så syntetisk data kan genereras för att säkerställa att AI-modeller får en mer balanserad bild. Till exempel, inom finans, har Storbritanniens Financial Conduct Authority (FCA) argumenterat att syntetisk data har potentialen att motverka potentiella fördomar orsakade av att vissa grupper är underrepresenterade i mänskliga datamängder.
Sekretess
I sektorer som hälsovård och finans, gör sekretesskraven bristen på data ännu mer akut. Med syntetisk data kan företag bygga träningsdatamängder för sina modeller som innehåller nischdata utan att kompromettera kundsekretessen. Men, som en rapport som beställts av Storbritanniens Royal Society har påpekat med hänvisning till syntetisk data i medicinsk forskning, finns det en antagande att syntetisk data är “inherently privat.” Detta är en “missuppfattning.” Som forskarna påpekar, kan syntetisk data läcka information om den data den härstammar från.
Specifikt, modeller som tränats på känslig data är sårbara för modellinversionsattacker, där hackare kan rekonstruera delar av den ursprungliga datamängden.
Kostnad
Generellt sett genereras syntetisk data till en lägre kostnad än riktiga världens data. Den kommer också märkt, vilket sparar tid och kostnad. I vissa AI-träningsprojekt, tar upp till 80% av projektet upp med dataprofileringsarbete, inklusive märkning. Detta förklarar varför särskilda företag har dykt upp specifikt för att tillhandahålla lågkostnadsarbetskraft för att möta dataprofileringsbehoven hos Silicon Valley-jättarna.
Komplettera snarare än ersätta riktiga data
Dessa fördelar med syntetisk data kan utnyttjas, under förutsättning att den inte behandlas som en ersättning för riktiga data. Istället bör dess roll vara att komplettera riktiga datamängder, och ge sätt att öka mängden datapunkter som finns tillgängliga.
För sammanhang, Metas kommande LLM, LLAMA Behemoth, tränas på 30 biljoner datapunkter. Tydligtvis, att hitta riktiga världens data i denna skala är utmanande, om inte omöjligt. Men, som har noterats, att använda riktiga världens data är fortfarande ett måste, antingen för att träna modeller som producerar syntetisk data, eller för att synkronisera med syntetisk data för att säkerställa noggrannhet och undvika modellkollaps. På den skala som LLM arbetar med nu, även om syntetisk data utgör en betydande andel av träningsdatan som används, kommer det fortfarande att finnas en betydande efterfrågan på riktiga världens data. Och detta innebär att det kommer att finnas kvar komplexa problem att lösa kring grindvakter, tillgång, fördomar, kostnad och tid.












