Artificiell intelligens

DataGen Säkrar 18 Miljoner Dollar i Investeringar för att Skapa Syntetisk Data för AI

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

Det israeliska startup-företaget DataGen har nyligen samlat in 18,5 miljoner dollar för att finansiera skapandet av en plattform som är dedikerad till att producera syntetisk data för AI-företag.

Varje artificiell intelligensföretag står inför samma kärnutmaning, att samla in den data som är nödvändig för att träna sina AI-modeller. Behovet av högkvalitativ träningsdata är så stort att det har lett till en hel underindustri som är dedikerad till att tillhandahålla AI-företag med den data de behöver för att träna sina modeller. AI och AI-relaterade företag letar alltid efter nya sätt att få den data de behöver. Ett sätt att få denna träningsdata är att helt enkelt fabricera eller generera data.

Som Fortune rapporterade, specialiserar sig DataGen på att använda sina egna maskinlärningsmodeller för att skapa syntetisk data för andra företag att träna sina modeller, särskilt bild- och videodata. Den data som genereras av företaget används sedan av deras kunder för att träna sina egna AI-modeller. Enligt DataGens VD och grundare, Ofir Chakon, kan företaget skapa en hel syntetisk dataset för en kund på bara några timmar. Detta är avsevärt snabbare än den tid det vanligtvis tar att förbereda en dataset för användning, som ofta är veckor eller till och med månader av märkning av data.

Det finns andra skäl till varför syntetisk data är attraktiv för företag, förutom den relativa hastighet med vilken den kan förberedas. Syntetisk data kommer inte med de typer av integritetsproblem som riktiga data gör. När fler lagar skapas för att skydda människors datintegritet, blir det mer attraktivt att ha syntetisk träningsdata. En uppskattning som ges av teknikanalytiska företaget Gartner förutspår att runt 65% av världens befolkning kommer att ha sin data skyddad av någon typ av dataskyddslag till 2023.

Trots att syntetisk data inte är baserad på riktiga människor, kan den fortfarande vara partisk. Den data som genereras av en syntetisk datamodell kommer att ha samma mönster som den ursprungliga träningsdatan hade, vilket innebär att om en dataset är partisk, kommer dessa partiskheter att finnas i den nygenererade datan. DataGen har strategier för att minska datapartiskhet i den genererade datan. En metod för att minska partiskhet i syntetisk data är att öka förekomsten av relativt sällsynta händelser, vilket innebär att om en klass i dataset är underrepresenterad, kan dess förekomst ökas till något mer jämnt.

Tekniken att öka förekomsten av sällsynta händelser är otroligt viktig när man skapar dataset som involverar potentiellt farliga scenarier. Tänk på en dataset som används för att träna en autonom fordon. Fordonet måste på ett tillförlitligt sätt reagera på sällsynta händelser, såsom en grop som öppnar sig i vägen. Men dessa händelser är mycket sällsynta, och att få träningsdata för dessa händelser är svårt. Av denna anledning behöver träningsdata för dessa sällsynta händelser ofta genereras.

Som Chakon förklarade via Fortune:

“Våra kunder har full kontroll över alla parametrar som går in i den data de skapar. Den verkliga implikationen är att, när den väl är distribuerad, kan du vara säker på att den kommer att fungera bra i olika domäner, med olika etniciteter, i olika geografiska platser eller i vilken miljö du kan tänka dig.”

DataGen använder Generative Adversarial Networks (GANs) för att generera realistiska simuleringar av verkliga världens föremål och händelser. Chakon förklarade att företaget kan tillförlitligt generera realistiska exempel på allt som involverar inomhusmiljöer eller mänsklig perception. Till exempel kan en bildataset som genereras av DataGen innehålla exempel på föremål som används för att träna en robotarm för lagerlogistik, med de genererade bilderna som ser oskiljbara ut från de riktiga. DataGens programvara kan generera 3D-objekt genom att kombinera en visuell meshwork med ett fysiksimuleringsystem.

Investorerna i DataGen inkluderar en mängd olika högprofilerade personer och företag. Investorerna inkluderar cheferna för Nvidias AI-forskningsavdelning och Max Planck-institutet för intelligenta system, samt Anthony Goldbloom, VD för Kaggle.

Daniel Nelson

Blogger och programmerare med specialområden inom Machine Learning och Deep Learning ämnen. Daniel hoppas på att hjälpa andra att använda kraften från AI för socialt väl.

Unite.AI

DataGen Säkrar 18 Miljoner Dollar i Investeringar för att Skapa Syntetisk Data för AI

You may like