Kunstig intelligens

DataGen sikrer 18 millioner dollar i investeringer for å lage syntetisk data for AI

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

Det israelske startup-selskapet DataGen har nylig samlet inn 18,5 millioner dollar for å finansiere utviklingen av en plattform dedikert til å produsere syntetisk data for AI-selskaper.

Enhver kunstig intelligens-virksomhet møter samme kjerneproblem, å samle inn dataene som er nødvendige for å trene sine AI-modeller. Behovet for høykvalitets treningdata er så stort at det har ført til en hel underbransje dedikert til å levere AI-selskaper med dataene de trenger for å trene sine modeller. AI- og AI-tilstøtende selskaper søker alltid etter nye måter å få tak i dataene de trenger. En måte å få denne treningdataen på er å bare fabrikkere eller generere dataene.

Som Fortune rapporterte, spesialiserer DataGen seg på å bruke sine egne maskinlæringsmodeller til å lage syntetisk data for andre selskaper til å trene sine modeller, spesielt bilde- og videodata. Dataene som genereres av selskapet brukes deretter av kundene til å trene sine egne AI-modeller. Ifølge DataGen’s CEO og grunnlegger, Ofir Chakon, kan selskapet lage et helt syntetisk datasett for en kunde i løpet av bare noen få timer. Dette er betraktelig raskere enn den tiden det vanligvis tar å forberede et datasett for bruk, som ofte er uker eller til og med måneder med labeling av data.

Det er andre grunner til at syntetisk data er attraktivt for selskaper, foruten den relative hastigheten med hvilken det kan forberedes. Syntetisk data kommer ikke med samme slags personvernsproblemer som ekte data gjør. Ettersom flere lover blir lagt for å beskytte folks personvernsdata, blir det mer attraktivt å ha syntetisk treningdata. En estimat gitt av teknologianalysefirmaet Gartner forutser at rundt 65% av verdens befolkning vil ha sine data beskyttet av en eller annen type personvernslov innen 2023.

Til tross for at syntetisk data ikke er basert på ekte mennesker, kan det likevel være forvrengt. Dataene som genereres av en syntetisk datamodell vil ha samme mønster som de opprinnelige treningdataene hadde, noe betyr at hvis et datasett er forvrengt, vil disse forvringene eksistere i de nygenererte dataene. DataGen har strategier for å redusere dataforvring i de genererte dataene. En metode for å redusere forvring i syntetisk data er å øke forekomsten av relativt sjeldne hendelser, noe betyr at hvis en klasse i datasettet er underrepresentert, kan dens forekomst økes opp til noe mer likt.

Teknikken med å øke forekomsten av sjeldne hendelser er usedvanlig viktig når man lager datasett som involverer potensielt farlige scenarioer. Vurdér et datasett som brukes til å trene en autonom bil. Bilen må reagere pålitelig på sjeldne hendelser, som et sinkhole som åpner seg i veien. Likevel er disse hendelsene svært sjeldne, og å få treningdata for disse hendelsene er vanskelig. Av denne grunn trenger treningdata for disse sjeldne hendelsene ofte å genereres.

Som Chakon forklarte via Fortune:

“Våre kunder har full kontroll over alle parameterne som går inn i dataene de lager. Den virkelige implikasjonen er at, en gang de er deployert, kan du være sikker på at de vil fungere godt i forskjellige domener, med forskjellige etniske grupper, i forskjellige geografiske lokasjoner eller i enhver miljø du kan forestille deg.”

DataGen bruker Generative Adversarial Networks (GANs) til å generere realistiske simuleringer av virkelige gjenstander og hendelser. Chakon forklarte at selskapet kan pålitelig generere realistiske eksempler på alt som involverer innendørs miljøer eller menneskelig persepsjon. For eksempel kan et bilde-datasett generert av DataGen inneholde eksempler på gjenstander som brukes til å trene en robot-arm for lagerlogistikk, med de genererte bildene som ser ut som de ekte tingene. DataGen’s programvare kan generere 3D-objekter ved å kombinere et visuelt meshverk med et fysikksimuleringsystem.

Investorer i DataGen inkluderer en rekke høyprofilerte personer og selskaper. Investorer inkluderer direktørene for Nvidia’s AI-forskningsavdeling og Max Planck-instituttet for intelligente systemer, samt Anthony Goldbloom, CEO av Kaggle.

Related Topics:data generation synthetic data

Daniel Nelson

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.

Unite.AI

DataGen sikrer 18 millioner dollar i investeringer for å lage syntetisk data for AI

You may like