Kunstmatige intelligentie
DataGen Verzamelt $18 Miljoen Aan Investeringen Om Synthetische Data Voor AI’s Te Creëren

Het Israëlische startupbedrijf DataGen heeft onlangs $18,5 miljoen dollar opgehaald om een platform te financieren dat is gewijd aan het produceren van synthetische data voor AI-bedrijven.
Elk kunstmatig intelligentiebedrijf staat voor dezelfde fundamentele uitdaging, namelijk het verzamelen van de benodigde data om hun AI-modellen te trainen. De behoefte aan hoge kwaliteit trainingsdata is zo groot dat het heeft geleid tot een hele subindustrie die zich toelegt op het leveren van AI-bedrijven met de data die ze nodig hebben om hun modellen te trainen. AI- en AI-gerelateerde bedrijven zijn altijd op zoek naar nieuwe manieren om de benodigde data te verkrijgen. Een manier om deze trainingsdata te verkrijgen is door de data gewoon te fabriceren of te genereren.
Volgens Fortune is DataGen gespecialiseerd in het gebruik van hun eigen machine learning-modellen om synthetische data te creëren voor andere bedrijven om hun modellen te trainen, met name beeld- en videodata. De door het bedrijf gegenereerde data wordt vervolgens door hun klanten gebruikt om hun eigen AI-modellen te trainen. Volgens DataGen’s CEO en oprichter, Ofir Chakon, kan het bedrijf een geheel synthetische dataset voor een klantbedrijf creëren in slechts een paar uur. Dit is aanzienlijk sneller dan de tijd die het normaal gesproken duurt om een dataset voor te bereiden, wat vaak weken of zelfs maanden van het labelen van data is.
Er zijn andere redenen waarom synthetische data aantrekkelijk is voor bedrijven, naast de relatieve snelheid waarmee het kan worden voorbereid. Synthetische data komt niet met de soorten privacyproblemen die echte data heeft. Naarmate meer wetten worden gecreëerd om de gegevensbescherming van mensen te beschermen, wordt het aantrekkelijker om synthetische trainingsdata te hebben. Een schatting van het technologieanalysebedrijf Gartner voorspelt dat tegen 2023 ongeveer 65% van de wereldbevolking hun data beschermd zullen hebben door een soort gegevensbeschermingswet.
Ondanks het feit dat synthetische data niet op echte mensen is gebaseerd, kan het nog steeds bevooroordeeld zijn. De door een synthetisch datamodel gegenereerde data zal dezelfde patronen hebben als de oorspronkelijke trainingsdata, wat betekent dat als een dataset bevooroordeeld is, die bevooroordeeldheid zal bestaan in de gegenereerde data. DataGen heeft strategieën om gegevensbevooroordeeldheid in de gegenereerde data te verminderen. Een methode om bevooroordeeldheid in synthetische data te verminderen is het verhogen van de voorkomstfrequentie van relatief zeldzame gebeurtenissen, wat betekent dat als een klasse in de dataset ondervertegenwoordigd is, de voorkomstfrequentie kan worden verhoogd tot iets meer gelijks.
De techniek van het verhogen van de voorkomst van zeldzame gebeurtenissen is ontzettend belangrijk bij het creëren van datasets die potentieel gevaarlijke scenario’s betreffen. Overweeg een dataset die wordt gebruikt om een autonome voertuig te trainen. Het voertuig moet betrouwbaar reageren op zeldzame gebeurtenissen, zoals een sinkhole die opent in de weg. Echter, deze gebeurtenissen zijn zeer zeldzaam, en het verkrijgen van trainingsdata voor deze gebeurtenissen is moeilijk. Om deze reden moeten trainingsdata voor deze zeldzame gebeurtenissen vaak worden gegenereerd.
Zoals Chakon via Fortune uitlegde:
“Onze klanten hebben volledige controle over alle parameters die in de data worden opgenomen. De werkelijke implicatie is dat, zodra het is geïmplementeerd, u er zeker van kunt zijn dat het goed zal werken in verschillende domeinen, met verschillende etnische groepen, in verschillende geografische locaties of elke omgeving die u zich kunt voorstellen.”
DataGen gebruikt Generative Adversarial Networks (GAN’s) om realistische simulaties van echte wereldobjecten en gebeurtenissen te genereren. Chakon legde uit dat het bedrijf realistische voorbeelden kan genereren van alles wat indooromgevingen of menselijke perceptie betreft. Bijvoorbeeld, een beeldataset gegenereerd door DataGen kan voorbeelden bevatten van objecten die worden gebruikt om een robotarm te trainen die wordt gebruikt voor warehouse-logistiek, met gegenereerde beelden die niet te onderscheiden zijn van het echte artikel. DataGen’s software kan 3D-objecten genereren door een visueel meshwerk te combineren met een fysica-simulatiesysteem.
Investeerders in DataGen omvatten een verscheidenheid aan hoogprofiel individuen en bedrijven. Investeerders omvatten de directeuren van Nvidia’s AI-onderzoeksafdeling en het Max Planck-instituut voor Intelligent Systems, evenals Anthony Goldbloom, CEO van Kaggle.












