stomp DataGen verseker $18 miljoen in beleggings om sintetiese data vir KI's te skep - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

DataGen verseker $18 miljoen in beleggings om sintetiese data vir KI's te skep

mm
Opgedateer on

Die Israeliese beginmaatskappy DataGen het het onlangs $18.5 miljoen dollar ingesamel om die skepping van 'n platform te finansier wat toegewy is aan die vervaardiging van sintetiese data vir KI-maatskappye.

Enige kunsmatige intelligensie-onderneming staar dieselfde kernuitdaging in die gesig, en versamel die data wat nodig is om sy KI-modelle op te lei. Die behoefte aan opleidingsdata van hoë gehalte is so groot dat dit gelei het tot 'n hele sub-industrie wat daaraan toegewy is om KI-maatskappye te voorsien van die data wat hulle nodig het om hul modelle op te lei. KI en KI-aangrensende maatskappye is altyd op soek na nuwe maniere om die data te kry wat hulle nodig het. Een manier om hierdie opleidingsdata te kry, is om net die data te vervaardig of te genereer.

Soos Fortune berig het, spesialiseer DataGen in die gebruik van hul eie masjienleermodelle om sintetiese data te skep vir ander maatskappye om hul modelle op te lei, veral beeld- en videodata. Die data wat deur die maatskappy gegenereer word, word dan deur hul kliënte gebruik om hul eie KI-modelle op te lei. Volgens DataGen se HUB en stigter, Ofir Chakon, kan die maatskappy binne 'n paar uur 'n hele sintetiese datastel vir 'n kliëntmaatskappy skep. Dit is aansienlik vinniger as die tyd wat dit gewoonlik neem om 'n datastel vir gebruik voor te berei, wat dikwels weke of selfs maande se etikettering van data is.

Daar is ander redes waarom sintetiese data vir maatskappye aantreklik is, afgesien van die relatiewe spoed waarmee dit voorberei kan word. Sintetiese data kom nie met die soorte privaatheidskwessies wat werklike data doen nie. Namate meer wette geskep word om mense se dataprivaatheid te beskerm, word dit aantrekliker om sintetiese opleidingsdata te hê. Een skatting gegee deur die tegnologie-ontledingsfirma Gartner voorspel dat ongeveer 2023% van die wêreld se bevolking teen 65 hul data sal beskerm deur een of ander tipe dataprivaatheidswet.

Ten spyte van die feit dat sintetiese data nie op regte mense gebaseer is nie, kan dit steeds bevooroordeeld wees. Die data wat deur 'n sintetiese datamodel gegenereer word, sal dieselfde patrone hê as die oorspronklike opleidingsdata, wat beteken dat indien 'n datastel bevooroordeeld is, daardie vooroordele in die nuutgegenereerde data sal bestaan. DataGen het strategieë om data-vooroordeel in die gegenereerde data te verminder. Een metode om vooroordeel in sintetiese data te verminder, is om die voorkomssyfer van relatief seldsame gebeurtenisse te verhoog, wat beteken dat as een klas in die datastel onderverteenwoordig is, kan die voorkomskoers daarvan verhoog word tot iets meer gelyk.

Die tegniek om die voorkoms van seldsame gebeure te bevorder, is ongelooflik belangrik wanneer datastelle geskep word wat potensieel gevaarlike scenario's behels. Oorweeg 'n datastel wat gebruik word om 'n outonome voertuig op te lei. Die voertuig moet betroubaar reageer op seldsame gebeurtenisse, soos 'n sinkgat wat in die pad oopgaan. Hierdie gebeurtenisse is egter baie skaars, en dit is moeilik om opleidingsdata vir hierdie gebeurtenisse te kry. Om hierdie rede moet opleidingsdata vir hierdie seldsame gebeurtenisse dikwels gegenereer word.

Soos Chakon verduidelik het via Fortune:

“Ons kliënte het volle beheer oor al die parameters wat in die data wat hulle skep, ingaan. Die werklike implikasie is dat, sodra dit ontplooi is, jy seker kan wees dat dit goed gaan werk in verskillende domeine, met verskillende etnisiteite, in verskillende geografiese liggings of enige omgewing wat jy jou kan voorstel.”

DataGen gebruik Generative Adversarial Networks (GAN's) om realistiese simulasies van werklike items en gebeure te genereer. Chakon het verduidelik dat die maatskappy betroubaar realistiese voorbeelde kan genereer van enigiets wat binnenshuise omgewings of menslike persepsie behels. Byvoorbeeld, 'n beelddatastel wat deur DataGen gegenereer word, kan voorbeelde insluit van voorwerpe wat gebruik word om 'n robotplukarm op te lei wat vir pakhuislogistiek gebruik word, met die gegenereerde beelde wat nie van die regte ding onderskei kan word nie. DataGen se sagteware kan 3D-voorwerpe genereer deur 'n visuele meshwork met 'n fisika-simulasiestelsel te kombineer.

Beleggers in DataGen sluit 'n verskeidenheid hoëprofiel individue en maatskappye in. Beleggers sluit in die direkteure van Nvidia se KI-navorsingsafdeling en die Max Plank Institute for Intelligent Systems, asook Anthony Goldbloom, uitvoerende hoof van Kaggle.

Blogger en programmeerder met spesialiteite in masjienleer en Diep leer onderwerpe. Daniel hoop om ander te help om die krag van KI vir sosiale voordeel te gebruik.