tynkä DataGen turvaa 18 miljoonan dollarin investointeja luodakseen synteettistä dataa tekoälyille - Unite.AI
Liity verkostomme!

Tekoäly

DataGen turvaa 18 miljoonan dollarin investointeja luodakseen synteettistä dataa tekoälyille

mm
Päivitetty on

Israelilainen startup-yritys DataGen on keräsi äskettäin 18.5 miljoonaa dollaria rahoittaa synteettisen datan tuottamiseen tarkoitetun alustan luomista tekoälyyrityksille.

Kaikki tekoälyyritykset kohtaavat saman ydinhaasteen, keräämällä tarvittavia tietoja tekoälymalliensa kouluttamiseen. Laadukkaan koulutusdatan tarve on niin suuri, että se on johtanut kokonaiseen ala-alaan, joka on sitoutunut tarjoamaan tekoälyyrityksille tietoja, joita ne tarvitsevat malliensa kouluttamiseen. Tekoäly ja tekoälyn läheiset yritykset etsivät jatkuvasti uusia tapoja saada tarvitsemansa tiedot. Yksi tapa saada nämä harjoitustiedot on vain valmistaa tai generoida tiedot.

Kuten Fortune raportoi, DataGen on erikoistunut käyttämään omia koneoppimismallejaan luomaan synteettistä dataa muille yrityksille mallejaan, erityisesti kuva- ja videodataa. Yrityksen tuottamaa dataa käyttävät sitten asiakkaat kouluttaessaan omia tekoälymallejaan. DataGenin toimitusjohtajan ja perustajan Ofir Chakonin mukaan yritys voi luoda kokonaisen synteettisen tietojoukon asiakasyritykselle muutamassa tunnissa. Tämä on huomattavasti nopeampi kuin aika, joka tyypillisesti kestää aineiston valmistelemiseen käyttöä varten, mikä on usein viikkoja tai jopa kuukausia etikettidatan.

Synteettisen datan houkuttelemiseen yrityksille on muitakin syitä, paitsi suhteellinen nopeus, jolla se voidaan valmistaa. Synteettiseen dataan ei liity sellaisia ​​tietosuojaongelmia kuin todellisiin tietoihin. Mitä enemmän lakeja luodaan ihmisten tietosuojan suojaamiseksi, synteettisten harjoitustietojen käyttö houkuttelee. Yksi teknologia-analytiikkayrityksen antama arvio Gartner ennustaa, että vuoteen 2023 mennessä noin 65 prosentilla maailman väestöstä on tietonsa suojattu jonkinlailla tietosuojalailla.

Huolimatta siitä, että synteettinen data ei perustu oikeisiin ihmisiin, se voi silti olla puolueellinen. Synteettisellä datamallilla luodulla tiedolla on samat kuviot kuin alkuperäisellä harjoitusdatalla, mikä tarkoittaa, että jos tietojoukko on harhaanjohtava, nämä harhat ovat olemassa vasta luodussa datassa. DataGenillä on strategioita, joilla vähennetään luodussa tiedossa olevaa dataharhaa. Yksi tapa vähentää synteettisen datan harhaa on lisätä suhteellisen harvinaisten tapahtumien esiintymistiheyttä, mikä tarkoittaa, että jos yksi luokka tietojoukossa on aliedustettuna, sen esiintymistiheys voidaan nostaa johonkin tasaisempaan.

Harvinaisten tapahtumien esiintymisen lisäämistekniikka on uskomattoman tärkeä luotaessa tietojoukkoja, jotka sisältävät mahdollisesti vaarallisia skenaarioita. Harkitse tietojoukkoa, jota käytetään autonomisen ajoneuvon kouluttamiseen. Ajoneuvon on reagoitava luotettavasti harvinaisiin tapahtumiin, kuten tielle avautuvaan vajoamiseen. Nämä tapahtumat ovat kuitenkin erittäin harvinaisia, ja harjoitustietojen saaminen näistä tapahtumista on vaikeaa. Tästä syystä näitä harvinaisia ​​tapahtumia varten on usein luotava harjoitustietoja.

Kuten Chakon selitti Fortunen kautta:

"Asiakkaamme hallitsevat täysin kaikkia parametreja, jotka liittyvät heidän luomaansa dataan. Tosimaailmassa on se, että kun se on otettu käyttöön, voit olla varma, että se toimii hyvin eri aloilla, eri etnisissä ryhmissä, eri maantieteellisissä paikoissa tai missä tahansa kuvittelemasi ympäristössä."

DataGen käyttää GAN-verkkoja (Generative Adversarial Networks) luodakseen realistisia simulaatioita todellisista kohteista ja tapahtumista. Chakon selitti, että yritys pystyy luomaan luotettavasti realistisia esimerkkejä kaikesta, mikä liittyy sisäympäristöön tai ihmisen havaintoon. Esimerkiksi DataGenin luoma kuvatietojoukko voisi sisältää esimerkkejä esineistä, joita käytetään varastologistiikassa käytettävän robottipoimintavarren kouluttamiseen, jolloin luodut kuvat näyttävät erottumattomilta todellisesta asiasta. DataGenin ohjelmisto voi luoda 3D-objekteja yhdistämällä visuaalisen verkon fysiikan simulaatiojärjestelmään.

DataGenin sijoittajiin kuuluu useita korkean profiilin henkilöitä ja yrityksiä. Sijoittajia ovat muun muassa Nvidian tekoälytutkimusosaston ja Max Plank Institute for Intelligent Systems -instituutin johtajat sekä Kagglen toimitusjohtaja Anthony Goldbloom.