Connect with us

DataGen turvaa 18 miljoonan dollarin sijoitukset synteettisen datan luomiseen tekoälylle

Tekoäly

DataGen turvaa 18 miljoonan dollarin sijoitukset synteettisen datan luomiseen tekoälylle

mm

Israelilainen startup-yritys DataGen on aiemmin kerännyt 18,5 miljoonaa dollaria rahoittamaan alustan kehittämistä, joka on omistettu synteettisen datan tuottamiseen tekoälyyrityksille.

Mikä tahansa tekoälyyritys kohtaa saman perushaasteen, kerätä tarvittava data koulutusmalliensa harjoittamiseen. Korkealaatuisen koulutusdatan tarve on niin suuri, että se on johtanut kokonaan uuden alatoimialan syntyyn, joka tarjoaa tekoälyyrityksille tarvittavaa dataa mallien kouluttamiseen. Tekoäly- ja tekoälyyn liittyvät yritykset etsivät jatkuvasti uusia keinoja saada tarvitsemaansa dataa. Yksi tapa saada koulutusdataa on vain väärentää tai luoda data.

Kuten Fortune kertoi, DataGen on erikoistunut omien koneoppimismallien käyttämiseen synteettisen datan luomiseen muiden yritysten mallien kouluttamiseen, erityisesti kuvaa ja videodataa. Yrityksen luoma data käytetään asiakkaiden omien tekoälymallien kouluttamiseen. DataGenin toimitusjohtajan ja perustajan Ofir Chakonin mukaan yritys voi luoda kokonaan synteettisen tietojoukon asiakasyritykselle vain muutamassa tunnissa. Tämä on huomattavasti nopeampaa kuin aika, joka kuluu tietojoukon valmisteluun, joka voi kestää useita viikkoja tai jopa kuukausia datan merkintää.

On olemassa muitakin syitä, miksi synteettinen data on houkutteleva yrityksille, paitsi siitä, että se voidaan valmistaa suhteellisen nopeasti. Synteettinen data ei sisällä samoja yksityisyyden suojeluun liittyviä huolenaiheita kuin aito data. Koska yhä enemmän lakeja luodaan suojelemaan ihmisten datan yksityisyyttä, synteettinen koulutusdata on houkuttelevampaa. Teknologia-analytiikkayritys Gartner arvioi, että vuoteen 2023 mennessä noin 65 % maailman väestöstä on suojattu jonkinlaisella datan yksityisyyden suojalain kanssa.

Vaikka synteettinen data ei perustu oikeisiin ihmisiin, se voi silti olla harhaanjohtava. Synteettisen datamallin luoma data sisältää samat kuviot, joita alkuperäinen koulutusdata sisälsi, mikä tarkoittaa, että jos tietojoukko on harhaanjohtava, ne harhat ovat olemassa myös uudessa luodussa datassa. DataGenilla on strategioita vähentää datan harhaa luodussa datassa. Yksi tapa vähentää synteettisen datan harhaa on lisätä harvinaisten tapahtumien esiintymistiheyttä, mikä tarkoittaa, että jos joku luokka tietojoukossa on aliedustettu, sen esiintymistiheyttä voidaan lisätä jopa tasa-arvoiseksi.

Tekniikka harvinaisten tapahtumien esiintymistiheyden lisäämisestä on erittäin tärkeä, kun luodaan tietoja, jotka liittyvät mahdollisesti vaarallisiin tilanteisiin. Tarkastellaan esimerkiksi tietojoukkoa, jota käytetään itseohjautuvan ajoneuvon kouluttamiseen. Ajoneuvon on vastattava luotettavasti harvinaisiin tapahtumiin, kuten maanalaisen onkalon aukeamiseen tiellä. Näitä tapahtumia on kuitenkin erittäin vaikea saada koulutusdataa, joten tällaisia harvinaisia tapahtumia tarvitaan usein luoda.

Kuten Chakon selitti Fortunen kautta:

“Meidän asiakkaidemme on täysi valta kaikkiin parametreihin, jotka menevät dataan, jonka he luovat. Todellinen vaikutus on, että kun se on käyttöön otettu, voit olla varma, että se toimii hyvin eri aloilla, eri etnisyyksillä, eri maantieteellisillä sijainneilla tai missä tahansa ympäristössä, jonka voit kuvitella.”

DataGen käyttää Generative Adversarial Networks (GAN) -teknologiaa luomaan realistisia simulaatioita todellisista esineistä ja tapahtumista. Chakon selitti, että yritys voi luotettavasti luoda realistisia esimerkkejä mistä tahansa, mikä liittyy sisäympäristöihin tai ihmisen havainnointiin. Esimerkiksi DataGenin luoma kuvatietojoukko voisi sisältää esimerkkejä esineistä, joita voidaan käyttää kouluttamaan robottikäsivarsia, joita käytetään varastologistiikassa, ja luodut kuvat näyttävät täsmälleen aitoilta. DataGenin ohjelmisto voi luoda 3D-esineitä yhdistämällä visuaalisen verkkorakenteen fysiikkasimulaatiolaitteistoon.

DataGenin sijoittajia ovat mm. useat korkean profiilin henkilöt ja yritykset. Sijoittajia ovat mm. Nvidian tekoälytutkimuksen johtajat ja Max Planck -instituutti älymässä järjestelmissä, sekä Anthony Goldbloom, Kaggle:n toimitusjohtaja.

Blogger ja ohjelmoija, jolla on erityisalat Machine Learning ja Deep Learning -aiheissa. Daniel toivoo pystyvänsä auttamaan muita käyttämään tekoälyn voimaa sosiaaliseen hyvään.