Haastattelut
Gil Elbaz, Datagenin Co-founder & CTO – Haastattelusarja

Gil Elbaz on Datagenin CTO ja Co-founder, joka toimii Tel Avivissa. Hän on suorittanut B.Sc- ja M.Sc-tutkinnot Technionista. Gilin väitöskirjatutkimus keskittyi 3D-tietokoneen näkökykyyn ja on julkaistu CVPR:ssa, maailman johtavassa tietokonenäkökykykonferenssissa. Datagen on edelläkävijä uudessa simuloitujen datojen alalla, joka on synteettisen datan alaluokka, ja joka keskittyy maailman valokuvataiteelliseen uudelleenluomiseen. Yritys aloitti toimintansa hiljaisuudessa yli 18 miljoonan dollarin rahoituksella maaliskuussa 2021, ja se työskentelee nykyään useiden Fortune 100 -yritysten kanssa lisätyn ja virtuaalitodellisuuden, robotiikan ja autoteollisuuden parissa, mukaan lukien useimmat Yhdysvaltain johtavat teknologiayritykset.
Mikä aluksi veti sinut robotiikan ja koneoppimisen pariin?
Sci-Fi-kirjat, kuten Isaac Asimovin Säätiö-sarja ja iRobot, saivat minut ajattelemaan tulevaisuudesta, jossa robotit ovat olennainen osa arkipäiväämme. On niin monia tylsiä, toistuvia tehtäviä, joita ihmiset tekevät; en halunnut itse tehdä niitä, eikä voisi kuvitella kenenkään muun haluavan tehdä niitä. Koska robotiikka on teknologinen välttämättömyys, ajattelin, että sen suuntaan meneminen olisi älykäs, “tulevaisuuden kestävä” uravalinta.
Niinpä lähestyin aluksi aihealaa keskittyen sen fyysisiin puoliin, ja suoritin mechanical engineering -tutkinnon Technionista Haifassa, Israelissa. Tutkinnon loppupuolella aloin syventyä CAD-työkalujen ja -mahdollisuuksien maailmaan. Nämä työkalut mahdollistavat mekaniikkainsinöörien suunnitella rakenteita ja mekaniikkaa (kaikkea siltaa ja autoa myöten). Näin valtavan mahdollisuuden tehdä merkittävä vaikutus ilman hitaiden fyysisten iterointien kanssa kamppailua. Käytännössä nämä ohjelmat eivät olleet juuri lainkaan koneoppimista / tietokonenäkökykyä sisältäviä, mikä olisi auttanut insinöörejä luomaan yksinkertaisempia, halvempia ja vakaampia mekaniikkaa (tämä oli vuonna 2015). Lähdin tavoittelemaan tietokonenäkökykyä 3D-tiedoissa syvällä oppimisella (joka oli hyvin uutta silloin) tavoitteena tehdä älykkäämpiä CAD-ohjelmia. Työskenteleminen modernin syvän oppimisen alkuaikoina tuntui olevan osa jotain, mikä voisi olla todella suurta – samanlaista kuin internet.
Käytännössä tutkimukseni oli ensimmäinen, joka toi syvän oppimisen vallankumouksen tiedekuntaamme Technioniin. Tämä myöhemmin kehittyi tutkielmaksi, joka hyväksyttiin maailman johtavassa tietokonenäkökykykonferenssissa CVPR: ssä, ja lensin Havaijille CVPR 2017: aan. Esitelmöinti ja tapaaminen ihmisten kanssa avasi silmäni tietokonenäkökyky-yhteisön laajuudelle (joka on tänään vähintään 10-kertaista), tuhannet osallistujat kaikki intohimoisesti työskentelevät tutkimuksessa alalla. Tapahtuma käytännössä vahvisti suuntaani, osoittaen minulle tietokonenäkökyvyn voiman ja odottamattoman potentiaalin.
Voitko jakaa Datagenin synnystarinan?
Datagen perustettiin vuonna 2018 tehtävänä muuttaa tapaa, jolla tiimit hankkivat dataa tietokonenäkökykyverkkojen koulutukseen. Edellisenä vuonna näimme Oculus Rift -demoversion, joka koostui VR-lasista ja käsisidettävästä ohjainlaitteesta. Demoesityksen jälkeen ihmettelimme, “miksi kädessä oleva laite tarvitaan yhdistämään virtuaalitila fyysiseen tilaan (ts. seurata käsiliikettä)?” Neuroverkkomme olivat jo tarpeeksi kehittyneitä käsitelläkseen sitä, joten mikä oli ongelma?” Ja silloin valaisimme – Data! Näimme valtavan mahdollisuuden ratkaista 3D-avaruudelliset läsnäolochallengerit edistyneen tietokonenäkökyvyn ja 3D-metadatan avulla. Emme keskittyneet ainoastaan VR / AR: ään, vaan otimme holistisen lähestymistavan, keskittyen näennäisesti ratkaistamattomaan ongelmaan luoda riittävä (ja tarkin) koulutusdata mahdollistaaksesi todellisen 3D-ai-sovellukset.
Ihmisistä ja ihmisen ympäristön vuorovaikutuksesta Datagen on edelläkävijä uudessa simuloitujen datojen alalla, joka on synteettisen datan alaluokka, ja joka keskittyy maailman valokuvataiteelliseen uudelleenluomiseen. Tänään työskentelemme maailman innovatiivisimpien yritysten kanssa kiihdyttääksemme ja nopeuttaaksemme heidän tietokonenäkökykykehitystään ja olemme saaneet rahoitusta alan arvostetuimmilta sijoittajilta.
Voitko selittää, mitä tarkalleen ottaen on synteettinen data lukijoille, jotka eivät ole tuttuja?
Synteettinen data on koulutusdata, joka ei kerätä suoraan mittauksena tai havaintona todellisesta maailmasta, vaan sen sijaan luodaan joko algoritmien avulla tai simulaation kautta. Tietokonenäkökyvyn kontekstissa synteettinen data on tietokoneella luotuja kuvia liitetyillä metatiedoilla, joita tarvitaan tekoälyjen koulutukseen. Koska on olemassa yksityisyyden suojelu, ja todelliset fyysiset ja taloudelliset rajoitukset todellisen maailman kuvadataa, on vaikea liioitella synteettisen datan merkitystä koneoppimiselle ja tekoälylle. Viimeisimmässä raportissa Gartner ennusti, että vuoteen 2024 mennessä suurin osa datasta, jota käytetään tekoäly- ja analytiikka-hankkeiden kehittämisessä, tuotetaan keinotekoisesti näiden syiden vuoksi.
Mitkä ovat synteettisen datan hyödyt verrattuna manuaaliseen datakeruuseen?
Lyhyt vastaus on, ajattele jokainen manuaalisen datakeruun epätoivottu puoli ja poista ne prosessista — ne ovat synteettisen datan hyödyt.
Monipuolisten tietojoukkojen luominen suuressa mittakaavassa tietokonenäkökykykoulutukseen on kallista, aikaa vievää prosessia, ja vaihteluväli on hyvin rajoitettu vain siitä, että ihmisten sijoittaminen tiettyihin paikkoihin ja valokuvauksella on monimutkainen prosessi — paljon monimutkaisempi ja kalliimpi kuin tekemällä niin simuloidussa ympäristössä. Toinen suuri etu on tehokkaasti poistaa tarve manuaaliselle annotoinnille, joka on tylsä, aikaa vievä ja altis ihmisen virheille.
Datagen viittaa simuloituihin datoihin synteettisen datan alaluokkana. Voitko selittää, mitä simuloitujen datojen on?
Simuloitujen data on synteettistä dataa, jota luodaan simulaation kautta. Käytämme GAN: ia (sekä muita edistyneitä koneoppimismenetelmiä) 3D-oliorakenteiden luomiseen ja asettamiseen hyvin realistisiin 3D-simulaatioihin todellisesta maailmasta. Se näyttää ensimmäisen persoonan “virtuaalikuvan ottamisprosessilta”, mutta toimii photo-realistisessa, fysiikkaan perustuvassa järjestelmässä. Nämä simulaatiot tuottavat visuaalidataa (niin kuin se olisi kerätty todellisesta maailmasta), yhdessä täydellisen joukon annotaatioilla (fysiikka, valaistus jne.). Niinpä simuloitujen data on synteettistä dataa, joka on photo-realistista, kontekstuaalisesti luotua, 3D-kuvaa, kerättyä simuloitussa ympäristössä.
Miten Datagen luo räätälöityjä simuloitujen datojen?
Datagenin teknologia luo simuloitujen dataa, joka on sekä helposti skaalattavissa että räätälöity vastaamaan kunkin asiakkaan erityisiä sovelluksien tarpeita. Teemme tämän ottaen huomioon jokaisen projektin jokaisen puolen — tietokonenäkökykyjärjestelmästä, jota käytetään siihen, alueen demografiiseen koostumukseen, jossa se toimii. Olipa työskentelemme suoraan asiakkaidemme kanssa tai vain mahdollistaen heidän insinöörien työtään, Datagen-prosessi alkaa määrittelemällä avainparametrit kullekin erityiselle sovellukselle, kuten linssin määritykset, valaistus, ympäristö, demografinen jakautuminen jne. Datagen käyttää GAN: ia ja muita edistyneitä työkaluja ja -tekniikoita luomaan valtavan määrän varastoja, mukaan lukien kaikenlaiset ihmispäät dynaamisilla kasvojen ilmeillä kouluttaa tekoälyä tunteiden analyysiin, ajoneuvojen sisätiloihin matkustajien valvontaan ja kotiympäristöihin videoneuvottelusovelluksiin, vain mainitaksemme muutamia.
Näiden kykyjen ansiosta Datagenin tietojoukot eivät ole ainoastaan suuria ja monipuolisia, vaan myös optimoituja koulutusjärjestelmän ainutlaatuisten tehtävien (tai joukon tehtävien) suorittamiseen ainutlaatuisessa ympäristössä tai asetelmassa, jossa se on tarkoitus käyttää — kaiken tämän aikana ilman, että se vaarantaa skaalattavuuden. Otamme myös huomioon kunkin sovelluksen tarkat annotaatio / metatietovaatimukset.
Mitkä ovat joitain esimerkkejä ratkaisuista robotiikassa, joissa käytetään synteettistä ja / tai simuloitua dataa?
Yksi suurimmista synteettisen datan eduista robotiikassa on kyky luoda kuvia laitteista, jotka ovat edelleen kehityksessä. Tällä tavoin robotti “aivot” (AI) ja “ruumis” (laitteet) voidaan kehittää rinnakkain. Nyt koulutus voidaan kehittää laitteiden määritysten kehittyessä, eikä odoteta, kunnes lopullinen tuote on täysin prototyyppi, ennen kuin voit ottaa valokuvia siitä ja aloittaa AI: n kehittämisen.
Lisäksi, koska simuloitua dataa luodaan kontekstissa, voit helpommin ottaa huomioon robotti ja sen ympäristön välinen vuorovaikutus. Niinpä, jos kuvittelet robottia, joka poimii ja poistaa viallisia tuotteita kokoonpanolinjalta, simuloitua dataa voidaan käyttää luomaan dataa jokaiselle fyysiselle virheelle, joka on kuviteltavissa tuotteessa, ja myös robotti käsivarren täydellisen liikkeen aikana, sen vuorovaikutus objektin kanssa, jonka se ottaa kiinni. Mitä enemmän, 3D-metadatan ansiosta ei ole tarpeen vaivataksesi annotoida kuvaa toisensa jälkeen, jotta robotti voi oikein tunnistaa tuotteen, virheet, käsivartensa tai mitään muuta näkökentässään.
Mitkä ovat joitain käyttötarkoituksia simuloitujen datojen käytölle älyautossa?
Simuloitujen datojen käyttäminen älyauton kehityksessä tekee siitä helppoa kehittää tietojoukkoja tiettyjen automallien suunnittelun aikana, iteroiden yhdessä auton kanssa sen kehittyessä eri suunnitteluvaiheiden läpi. Simuloitujen kuvadatien avulla insinöörit voivat myös käyttää sisätilojen näkökykyä tehokkaammin tunnistamaan väsyneitä tai häiritettyjä kuljettajia, jos kuljettaja on ottanut kätensä irti ohjauspyörästä tai mitä tahansa muita reunatapauksia kuljettajan turvallisuuden huomioon ottaen. Se myös mahdollistaa insinöörien ottaa huomioon suuremman monimuotoisuuden kuljettajissa ja matkustajissa ja esitellä vaihtelua kuvakulman ja valaistuksen muodossa — kaiken tämän aikana ilman, että se loukkaa todellisten ihmisten yksityisyyttä.
Viimeaikaisesti Datagen ilmoitti useista jännittävistä uusista palkkaamisista, mitä se merkitsee yrityksen tulevaisuudelle?
Viimeaikaiset lisäykset neuvonantajistoon ja johtoryhmään sisältävät joitain alan älykkäimpiä ja saavutettavimpia ammattilaisia. Heidän tietämys, oivallus ja kokemus auttavat suuntaamaan ja kiihdyttämään Datagenin kasvua, kun navigoimme alan, joka on edelleen nuori ja täynnä mahdollisuuksia. Alan, jossa on niin monia tuntemattomia, ei ole mitään arvokkaampaa kuin tietämys.
Onko mitään muuta, mitä haluaisit jakaa Datagenista?
Tel Avivissa toimiva Datagen on osa laajempaa taloudellista ja kulttuurista muutosta, joka on tapahtunut Israelissa, ja olemme ylpeitä olemasta osana sitä. Lyhyessä ajassa Israel (erityisesti Tel Aviv) on kasvanut merkittäväksi globaaliksi teknologiakeskukseksi, jossa on kukoistava startup-ekosysteemi ja energinen sijoittajayhteisö. Vaikka Israelia usein pidetään kyberTurvallisuuden keskuksena, AI- ja data-keskeinen teknologia on kasvanut eksponentiaalisesti viime vuosina. Tänään on yli 680 tekoälyyritystä Israelissa, jotka ovat keränneet yhteensä 4,5 miljardia dollaria. Tämä räjähdysmäinen kasvu viime vuosina johtuu suurelta osin insinöörien ja Israelin maailmanluokan yliopistojen korkeasta keskittymästä. Nämä akateemiset laitokset tarjoavat pääsyn kyvykkyyteen ja viimeisimpiin teknologisen kehityksen edistysaskeliin alalla. Viimeisten kahden kuukauden aikana Datagen on palkannut yli 20 työntekijää ja aikoo palkata lisää tiimiläisiä myyntiin ja markkinointiin, ohjelmistoihin ja DevOps: iin ja tuoteosastoihin.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla Datagenissa.












