Intervjuji

Gil Elbaz, soustanovitelj in tehnični direktor Datagen – serija intervjujev

Posodobljeno on Oktober 1, 2021

Gil Elbaz je Datagen's Tehnični direktor in soustanovitelj s sedežem v Tel Avivu. Diplomiral in magistriral je na Technionu. Gilova raziskava diplomske naloge je bila osredotočena na 3D računalniški vid in je bila objavljena na CVPR, najboljši konferenci o raziskavah računalniškega vida na svetu. Datagen je pionir na novem področju simuliranih podatkov, podnabora sintetičnih podatkov, ki se osredotoča na fotorealistično poustvarjanje sveta okoli nas. Podjetje je marca 18 začelo prikrito z več kot 2021 milijoni dolarjev sredstev in zdaj sodeluje s številnimi podjetji s seznama Fortune 100 na področju obogatene/navidezne resničnosti, robotike in avtomobilizma, vključno z večino vodilnih ameriških tehnoloških velikanov.

Kaj vas je na začetku pritegnilo k robotiki in strojnemu učenju?

Znanstvenofantastične knjige, kot sta Isaac Asimov's Foundation Series in iRobot, so me vedno spodbudile k razmišljanju o prihodnosti, v kateri bodo roboti sestavni del našega vsakodnevnega življenja. Ljudje opravljajo toliko dolgočasnih, ponavljajočih se nalog; Vedel sem, da jih nočem narediti, in nisem si mogel predstavljati, da bi kdo drug to želel. Glede na to, da je robotika tehnološka neizogibnost, sem mislil, da bi bila iti v to smer pametna, »odporna na prihodnost« poklicna odločitev.

Tako sem sprva pristopil k področju, ki sem se osredotočil na fizične vidike predmeta, in diplomiral iz strojništva na Technionu v Haifi v Izraelu. Proti koncu diplome sem se začel potapljati globoko v svet orodij in zmogljivosti CAD. To so orodja, ki strojnim inženirjem omogočajo načrtovanje konstrukcij in mehanskih naprav (vse od mostu do avtomobila). Videl sem ogromno priložnosti za velik vpliv, ne da bi se ukvarjal s počasnimi ponovitvami fizičnega sveta. V praksi so ti programi imeli zelo malo integriranih zmogljivosti strojnega učenja/računalniškega vida, če sploh, kar je pomagalo inženirjem ustvariti preprostejše, cenejše in stabilnejše mehanske sisteme (to se je zgodilo leta 2015). Odpravil sem se v smeri Computer Vision na 3D podatkih z globokim učenjem (takrat zelo novo) s ciljem izdelave pametnejših CAD programov. Ko sem delal v zgodnjih dneh sodobnega poglobljenega učenja, sem se počutil kot del nečesa, kar bi lahko bilo res veliko - podobno kot internet.

V praksi je bila moja raziskava prva, ki je prinesla revolucijo globokega učenja na našo fakulteto na Technion. To se je kasneje spremenilo v prispevek, ki je bil sprejet na najvišjo konferenco o računalniškem vidu na svetu, CVPR, in odletel sem na Havaje na CVPR 2017. Predstavitev mojega prispevka in srečanje z ljudmi mi je resnično odprlo oči glede obsega skupnosti računalniškega vida (ki danes je vsaj 10x večji), na tisoče udeležencev, ki vsi strastno delajo na raziskavah na tem področju. Ta dogodek je precej utrdil mojo usmeritev, pokazal mi je moč računalniškega vida in potencial, ki čaka, da ga sprostim.

Ali lahko delite zgodbo o nastanku Datagena?

Podjetje Datagen je bilo ustanovljeno leta 2018 z namenom spremeniti način, kako ekipe dobijo svoje podatke za usposabljanje v omrežju računalniškega vida. Leto prej smo videli predstavitev Oculus Rift, ki je bila sestavljena iz slušalk VR in ročne naprave za daljinsko upravljanje. Po predstavitvi smo se spraševali, "zakaj je bila s prefinjenimi kamerami, vgrajenimi v slušalke, potrebna ročna naprava za povezavo virtualnega prostora s fizičnim prostorom (tj. sledenje gibanju rok)?" Nevronske mreže so bile že dovolj sofisticirane, da bi to obvladale, v čem je bila torej težava?« In takrat je ugasnila žarnica — Data! Takoj smo videli veliko priložnost za reševanje izzivov 3D prostorske prisotnosti z uporabo naprednega računalniškega vida in 3D metapodatkov. Namesto da bi se osredotočili samo na VR/AR, smo ubrali bolj celosten pristop in se osredotočili na na videz nerešljiv problem ustvarjanja zadostnih (in natančnih) podatkov o usposabljanju, da bi omogočili 3D aplikacije AI v resničnem svetu.

S poudarkom na ljudeh in interakciji med človekom in okoljem je Datagen pionir na novem področju simuliranih podatkov, podnabora sintetičnih podatkov, ki se osredotoča na fotorealistično poustvarjanje sveta okoli nas. Danes sodelujemo z najbolj inovativnimi podjetji na svetu, da spodbudimo in pospešimo njihov razvoj računalniškega vida, podpirajo pa nas nekateri najbolj cenjeni vlagatelji na tem področju.

Ali lahko za bralce, ki niso seznanjeni, pojasnite, kaj točno so sintetični podatki?

Sintetični podatki so kateri koli podatki o usposabljanju, ki so – namesto da bi bili zbrani z neposrednim merjenjem ali opazovanjem resničnega sveta – ustvarjeni algoritmično ali s simulacijo. V kontekstu računalniškega vida so sintetični podatki računalniško ustvarjene slike s povezanimi metapodatki, potrebnimi za urjenje umetne inteligence. Glede na težave z zasebnostjo ter zelo resnične fizične in ekonomske omejitve slikovnih podatkov iz resničnega sveta je težko preceniti pomen sintetičnih podatkov za strojno učenje in umetno inteligenco. V nedavnem poročilu Gartner napovedal, da bo do leta 2024 večina podatkov, ki se uporabljajo na področju umetne inteligence, umetno ustvarjenih iz teh razlogov.

Kakšne so nekatere prednosti sintetičnih podatkov v primerjavi z ročnim zbiranjem podatkov?

Kratek odgovor je, razmislite o vseh vidikih ročnega pridobivanja podatkov, ki so nezaželeni, in jih odstranite iz postopka – to so prednosti sintetičnih podatkov.

Ustvarjanje raznolikih naborov podatkov v velikem obsegu za usposabljanje računalniškega vida je drag in dolgotrajen proces, varianca pa je zelo omejena že zaradi dejstva, da je namestitev ljudi na določene lokacije in njihovo fotografiranje zapleten postopek – veliko bolj zapleten in dražji kot to v simulirano okolje. Druga pomembna prednost je učinkovita odprava potrebe po ročnem označevanju, ki je dolgočasno, dolgotrajno in nagnjeno k človeškim napakam.

Datagen se nanaša na simulirane podatke kot na podmnožico sintetičnih podatkov. Ali lahko pojasnite, kaj so simulirani podatki?

Simulirani podatki so sintetični podatki, ustvarjeni s simulacijo. Uporabljamo GAN (kot tudi nekatere druge vrhunske metode strojnega učenja) za ustvarjanje 3-D objektov in njihovo umestitev v zelo realistične 3-D simulacije resničnega sveta. To je videti kot prvoosebni proces »virtualnega slikanja«, ki pa deluje znotraj fotorealističnega sistema, ki temelji na fiziki. Te simulacije proizvajajo vizualne podatke (kot da bi bili zbrani v resničnem svetu) skupaj s celotnim obsegom opomb (fizika, osvetlitev itd.). Simulirani podatki so torej sintetični podatki, ki so fotorealistični, kontekstualno ustvarjeni 3-D posnetki, zbrani v simuliranem okolju.

Kako Datagen ustvari prilagojene simulirane podatke?

Tehnologija podjetja Datagen ustvarja simulirane podatke, ki so hkrati prilagodljivi in ročno prilagojeni za reševanje edinstvenih potreb posamezne aplikacije vsake stranke. To naredimo tako, da upoštevamo vse vidike vsakega projekta – od uporabljenega sistema računalniškega vida do demografske sestave regije, v kateri bo deloval. Ne glede na to, ali delamo neposredno z našimi strankami ali preprosto omogočimo njihovim lastnim inženirjem, se proces Datagen začne z določitvijo ključnih parametrov za vsak poseben primer uporabe, kot so specifikacije objektiva, osvetlitev, okolje, demografska porazdelitev itd. Datagen uporablja GAN in druga vrhunska orodja in tehnike za ustvarjanje neizmerne raznolikosti sredstev, vključno z vsem, od človeških glav z dinamičnimi obraznimi izrazi za urjenje AI v čustveni analizi, do notranjosti vozila za spremljanje potnikov v kabini in domačih okolij za video konferenčne aplikacije, če naštejemo samo nekatere. Za vsako vrsto sredstva Datagen uvede varianco po neštetih ločenih oseh (od tona kože in višine obrvi do velikosti, barve in oblike gospodinjskega pohištva) z uporabo parametrov, ki so natančno nastavljeni, da odražajo specifično aplikacijo.

Zahvaljujoč tem zmožnostim Datagenovi nabori podatkov niso samo veliki in zelo raznoliki, ampak so optimizirani za namene usposabljanja edinstvenega sistema za izvajanje edinstvene naloge (ali niza nalog) v edinstvenem okolju ali nastavitvi, v kateri bo uporabljen – vse brez ogrožanja zmogljivosti obsega. Upoštevamo tudi posebne zahteve glede opomb/metapodatkov vsake aplikacije.

Kateri so primeri rešitev v robotiki, kjer se uporabljajo sintetični in/ali simulirani podatki?

Ena največjih prednosti uporabe simuliranih podatkov v robotiki je zmožnost generiranja slik strojne opreme, ki je še v razvoju. Na ta način se lahko možgani (AI) in telo (strojna oprema) vašega robota razvijajo drug ob drugem. Zdaj se lahko usposabljanje razvija z razvojem specifikacij, namesto da bi čakali, da je vaš končni izdelek v celoti prototipiran, preden ga lahko fotografirate in začnete razvijati AI.

Ker se simulirani podatki generirajo v kontekstu, lahko veliko lažje upoštevate interakcijo med vašim robotom in njegovim okoljem. Torej, če si predstavljate robota, ki grabi in odstranjuje pokvarjene izdelke s tekočega traku, bi vam simulirani podatki omogočili ne le ustvarjanje podatkov za vsako fizično napako, ki si jo lahko predstavljate v izdelku, ampak tudi z vidika robota zajem celotnega obsega robotske roke gibanja, njegove interakcije s predmetom, ki ga grabi. Še več, 3D metapodatki pomenijo, da ni potrebe po mukotrpnem označevanju slike za sliko, da bi zagotovili, da lahko robot pravilno prepozna izdelek, napake, svojo roko ali karkoli drugega v njegovem vidnem polju.

Kakšni so primeri uporabe simuliranih podatkov v pametnih avtomobilih?

Simulirani podatki pri razvoju pametnega avtomobila omogočajo neskončno lažji razvoj naborov podatkov za določene modele avtomobilov, ko se le-ti načrtujejo, in se ponavljajo skupaj s samim avtomobilom, ko ta napreduje skozi različne faze načrtovanja in proizvodnje. S simuliranimi slikovnimi podatki lahko inženirji tudi učinkoviteje uporabljajo vid v kabini za prepoznavanje zaspanih ali raztresenih voznikov, če je voznik umaknil roko z volana, ali poljubno število robnih primerov, da se upošteva varnost voznika. Inženirjem omogoča tudi, da upoštevajo večjo raznolikost voznikov in potnikov ter uvedejo variance v obliki kota slike in osvetlitve – vse brez poseganja v zasebnost resničnih ljudi.

Pred kratkim je Datagen napovedal veliko število vznemirljive nove zaposlitve, kaj to pomeni za prihodnost podjetja?

Nedavni dodatki k našemu svetovalnemu odboru in izvršnemu vodstvu vključujejo nekatere najbolj briljantne in uspešne strokovnjake na področju umetne inteligence in računalniškega vida. Njihovo znanje, vpogled in izkušnje bodo pomagali usmeriti in pospešiti Datagenovo rast, ko bomo krmarili v industriji, ki je še mlada in polna priložnosti. Na področju s toliko neznankami ni nič bolj dragocenega kot znanje.

Ali želite še kaj povedati o Datagenu?

Datagen s sedežem v Tel Avivu je del veliko večjega gospodarskega in kulturnega premika, ki se je zgodil v Izraelu, in ponosni smo, da smo del tega. V kratkem času je Izrael (zlasti Tel Aviv) zrasel v veliko svetovno tehnološko središče s cvetočim ekosistemom zagonskih podjetij in energično naložbeno skupnostjo. Čeprav Izrael pogosto velja za tehnološko središče, osredotočeno na kibernetsko varnost, sta umetna inteligenca in tehnologija, osredotočena na podatke, v zadnjih letih tukaj eksponentno rasla. Danes je v Izraelu več kot 680 podjetij za umetno inteligenco, ki so skupaj zbrala 4.5 milijarde dolarjev. Ta eksplozija rasti v zadnjih nekaj letih je v veliki meri delno posledica visoke koncentracije inženirjev in izraelskih svetovno priznanih univerz. Te akademske ustanove zagotavljajo dostop do talentov in vrhunskega razvoja novih tehnologij v vesolju. V zadnjih dveh mesecih je Datagen zaposlil več kot 20 zaposlenih in načrtuje zaposlitev dodatnih članov ekipe v oddelkih za prodajo in trženje, programsko opremo in DevOps ter izdelke.

Hvala za odličen intervju, bralci, ki želite izvedeti več, naj ga obiščejo Datagen.