ciot Gil Elbaz, co-fondator și CTO al Datagen - Seria de interviuri - Unite.AI
Conectează-te cu noi

interviuri

Gil Elbaz, co-fondator și CTO al Datagen – Seria de interviuri

mm
Actualizat on

Gil Elbaz este de la Datagen CTO și co-fondator, cu sediul în Tel Aviv. A primit B.Sc și M.Sc de la Technion. Cercetarea tezei lui Gil s-a axat pe 3D Computer Vision și a fost publicată la CVPR, cea mai importantă conferință de cercetare a vederii computerizate din lume. Datagen este un pionier în noul domeniu al datelor simulate, un subset de date sintetice, care se concentrează pe recrearea foto-realistă a lumii din jurul nostru. Compania s-a lansat din stealth cu finanțare de peste 18 milioane USD în martie 2021 și acum lucrează cu un număr de companii Fortune 100 în realitate augmentată/virtuală, robotică și automobile, inclusiv majoritatea giganților tehnologici americani de top.

Ce te-a atras inițial către robotică și învățarea automată?

Cărțile SF, precum Seria Fundației lui Isaac Asimov și iRobot m-au făcut mereu să mă gândesc la un viitor în care roboții erau o parte integrantă a vieții noastre de zi cu zi. Există atât de multe sarcini plictisitoare și repetitive pe care le fac oamenii; Știam că nu vreau să le fac și nu îmi puteam imagina pe altcineva să vrea. Având în vedere că robotica este o inevitabilitate tehnologică, m-am gândit că a merge în această direcție ar fi o decizie de carieră inteligentă, „pe viitor”.

Așadar, inițial am abordat domeniul concentrându-mă pe aspectele fizice ale subiectului și am obținut diploma în Inginerie Mecanică de la Technion din Haifa, Israel. Spre sfârșitul diplomei, am început să mă scufund adânc în lumea instrumentelor și capabilităților CAD. Acestea sunt instrumentele care permit inginerilor mecanici să proiecteze structuri și dispozitive mecanice (orice de la un pod la o mașină). Am văzut o oportunitate enormă de a avea un impact mare fără a avea de-a face cu iterațiile lente ale lumii fizice. În practică, aceste programe aveau foarte puține, dacă nu există, capabilități integrate de învățare automată/viziune pe computer, care i-au ajutat pe ingineri să creeze sisteme mecanice mai simple, mai ieftine și mai stabile (aceasta este în 2015). Am pornit în direcția Computer Vision pe date 3D cu deep learning (foarte nou pe atunci) cu scopul de a realiza programe CAD mai inteligente. Lucrând în primele zile ale învățării profunde moderne, am simțit că ați fi parte din ceva care ar putea fi cu adevărat mare - similar cu internetul.

În practică, cercetarea mea a fost prima care a adus revoluția Deep Learning în facultatea noastră de la Technion. Aceasta s-a transformat ulterior într-o lucrare acceptată în cea mai mare conferință de Computer Vision din lume, CVPR, și am zburat în Hawaii la CVPR 2017. Prezentarea lucrării mele și întâlnirea cu oamenii mi-au deschis cu adevărat ochii asupra amplorii comunității de viziune computerizată (care astăzi este de cel puțin 10 ori mai mare), mii de participanți lucrează cu pasiune la cercetarea în domeniu. Acest eveniment mi-a cimentat destul de mult direcția, arătându-mi puterea viziunii computerizate și potențialul care așteaptă să fie deblocat.

Ați putea împărtăși povestea genezei din spatele Datagenului?

Datagen a fost înființată în 2018 cu misiunea de a transforma modul în care echipele își obțin datele pentru formarea în rețele de viziune computerizată. Cu un an înainte, am văzut o demonstrație a Oculus Rift, care a constat dintr-o cască VR și un dispozitiv de control de la distanță portabil. După demonstrație, ne-am trezit să ne întrebăm „cu camere sofisticate încorporate în setul cu cască, de ce a fost necesar un dispozitiv portabil pentru a conecta spațiul virtual la spațiul fizic (adică urmărirea mișcării mâinii)?” Rețelele neuronale erau deja suficient de sofisticate pentru a se descurca, deci care a fost problema?” Și atunci s-a stins becul — Data! Am văzut imediat oportunitatea uriașă de a rezolva provocările de prezență spațială 3D folosind viziunea computerizată avansată și metadate 3D. În loc să ne concentrăm exclusiv pe VR/AR, am adoptat o abordare mai holistică, concentrându-ne pe problema aparent insolubilă a generării de date de antrenament suficiente (și precise) pentru a permite aplicații AI 3D din lumea reală.

Cu accent pe oameni și pe interacțiunea om-mediu, Datagen este un pionier în noul domeniu al datelor simulate, un subset de date sintetice, care se concentrează pe recrearea foto-realistă a lumii din jurul nostru. Astăzi, lucrăm cu cele mai inovatoare companii din lume pentru a-și alimenta și accelera dezvoltarea viziunii computerizate și suntem susținuți de unii dintre cei mai respectați investitori din spațiu.

Pentru cititorii care nu sunt familiarizați, ați putea explica ce sunt în mod specific datele sintetice?

Datele sintetice sunt orice date de antrenament care – în loc să fie colectate prin măsurarea directă sau observarea lumii reale – sunt generate fie algoritmic, fie prin simulare. În contextul vederii computerizate, datele sintetice sunt imagini generate de computer cu metadate asociate necesare pentru antrenarea inteligenței artificiale. Cu probleme de confidențialitate și limitări fizice și economice foarte reale ale datelor de imagine din lumea reală, este greu să exagerăm importanța datelor sintetice pentru învățarea automată și AI. Într-un raport recent, Gartner a prezis că, până în 2024, majoritatea datelor utilizate în domeniul AI vor fi generate artificial din aceste motive.

Care sunt unele beneficii ale datelor sintetice în comparație cu achiziția manuală de date?

Răspunsul scurt este, gândiți-vă la fiecare aspect al achiziției manuale de date care este nedorit și eliminați-le din proces - acestea sunt beneficiile datelor sintetice.

Generarea diferitelor seturi de date la scară pentru formarea vederii computerizate este un proces costisitor, consumator de timp, iar variația este foarte limitată de simplul fapt că situarea oamenilor în anumite locații și fotografiarea lor este un proces complicat - mult mai complicat și mai costisitor decât a face acest lucru în un mediu simulat. Un alt beneficiu major este eliminarea efectivă a necesității adnotărilor manuale, care este obositoare, consumatoare de timp și predispusă la erori umane.

Datagen se referă la datele simulate ca un subset de date sintetice. Ați putea detalia ce sunt datele simulate?

Datele simulate sunt date sintetice care sunt generate prin simulare. Folosim GAN-uri (precum și alte metode de învățare automată de ultimă oră) pentru a genera obiecte 3-D și a le plasa în simulări 3-D extrem de realiste ale lumii reale. Ceea ce arată este un proces de „facere virtuală de fotografii” la persoana întâi, dar care funcționează într-un sistem foto-realist, bazat pe fizică. Aceste simulări produc date vizuale (ca și cum ar fi fost adunate în lumea reală), împreună cu o gamă completă de adnotări (fizică, iluminare etc.). Deci, datele simulate sunt date sintetice care sunt imagini 3D foto-realiste, generate contextual, adunate într-un mediu simulat.

Cum generează Datagen date simulate personalizate?

Tehnologia Datagen generează date simulate care sunt atât ușor scalabile, cât și personalizate pentru a răspunde nevoilor unice ale aplicației distincte ale fiecărui client. Facem acest lucru luând în considerare fiecare aspect al fiecărui proiect - de la sistemul de viziune computerizată utilizat până la structura demografică a regiunii în care va funcționa. Indiferent dacă lucrează direct cu clienții noștri sau pur și simplu le permite propriilor ingineri, procesul Datagen începe cu stabilirea parametrilor cheie pentru fiecare caz de utilizare specific, cum ar fi specificațiile lentilelor, iluminarea, mediul, distribuția demografică și așa mai departe. Datagen folosește GAN-uri și alte instrumente și tehnici de ultimă oră pentru a genera o varietate imensă de active, inclusiv totul, de la capete umane cu expresii faciale dinamice pentru a antrena AI în analiza emoțională, la interioarele vehiculelor pentru monitorizarea pasagerilor în cabină și medii de acasă pentru video. aplicații de conferințe, pentru a numi doar câteva. Pentru fiecare tip de activ, Datagen introduce variații între nenumărate axe discrete (de la nuanța pielii și înălțimea sprâncenelor, la dimensiunea, culoarea și forma mobilierului de uz casnic), folosind parametri care sunt reglați fin pentru a reflecta aplicația specifică la îndemână.

Datorită acestor capacități, seturile de date Datagen nu sunt doar mari și foarte variate, ci și optimizate în scopul antrenării unui sistem unic pentru a îndeplini o sarcină unică (sau un set de sarcini) în mediul sau setarea unică în care va fi folosit - totul fără a compromite capacitatea de scalare. De asemenea, luăm în considerare cerințele specifice de adnotare/metadate ale fiecărei aplicații.

Care sunt câteva exemple de soluții în robotică în care sunt utilizate date sintetice și/sau simulate?

Unul dintre cele mai mari avantaje ale utilizării datelor simulate în robotică este capacitatea de a genera imagini ale hardware-ului care este încă în dezvoltare. În acest fel, creierul (AI) și corpul (hardware) robotului dvs. pot fi dezvoltate unul lângă altul. Acum, instruirea poate evolua pe măsură ce evoluează specificațiile, mai degrabă decât să așteptați până când produsul final este prototipul complet înainte de a putea să-l fotografiați și să începeți să dezvoltați AI.

De asemenea, deoarece datele simulate sunt generate în context, puteți lua în considerare interacțiunea dintre robotul dvs. și mediul său mult mai ușor. Așadar, dacă vă imaginați un robot care apucă și îndepărtează produsele defecte dintr-o linie de asamblare, datele simulate v-ar permite nu numai să generați date pentru fiecare defect fizic imaginabil al produsului, ci și din perspectiva robotului pentru a captura întreaga gamă a brațului robotizat. de mișcare, interacțiunea acesteia cu obiectul pe care îl apucă. Mai mult decât atât, metadatele 3D înseamnă că nu este nevoie să adnotări cu grijă imagine după imagine pentru a se asigura că robotul poate identifica corect produsul, defectele, brațul sau orice altceva în câmpul său vizual.

Care sunt unele cazuri de utilizare pentru utilizarea datelor simulate în mașinile inteligente?

Datele simulate în dezvoltarea mașinii inteligente fac infinit mai ușor să se dezvolte seturi de date pentru anumite modele de mașini pe măsură ce acestea sunt proiectate, repetând împreună cu mașina în sine, pe măsură ce aceasta avansează prin diferitele faze de proiectare și producție. Cu date de imagine simulate, inginerii pot folosi mai eficient vederea în cabină pentru a identifica șoferii somnolenți sau distrași, dacă un șofer și-a luat mâna de pe volan sau orice număr de carcase de margine pentru a ține cont de siguranța șoferului. De asemenea, le permite inginerilor să țină cont de o mai mare diversitate a șoferilor și pasagerilor și să introducă variații în forma unghiului de imagine și a luminii - totul fără a încălca intimitatea oamenilor reali.

Recent, Datagen a anunțat un număr mare de noi angajări interesante, ce înseamnă asta pentru viitorul companiei?

Recentele adăugări la consiliul nostru consultativ și conducerea executivă includ unii dintre cei mai străluciți și realizați profesioniști în domeniul AI și Computer Vision. Cunoștințele, cunoștințele și experiența lor vor ajuta la orientarea și accelerarea creșterii Datagen pe măsură ce navigăm într-o industrie încă tânără și plină de oportunități. Într-un domeniu cu atâtea necunoscute, nimic nu este mai valoros decât cunoștințele.

Mai există ceva pe care ați dori să împărtășiți despre Datagen?

Cu sediul în Tel Aviv, Datagen face parte dintr-o schimbare economică și culturală mult mai mare care a avut loc în Israel și suntem mândri că facem parte din aceasta. Într-o perioadă scurtă de timp, Israelul (în special Tel Aviv) a devenit un important centru tehnologic global, cu un ecosistem de startup-uri înfloritoare și o comunitate de investiții energică. Deși Israelul este adesea considerat un centru tehnologic centrat pe securitatea cibernetică, AI și tehnologia centrată pe date au crescut exponențial în ultimii ani aici. Astăzi, există peste 680 de companii de inteligență artificială în Israel, care au strâns colectiv 4.5 miliarde de dolari. Această explozie de creștere din ultimii câțiva ani se datorează în mare parte concentrației mari de ingineri și universităților de renume mondial din Israel. Aceste instituții academice oferă acces la talent și la dezvoltarea de noi tehnologii de ultimă oră în spațiu. În ultimele două luni, Datagen a angajat peste 20 de angajați și intenționează să aducă membri suplimentari în echipă în departamentele de vânzări și marketing, software și DevOps și produse.

Mulțumim pentru interviul minunat, cititorii care doresc să afle mai multe ar trebui să viziteze Datagen.

Un partener fondator al unit.AI și un membru al Consiliul Tehnologic Forbes, Antoine este un futurist care este pasionat de viitorul AI și al roboticii.

El este, de asemenea, fondatorul Securities.io, un site web care se concentrează pe investițiile în tehnologie disruptivă.