Interviuri
Gil Elbaz, Co-fondator & CTO al Datagen – Seria de interviuri

Gil Elbaz este CTO și co-fondator al Datagen, cu sediul în Tel Aviv. El a obținut diploma de licență și masterat de la Technion. Teza de cercetare a lui Gil s-a axat pe viziunea computerizată 3D și a fost publicată la CVPR, cea mai importantă conferință de cercetare în domeniul viziunii computerizate din lume. Datagen este un pionier în noul domeniu al datelor simulate, un subset al datelor sintetice, care se concentrează pe recrearea foto-realistică a lumii din jurul nostru. Compania a lansat din modul de stealth cu peste 18 milioane de dolari în finanțare în martie 2021 și acum lucrează cu o serie de companii din Fortune 100 în realitatea augmentată/virtuală, robotică și automotive, inclusiv majoritatea giganților tehnologici din SUA.
Ce v-a atras inițial spre robotică și învățarea automată?
Cărțile de science fiction, precum seria Fundația a lui Isaac Asimov și iRobot, m-au făcut să mă gândesc la un viitor în care roboții sunt o parte integrantă a vieții noastre de zi cu zi. Există atâtea sarcini plictisitoare și repetitive pe care le fac oamenii; știam că nu vreau să le fac și nu puteam să-mi imaginez pe nimeni altcineva dorind să le facă. Având în vedere că robotică este o inevitabilitate tehnologică, am crezut că mergând în acea direcție va fi o decizie de carieră “sigură pentru viitor”.
Așadar, am abordat inițial domeniul, concentrându-mă pe aspectele fizice ale subiectului și am obținut diploma de inginerie mecanică de la Technion din Haifa, Israel. Spre sfârșitul studiilor mele, am început să mă adâncesc în lumea instrumentelor CAD și a capacităților lor. Acestea sunt instrumentele care permit inginerilor mecanici să proiecteze structuri și dispozitive mecanice (orice, de la un pod la o mașină). Am văzut o oportunitate enormă de a avea un impact semnificativ fără a fi nevoit să mă ocup de iterările lente ale lumii fizice. În practică, aceste programe aveau foarte puține, dacă nu deloc, capacități de învățare automată/viziune computerizată integrate, care să ajute inginerii să creeze sisteme mecanice mai simple, mai ieftine și mai stabile (acesta era contextul din 2015). Am început să mă îndrept spre viziunea computerizată 3D cu învățare profundă (foarte nouă pe atunci) cu scopul de a crea programe CAD mai inteligente. Lucrând în zilele de început ale învățării profunde moderne, a fost ca și cum aș fi parte a ceva care putea fi foarte mare — similar cu internetul.
În practică, cercetarea mea a fost prima care a adus revoluția învățării profunde la facultatea noastră de la Technion. Acest lucru s-a transformat ulterior într-un articol acceptat la conferința de vârf de viziune computerizată din lume, CVPR, și am zburat la Hawaii pentru CVPR 2017. Prezentarea articolului meu și întâlnirea cu oamenii mi-au deschis ochii asupra amploarei comunității de viziune computerizată (care astăzi este de cel puțin 10 ori mai mare), mii de participanți care lucrează cu pasiune la cercetări în domeniu. Acela a fost evenimentul care a consolidat direcția mea, arătându-mi puterea viziunii computerizate și potențialul care așteaptă să fie deblocat.
Puteți împărtăși povestea de origine a Datagen?
Datagen a fost fondat în 2018 cu misiunea de a transforma modul în care echipele obțin date pentru antrenarea rețelelor de viziune computerizată. Anul precedent, am văzut o demonstrație a Oculus Rift, care consta într-un dispozitiv de realitate virtuală și un dispozitiv de control manual. După demonstrație, ne-am întrebat: “cu camere sofisticate încorporate în dispozitiv, de ce era nevoie de un dispozitiv manual pentru a conecta spațiul virtual la spațiul fizic (de exemplu, urmărirea mișcării mâinii)?” Rețelele neuronale erau deja suficient de avansate pentru a gestiona asta, așa că care era problema?” Și atunci a apărut ideea — Datele! Am văzut imediat oportunitatea enormă de a rezolva provocările prezenței spațiale 3D folosind viziunea computerizată avansată și metadatele 3D. Mai degrabă decât să ne concentrăm exclusiv pe VR/AR, am adoptat o abordare mai holistică, concentrându-ne pe problema aparent intractabilă de a genera suficiente date de antrenament (și precise) pentru a permite aplicații 3D AI în lumea reală.
Cu accent pe oameni și interacțiunea om-mediu, Datagen este un pionier în noul domeniu al datelor simulate, un subset al datelor sintetice, care se concentrează pe recrearea foto-realistică a lumii din jurul nostru. Astăzi, lucrăm cu cele mai inovatoare companii din lume pentru a alimenta și accelera dezvoltarea viziunii computerizate și suntem sprijiniți de unii dintre cei mai respectați investitori din acest domeniu.
Pentru cititorii care nu sunt familiarizați, puteți explica ce este, în mod specific, datele sintetice?
Datele sintetice sunt orice date de antrenament care, în loc să fie colectate prin măsurători directe sau observații ale lumii reale, sunt generate algoritmic sau prin simulare. În contextul viziunii computerizate, datele sintetice sunt imagini generate de computer cu metadate asociate necesare pentru antrenarea inteligenței artificiale. Având în vedere problemele de confidențialitate și limitările fizice și economice ale datelor din lumea reală, este greu de a supraestima importanța datelor sintetice pentru învățarea automată și inteligența artificială. Într-un raport recent, Gartner a prezis că, până în 2024, majoritatea datelor utilizate în domeniul inteligenței artificiale vor fi generate artificial pentru aceste motive.
Care sunt beneficiile datelor sintetice în comparație cu achiziția manuală de date?
Răspunsul scurt este: gândiți-vă la orice aspect al achiziției manuale de date care este nedorit și înlăturați-le din proces — acestea sunt beneficiile datelor sintetice.
Generarea de seturi de date diverse la scară largă pentru antrenarea viziunii computerizate este un proces costisitor și consumator de timp, iar varianța este foarte limitată de simplul fapt că plasarea oamenilor în locații specifice și fotografierea lor este un proces complicat — mult mai complicat și costisitor decât a face acest lucru într-un mediu simulat. Un alt beneficiu major este eliminarea efectivă a necesității de annotare manuală, care este o sarcină monotonă, consumatoare de timp și predispusă la erori umane.
Datagen se referă la datele simulate ca la un subset al datelor sintetice. Puteți explica ce sunt datele simulate?
Datele simulate sunt date sintetice generate prin simulare. Utilizăm GAN-uri (precum și alte metode de învățare automată de ultimă generație) pentru a genera obiecte 3D și a le plasa în simulări 3D foarte realiste ale lumii reale. Ceea ce înseamnă acest lucru este un proces de “fotografiere virtuală” în prim-plan, dar care funcționează într-un sistem foto-realistic și fizic. Aceste simulări produc date vizuale (ca și cum ar fi colectate în lumea reală), împreună cu o gamă completă de annotări (fizică, iluminare, etc.). Așadar, datele simulate sunt date sintetice care sunt foto-realistice, generate contextual și imagini 3D, colectate într-un mediu simulat.
Cum generează Datagen date simulate personalizate?
Tehnologia Datagen generează date simulate care sunt atât scalabile, cât și personalizate pentru a răspunde nevoilor unice ale fiecărui client. Facem acest lucru, luând în considerare fiecare aspect al fiecărui proiect — de la sistemul de viziune computerizată utilizat la compoziția demografică a regiunii în care va fi utilizat. Indiferent dacă lucrăm direct cu clienții noștri sau doar îi împuternicim pe inginerii lor, procesul Datagen începe cu stabilirea parametrilor cheie pentru fiecare caz de utilizare specific, cum ar fi specificațiile obiectivului, iluminarea, mediul, distribuția demografică, etc. Datagen utilizează GAN-uri și alte unelte și tehnici de ultimă generație pentru a genera o varietate imensă de active, de la capete de oameni cu expresii faciale dinamice pentru a antrena IA în analiza emoțională, la interioare de vehicule pentru monitorizarea pasagerilor din cabină și medii casnice pentru aplicații de conferințe video, doar pentru a numi câteva. Pentru fiecare tip de activ, Datagen introduce varianță de-a lungul multor axe discrete (de la tonul pielii și înălțimea sprâncenelor la mărimea, culoarea și forma mobilierului de uz casnic), folosind parametri care sunt fin reglați pentru a reflecta aplicația specifică în cauză.
Datorită acestor capacități, seturile de date Datagen nu sunt doar mari și diverse, ci și optimizate pentru scopul de a antrena un sistem unic pentru a executa o sarcină unică (sau un set de sarcini) în mediul sau setarea unică în care va fi utilizat — toate acestea fără a compromite capacitatea de a scala. De asemenea, luăm în considerare cerințele specifice de annotare/metadata pentru fiecare aplicație.
Care sunt exemple de soluții în robotică în care se utilizează date sintetice și/sau simulate?
Una dintre cele mai mari avantaje ale utilizării datelor simulate în robotică este capacitatea de a genera imagini cu hardware care este încă în dezvoltare. Acest lucru permite creierului robotului (IA) și corpului (hardware) să fie dezvoltate în paralel. Acum, antrenamentul poate evolua pe măsură ce specificațiile evoluează, în loc să așteptați până când produsul final este complet prototipat înainte de a putea face fotografii și de a începe dezvoltarea IA.
De asemenea, deoarece datele simulate sunt generate în context, puteți lua în considerare interacțiunea dintre robot și mediul său mult mai ușor. Așadar, dacă vă imaginați un robot care ia și îndepărtează produse defecte de pe o linie de asamblare, datele simulate v-ar permite să generați date pentru fiecare defect fizic imaginabil al produsului, dar și din perspectiva robotului pentru a captura gama completă de mișcare a brațului robotic, interacțiunea cu obiectul pe care îl manipulează. Mai mult decât atât, metadatele 3D înseamnă că nu este nevoie să annotați cu atenție imagine după imagine pentru a vă asigura că robotul poate identifica corect produsul, defectele, brațul său sau orice altceva din câmpul său vizual.
Care sunt exemple de utilizări ale datelor simulate în mașinile inteligente?
Datele simulate în dezvoltarea de mașini inteligente fac mult mai ușor să se dezvolte seturi de date pentru modele de mașini specifice, pe măsură ce acestea sunt proiectate, iterând în concordanță cu mașina însăși pe măsură ce trece prin diversele faze de proiectare și producție. Cu datele de imagine simulate, inginerii pot utiliza, de asemenea, viziunea din cabină mai eficient pentru a identifica șoferi somnolenți sau distrași, dacă un șofer a scos mâna de pe volan sau orice alt caz de margine pentru a asigura siguranța șoferului. Acest lucru permite, de asemenea, inginerilor să ia în considerare o mai mare diversitate a șoferilor și pasagerilor și să introducă varianță sub forma unghiului de imagine și a iluminării — toate acestea fără a încălca confidențialitatea oamenilor reali.
Recent, Datagen a anunțat un număr mare de angajări entuziasmante, ce înseamnă acest lucru pentru viitorul companiei?
Adăugările recente la consiliul nostru consultativ și conducerea executivă includ unele dintre cele mai strălucite și mai realizate profesioniști din domeniul inteligenței artificiale și viziunii computerizate. Cunoștințele, perspicacitatea și experiența lor ne vor ajuta să orientăm și să accelerăm creșterea Datagen, pe măsură ce navigăm într-o industrie care este încă tânără și plină de oportunități. Într-un domeniu cu atâtea necunoscute, nimic nu este mai valoros decât cunoașterea.
Există altceva pe care ați dori să-l împărtășiți despre Datagen?
Situat în Tel Aviv, Datagen face parte dintr-o schimbare economică și culturală mai largă care a avut loc în Israel, și suntem mândri să fim parte a acesteia. Într-o perioadă scurtă de timp, Israel (în special Tel Aviv), a crescut într-un important hub tehnologic global, cu un ecosistem de startup-uri înfloritor și o comunitate de investitori energică. Deși Israel este adesea considerat un centru de securitate cibernetică, tehnologia centrată pe inteligența artificială și date a crescut exponențial în ultimii ani aici. Astăzi, există peste 680 de companii de inteligență artificială în Israel, care au strâns colectiv 4,5 miliarde de dolari. Această explozie de creștere din ultimii ani se datorează în mare parte concentrației ridicate de ingineri și universităților de renume mondial din Israel. Aceste instituții academice oferă acces la talente și dezvoltarea tehnologiei de ultimă generație în acest domeniu. În ultimele două luni, Datagen a angajat peste 20 de angajați și planifică să aducă membri suplimentari în echipele de vânzări și marketing, software și DevOps, precum și departamentul de produse.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe despre Datagen ar trebui să viziteze site-ul lor.












