Connect with us

Interviews

Gil Elbaz, medeoprichter & CTO van Datagen – Interviewreeks

mm

Gil Elbaz is Datagen’s CTO en medeoprichter, gevestigd in Tel Aviv. Hij behaalde zijn B.Sc en M.Sc aan de Technion. Gil’s proefschoondonderzoek was gericht op 3D Computer Vision en is gepubliceerd op CVPR, de belangrijkste computer vision onderzoeksconferentie ter wereld. Datagen is een pionier in het nieuwe veld van Simulated Data, een subset van synthetische data, die zich richt op het fotorealistisch nabootsen van de wereld om ons heen. Het bedrijf lanceerde uit stealth met meer dan $18M aan financiering in maart 2021 en werkt nu samen met een aantal Fortune 100-bedrijven in augmented/virtuele realiteit, robotica en automotive, waaronder de meeste van de top Amerikaanse technologiebedrijven.

Wat trok je aanvankelijk aan tot robotica en machine learning?

Sci-Fi-boeken, zoals Isaac Asimov’s Foundation Series en iRobot, lieten me altijd nadenken over een toekomst waarin robots een integraal onderdeel van ons dagelijks leven zouden zijn. Er zijn zo veel saaie, repetitieve taken die mensen doen; ik wist dat ik ze niet wilde doen, en ik kon me niet voorstellen dat iemand anders ze wilde doen. Aangezien robotica een technologische onvermijdelijkheid is, dacht ik dat het gaan in die richting een slimme, “toekomstbestendige” carrièrebeslissing zou zijn.

Dus, ik ben aanvankelijk het veld benaderd met een focus op de fysieke aspecten van het onderwerp, en ik heb mijn diploma in Werktuigbouwkunde behaald aan de Technion in Haifa, Israël. Aan het einde van mijn diploma, begon ik diep in de wereld van CAD-tools en -mogelijkheden te duiken. Dit zijn de tools die het mechanische ingenieurs mogelijk maken om structuren en mechanische apparaten te ontwerpen (alles van een brug tot een auto). Ik zag een enorme kans om een grote impact te maken zonder te maken te hebben met de trage iteraties van de fysieke wereld. In de praktijk hadden deze programma’s heel weinig, zo niet helemaal geen, machine learning-/computer vision-mogelijkheden geïntegreerd, die ingenieurs hielpen om eenvoudigere, goedkopere en stabielere mechanische systemen te creëren (dit was in 2015). Ik zette me in de richting van Computer Vision op 3D-gegevens met diepe leerprocessen (heel nieuw op dat moment) met als doel slimmere CAD-programma’s te maken. Werken in de vroege dagen van modern diep leerprocessen, voelde als onderdeel zijn van iets dat echt groot kon zijn — vergelijkbaar met het internet.

In de praktijk was mijn onderzoek het eerste dat de Deep Learning-revolutie naar onze faculteit aan de Technion bracht. Dit resulteerde later in een paper dat werd aanvaard op de top Computer Vision-conferentie ter wereld, CVPR, en ik vloog naar Hawaï voor CVPR 2017. Het presenteren van mijn paper en het ontmoeten van de mensen opende mijn ogen voor de omvang van de computer vision-gemeenschap (die vandaag ten minste 10 keer groter is), duizenden deelnemers die allemaal met passie onderzoek doen in het veld. Die gebeurtenis zette mijn richting definitief vast, en liet me de kracht van computer vision en het potentieel zien dat nog moet worden ontsloten.

Kunt u het verhaal achter de oprichting van Datagen delen?

Datagen werd in 2018 opgericht met de missie om te transformeren hoe teams hun gegevens voor computer vision-netwerktraining krijgen. Het jaar ervoor, zagen we een demo van de Oculus Rift, die bestond uit een VR-headset en een handheld remote control-apparaat. Na de demo, vroegen we ons af: “met geavanceerde camera’s ingebouwd in de headset, waarom was een handheld apparaat nodig om de virtuele ruimte te verbinden met de fysieke ruimte (d.w.z. handbeweging volgen)?” De neurale netwerken waren al zo geavanceerd dat ze het konden aan, dus wat was het probleem? En toen ging het lichtje branden — Gegevens! We zagen meteen de enorme kans om 3D-ruimtelijke aanwezigheidsuitdagingen op te lossen met geavanceerde computer vision en 3D-metadata. In plaats van zich alleen te richten op VR/AR, namen we een meer holistische aanpak, waarbij we ons concentreerden op het ogenschijnlijk onoplosbare probleem van het genereren van voldoende (en nauwkeurige) trainingsgegevens om real-world 3D-AI-toepassingen mogelijk te maken.

Met een focus op mensen en mens-omgevingsinteractie, is Datagen een pionier in het nieuwe veld van Simulated Data, een subset van synthetische data, die zich richt op het fotorealistisch nabootsen van de wereld om ons heen. Vandaag werken we samen met de meest innovatieve bedrijven ter wereld om hun computer vision-ontwikkeling te versnellen en zijn we gesteund door enkele van de meest gerespecteerde investeerders in de branche.

Kunt u voor lezers die onbekend zijn met het onderwerp uitleggen wat synthetische data precies is?

Synthetische data is elke trainingsdata die, in plaats van verzameld te worden via directe meting of observatie van de echte wereld, gegenereerd wordt via simulatie of algoritme. In de context van computer vision, is synthetische data computer gegenereerde beelden met bijbehorende metadata die nodig zijn voor het trainen van kunstmatige intelligentie. Met privacyproblemen en zeer reële fysieke en economische beperkingen van echte wereldbeelddata, is het moeilijk om de betekenis van synthetische data voor machine learning en AI te overschatten. In een recent rapport, Gartner voorspelde dat, tegen 2024, de meeste van de data die in het veld van AI wordt gebruikt, kunstmatig gegenereerd zal zijn om die redenen.

Wat zijn enkele voordelen van synthetische data in vergelijking met handmatige gegevensverzameling?

Het korte antwoord is, denk aan elk aspect van handmatige gegevensverzameling dat ongewenst is en verwijder het uit het proces — dat zijn de voordelen van synthetische data.

Het genereren van diverse datasets in grote hoeveelheden voor computer vision-training is een kostbaar, tijdrovend proces, en de variatie is zeer beperkt door het feit dat het plaatsen van mensen in specifieke locaties en het fotograferen van hen een ingewikkeld proces is — veel ingewikkelder en duurder dan het doen in een gesimuleerde omgeving. Een ander groot voordeel is het effectief elimineren van de behoefte aan handmatige annotatie, die saai, tijdrovend en gevoelig is voor menselijke fouten.

Datagen verwijst naar gesimuleerde data als een subset van synthetische data. Kunt u uitleggen wat gesimuleerde data is?

Gesimuleerde data is synthetische data die gegenereerd wordt via simulatie. We gebruiken GANs (evenals enkele andere cutting-edge machine learning-methoden) om 3D-objecten te genereren en ze te plaatsen binnen zeer realistische 3D-simulaties van de echte wereld. Wat dat lijkt, is een first-person “virtuele foto”-proces, maar opererend binnen een foto-realistisch, fysica-gebaseerd systeem. Deze simulaties produceren visuele data (alsof het in de echte wereld was verzameld), samen met een volledig bereik van annotaties (fysica, licht, enz.). Dus, gesimuleerde data is synthetische data die foto-realistisch, contextueel gegenereerd, 3D-beelden zijn, verzameld in een gesimuleerde omgeving.

Hoe genereert Datagen aangepaste gesimuleerde data?

Datagen’s technologie genereert gesimuleerde data die zowel schaalbaar als op maat gemaakt zijn om te voldoen aan de unieke behoeften van elke klant. We doen dit door rekening te houden met elk aspect van elk project — van het computer vision-systeem dat wordt gebruikt tot de demografische samenstelling van de regio waarin het zal worden gebruikt. Of we nu rechtstreeks met onze klanten werken, of hen alleen in staat stellen hun eigen ingenieurs te laten werken, het Datagen-proces begint met het vaststellen van sleutelparameters voor elk specifiek gebruik, zoals lensspecificaties, licht, omgeving, demografische verdeling, enz. Datagen gebruikt GANs en andere cutting-edge tools en technieken om een immense variëteit aan assets te genereren, waaronder alles van menselijke hoofden met dynamische gezichtsuitdrukkingen om AI te trainen in emotionele analyse, tot voertuiginterieurs voor in-cabine passagiersbewaking, en huiskamers voor videoconferencing-toepassingen, om er maar een paar te noemen. Voor elk type asset, introduceert Datagen variatie over talloze discrete assen (van huidskleur en wenkbrauw hoogte, tot de grootte, kleur en vorm van huishoudelijke meubels), met parameters die fijn zijn afgestemd op de specifieke toepassing.

Dankzij deze mogelijkheden zijn Datagen’s datasets niet alleen groot en zeer gevarieerd, maar geoptimaliseerd voor het trainen van een uniek systeem om een unieke taak (of set taken) uit te voeren in de unieke omgeving of setting waarin het zal worden gebruikt — alles zonder de capaciteit om te schalen te compromitteren. We houden ook rekening met de specifieke annotatie/metadata-eisen van elke toepassing.

Wat zijn enkele voorbeelden van oplossingen in robotica waar synthetische en/of gesimuleerde data wordt gebruikt?

Een van de grootste voordelen van het gebruik van gesimuleerde data in robotica is de mogelijkheid om beelden te genereren van hardware die nog in ontwikkeling is. Op deze manier kunnen de hersenen (AI) en het lichaam (hardware) van uw robot tegelijkertijd worden ontwikkeld. Nu kan de training evolueren naarmate de specificaties evolueren, in plaats van te wachten tot uw eindproduct volledig is geprototypeerd voordat u foto’s kunt maken en de AI kunt beginnen te ontwikkelen.

Ook kan gesimuleerde data, omdat het gegenereerd wordt in context, gemakkelijker rekening houden met de interactie tussen uw robot en zijn omgeving. Dus, als u zich een robot voorstelt die defecte producten van een assemblagelijn pakt en verwijdert, zou gesimuleerde data u in staat stellen om data te genereren voor elk fysiek defect dat mogelijk is in het product, evenals vanuit het perspectief van de robot om de volledige bewegingsvrijheid van de robotarm te vangen. Wat meer is, 3D-metadata betekent dat er geen behoefte is om elk beeld zorgvuldig te annoteren om ervoor te zorgen dat de robot het product, de defecten, zijn arm of alles anders in zijn gezichtsveld correct kan identificeren.

Wat zijn enkele use cases voor het gebruik van gesimuleerde data in slimme auto’s?

Gesimuleerde data in de ontwikkeling van slimme auto’s maakt het oneindig veel gemakkelijker om datasets te ontwikkelen voor specifieke automodellen terwijl ze worden ontworpen, itererend in concert met de auto zelf terwijl het door de verschillende fasen van ontwerp en productie gaat. Met gesimuleerde beelddata kunnen ingenieurs ook in-cabine visie effectiever gebruiken om slaperige of afgeleide bestuurders te identificeren, of als een bestuurder zijn hand van het stuur heeft genomen, of elk aantal randgevallen om bestuurdersveiligheid te waarborgen. Het stelt ingenieurs ook in staat om rekening te houden met een grotere diversiteit in bestuurders en passagiers, en variatie in te voeren in de vorm van beeldhoek en licht — alles zonder de privacy van echte mensen te schenden.

Onlangs kondigde Datagen een groot aantal opwindende nieuwe aanwervingen aan, wat betekent dit voor de toekomst van het bedrijf?

De recente toevoegingen aan ons adviesraad en uitvoerend leiderschap omvatten enkele van de meest briljante, ervaren professionals in het veld van AI en Computer Vision. Hun kennis, inzicht en ervaring zullen helpen om Datagen’s groei te oriënteren en te versnellen terwijl we een industrie navigeren die nog steeds jong en vol mogelijkheden is. In een veld met zo veel onbekenden, is niets waardevoller dan kennis.

Is er nog iets anders dat u zou willen delen over Datagen?

Gevestigd in Tel Aviv, is Datagen onderdeel van een veel grotere economische en culturele verschuiving die heeft plaatsgevonden in Israël, en we zijn trots om daar onderdeel van te zijn. In een korte periode is Israël (Tel Aviv in het bijzonder) uitgegroeid tot een belangrijke wereldwijde technologiehub, met een bloeiende start-up-ecosysteem en een energiek investeringsgemeenschap. Hoewel Israël vaak wordt beschouwd als een cyberbeveiligingsgerichte technologiehub, is AI en data-georiënteerde technologie in de afgelopen jaren exponentieel gegroeid. Vandaag zijn er meer dan 680 kunstmatige intelligentiebedrijven in Israël, die collectief $4,5 miljard hebben opgehaald. Deze explosieve groei in de afgelopen jaren is grotendeels te wijten aan de hoge concentratie van ingenieurs en de wereldberoemde universiteiten van Israël. Deze academische instellingen bieden toegang tot talent en cutting-edge nieuwe technologieontwikkeling in de branche. In de afgelopen twee maanden heeft Datagen meer dan 20 medewerkers aangenomen en plant om extra teamleden aan te nemen in de verkoop- en marketing-, software- en DevOps-, en productafdelingen.

Bedankt voor het geweldige interview, lezers die meer willen leren, moeten bezoek Datagen.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.