никулец Гил Елбаз, ко-основач и CTO на Датаген - Серија за интервјуа - Unite.AI
Поврзете се со нас

Интервјуа

Гил Елбаз, ко-основач и директор на директори на Датаген – серија на интервјуа

mm
Ажурирани on

Гил Елбаз е на Datagen CTO и ко-основач, со седиште во Тел Авив. Дипломирал и магистрирал на Технион. Истражувањето на тезата на Гил беше фокусирано на 3D Computer Vision и беше објавено на CVPR, врвната конференција за истражување на компјутерска визија во светот. Datagen е пионер во новото поле на Симулирани податоци, подгрупа на синтетички податоци, кои се концентрираат на фотореалистичко пресоздавање на светот околу нас. Компанијата започна од скришум со над 18 милиони долари финансирање во март 2021 година и сега работи со голем број Fortune 100 компании во проширена/виртуелна реалност, роботика и автомобилизам, вклучително и поголемиот дел од врвните американски технолошки гиганти.

Што на почетокот ве привлече кон роботиката и машинското учење?

Научно-фантастичните книги, како што се серијата на фондацијата на Исак Асимов и iRobot, секогаш ме поттикнуваа да размислувам за иднината во која роботите беа составен дел од нашиот секојдневен живот. Има толку многу здодевни, повторувачки задачи што луѓето ги прават; Знаев дека не сакам да ги правам и не можев да замислам некој друг да сака. Со оглед на тоа што роботиката е технолошка неизбежност, мислев дека одењето во таа насока ќе биде паметна, „доказ за иднината“ одлука за кариера.

Така, првично пристапив кон полето фокусирајќи се на физичките аспекти на предметот и ја добив мојата диплома по Машински инженеринг од Технион во Хаифа, Израел. Кон крајот на мојата диплома, почнав да нуркам длабоко во светот на алатките и способностите на CAD. Ова се алатките што им овозможуваат на машинските инженери да дизајнираат конструкции и механички уреди (од мост до автомобил). Видов огромна можност да направам големо влијание без да се занимавам со бавните повторувања на физичкиот свет. Во пракса, овие програми имаа многу малку, ако воопшто ги има, интегрирани способности за машинско учење / компјутерска визија, што им помогна на инженерите да создадат поедноставни, поевтини и постабилни механички системи (ова е во 2015 година). Тргнав во насока на Computer Vision на 3D податоци со длабоко учење (тогаш многу ново) со цел да направам попаметни CAD програми. Работејќи во раните денови на модерното длабоко учење, се чувствував како да сум во дел од нешто што може да биде навистина големо - слично на интернетот.

Во пракса, моето истражување беше првото што ја донесе револуцијата за длабоко учење на нашиот факултет во Технион. Ова подоцна се претвори во труд прифатен на врвната конференција за компјутерска визија во светот, CVPR, и летав за Хаваи на CVPR 2017. Презентирањето на мојот труд и средбата со луѓето навистина ми ги отвори очите за размерите на заедницата за компјутерска визија (што денес е најмалку 10 пати поголем), илјадници учесници сите страсно работат на истражување на теренот. Тој настан прилично ја зацврсти мојата насока, покажувајќи ми ја моќта на компјутерската визија и потенцијалот што чека да се отклучи.

Можете ли да ја споделите приказната за генезата зад Datagen?

Datagen е основан во 2018 година со мисија да трансформира како тимовите ги добиваат своите податоци за обука за мрежна компјутерска визија. Годината претходно, видовме демо на Oculus Rift, кој се состоеше од слушалки за VR и рачен уред за далечинско управување. По демонстрацијата, се запрашавме: „со софистицирани камери вградени во слушалките, зошто беше потребен рачен уред за поврзување на виртуелниот простор со физичкиот простор (т.е. следење на движењето на рацете)? Невронските мрежи веќе беа доволно софистицирани за да се справат со тоа, па што беше проблемот?“ И тогаш се изгасна сијалицата - Податоци! Веднаш ја видовме огромната можност да ги решиме предизвиците со 3D просторно присуство користејќи напредна компјутерска визија и 3D метаподатоци. Наместо да се фокусираме само на VR/AR, ние зазедовме похолистички пристап, концентрирајќи се на навидум нерешливиот проблем на генерирање на доволно (и точни) податоци за обука за да се овозможат апликации за 3D AI од реалниот свет.

Со фокус на луѓето и интеракцијата меѓу човекот и околината, Datagen е пионер во новото поле на Симулирани податоци, подгрупа на синтетички податоци, кои се концентрираат на фотореалистичко рекреирање на светот околу нас. Денес, работиме со најиновативните компании во светот за да го поттикнеме и забрзаме нивниот развој на компјутерска визија и имаме поддршка од некои од најпочитуваните инвеститори во просторот.

За читателите кои не се запознаени, би можеле ли да објасните што се конкретно синтетички податоци?

Синтетички податоци се сите податоци за обука кои - наместо да се собираат преку директно мерење или набљудување на реалниот свет - се генерираат или алгоритамски или преку симулација. Во контекст на компјутерската визија, синтетичките податоци се компјутерски генерирани слики со поврзани метаподатоци потребни за обука на вештачката интелигенција. Со проблеми со приватноста и многу реални физички и економски ограничувања на податоците за слики од реалниот свет, тешко е да се прецени значењето на синтетичките податоци за машинското учење и вештачката интелигенција. Во неодамнешниот извештај, Гартнер предвиде дека до 2024 година, повеќето од податоците што се користат во областа на вештачката интелигенција ќе бидат вештачки генерирани од тие причини.

Кои се некои придобивки од синтетичките податоци во споредба со рачното собирање податоци?

Краткиот одговор е, размислете за сите непожелни аспекти од рачното стекнување податоци и отстранете ги од процесот - тоа се придобивките од синтетичките податоци.

Создавањето разновидни збирки на податоци на скала за обука за компјутерска визија е скап процес кој одзема многу време, а разликите се многу ограничени од самиот факт што сместувањето на луѓето на одредени локации и нивно фотографирање е комплициран процес - многу покомплициран и поскап отколку да се прави тоа во симулирана средина. Друга голема придобивка е ефективно елиминирање на потребата за рачна прибелешка, што е досадно, одзема време и е склоно кон човечки грешки.

Datagen се однесува на симулирани податоци како подмножество на синтетички податоци. Можете ли да елаборирате што се симулирани податоци?

Симулирани податоци се синтетички податоци кои се генерираат преку симулација. Ние користиме GAN (како и некои други најсовремени методи за машинско учење) за да генерираме 3-Д објекти и да ги сместиме во високо реалистични 3-Д симулации на реалниот свет. Она што изгледа е процес на „виртуелно фотографирање“ во прво лице, но функционира во рамките на фотореалистичен систем базиран на физика. Овие симулации произведуваат визуелни податоци (како да се собрани во реалниот свет), заедно со целосен опсег на прибелешки (физика, осветлување итн.). Значи, симулирани податоци се синтетички податоци што се фотореалистични, контекстуално генерирани, 3-Д слики, собрани во симулирана средина.

Како Datagen генерира приспособени симулирани податоци?

Технологијата на Datagen генерира симулирани податоци кои се лесно скалабилни и рачно приспособени за да се задоволат уникатните потреби на посебната апликација на секој клиент. Ние го правиме тоа земајќи го предвид секој аспект на секој проект - од системот за компјутерска визија што се користи до демографскиот состав на регионот во кој ќе работи. Без разлика дали работиме директно со нашите клиенти или едноставно им овозможуваме на нивните сопствени инженери, процесот на Datagen започнува со утврдување на клучните параметри за секој конкретен случај на употреба, како што се спецификациите на леќите, осветлувањето, околината, демографската дистрибуција итн. Datagen користи GAN и други најсовремени алатки и техники за да генерира огромна разновидност на средства, вклучувајќи сè, од човечки глави со динамични изрази на лицето до обука на вештачката интелигенција во емоционална анализа, до ентериери на возила за следење патници во кабината и домашни средини за видео конференциски апликации, само да наведеме неколку. За секој тип на средство, Datagen воведува варијанса низ безброј дискретни оски (од тонот на кожата и висината на веѓите, до големината, бојата и обликот на мебелот за домаќинството), користејќи параметри кои се фино подесени за да ја рефлектираат специфичната апликација при рака.

Благодарение на овие способности, збирките на податоци на Datagen не само што се големи и многу разновидни, туку се оптимизирани за целите на обука на уникатен систем за извршување на единствена задача (или збир на задачи) во уникатната средина или поставка во која ќе се користи - сето тоа без да се загрози капацитетот за размерување. Ги земаме предвид и специфичните барања за прибелешки/метаподатоци за секоја апликација.

Кои се некои примери на решенија во роботиката каде што се користат синтетички и/или симулирани податоци?

Една од најголемите предности на користењето симулирани податоци во роботиката е способноста да се генерираат слики од хардверот кој сè уште е во развој. На овој начин, мозокот (AI) и телото (хардверот) на вашиот робот може да се развиваат рамо до рамо. Сега, обуката може да се развива како што се развиваат спецификациите, наместо да чекате додека вашиот финален производ не биде целосно прототипиран пред да можете да фотографирате од него и да започнете со развивање на вештачката интелигенција.

Исто така, бидејќи симулираните податоци се генерираат во контекст, можете многу полесно да ја земете предвид интеракцијата помеѓу вашиот робот и неговата околина. Значи, ако замислите робот кој зграпчува и отстранува неисправни производи од склопување, симулираните податоци ќе ви овозможат не само да генерирате податоци за секој физички дефект што може да се замисли на производот, туку и од перспективата на роботот да го долови целиот опсег на роботската рака. на движење, неговата интеракција со предметот што го грабнува. Уште повеќе, 3d метаподатоците значат дека нема потреба макотрпно да се припишуваат слика по слика за да се осигура дека роботот може правилно да ги идентификува производот, дефектите, неговата рака или што било друго во неговото видно поле.

Кои се некои случаи на употреба за користење на симулирани податоци во паметни автомобили?

Симулираните податоци во развојот на паметни автомобили го прават бескрајно полесно да се развијат сетови на податоци за специфични модели на автомобили додека се дизајнираат, повторувајќи се во склад со самиот автомобил додека напредува низ различните фази на дизајнирање и производство. Со симулирани податоци за слики, инженерите можат поефективно да го користат и видот во кабината за да ги идентификуваат поспаните или расеаните возачи, ако возачот ја симнал раката од воланот или кој било број на рабови за да се земе предвид безбедноста на возачот. Исто така, им овозможува на инженерите да земат предвид поголема разновидност кај возачите и патниците и да воведат варијанти во форма на агол на сликата и осветлување - сето тоа без да се нарушува приватноста на вистинските луѓе.

Неодамна, Datagen објави голем број на возбудливи нови вработувања, што значи ова за иднината на компанијата?

Неодамнешните дополнувања на нашиот советодавен одбор и извршното раководство вклучуваат некои од најбрилијантните, најуспешни професионалци во областа на вештачката интелигенција и компјутерската визија. Нивното знаење, увид и искуство ќе помогнат да се ориентира и забрза растот на Datagen додека се движиме низ индустријата која е сè уште млада и изобилува со можности. Во поле со толку многу непознати, ништо не е повредно од знаењето.

Дали има нешто друго што би сакале да споделите за Datagen?

Со седиште надвор од Тел Авив, Датаген е дел од многу поголема економска и културна промена што се случи во Израел, и ние сме горди што сме дел од неа. За краток временски период, Израел (особено Тел Авив) прерасна во голем глобален технолошки центар, со просперитетен стартап екосистем и енергична инвестициска заедница. Иако Израел често се смета за технолошки центар фокусиран на сајбер безбедноста, вештачката интелигенција и технологијата фокусирана на податоци експоненцијално порасна во последниве години овде. Денес, во Израел има повеќе од 680 компании за вештачка интелигенција, кои колективно собраа 4.5 милијарди долари. Оваа експлозија на раст во последните неколку години делумно се должи на високата концентрација на инженери и светски познатите универзитети во Израел. Овие академски институции обезбедуваат пристап до таленти и врвен развој на нова технологија во просторот. Во последните два месеци, Datagen ангажираше повеќе од 20 вработени и планира да донесе дополнителни членови на тимот во секторите за продажба и маркетинг, софтвер и DevOps и производни.

Ви благодариме за одличното интервју, читателите кои сакаат да дознаат повеќе треба да го посетат Датаген.

Основачки партнер на unite.AI и член на Технолошкиот совет на Форбс, Антоан е а футуристички кој е страстен за иднината на вештачката интелигенција и роботиката.

Тој е и основач на Хартии од вредност.io, веб-страница која се фокусира на инвестирање во непушачка технологија.