Connect with us

访谈

吉尔·埃尔巴兹,Datagen联合创始人兼CTO – 采访系列

mm

吉尔·埃尔巴兹是Datagen的CTO和联合创始人,总部位于特拉维夫。他在Technion获得了学士和硕士学位。吉尔的论文研究重点是3D计算机视觉,并在世界顶级计算机视觉研究会议CVPR上发表。Datagen是模拟数据领域的先驱,模拟数据是合成数据的一个子集,专注于以照片般的真实性重现我们周围的世界。该公司于2021年3月以1800万美元的资金从隐身模式启动,现在正在与包括美国顶级科技巨头在内的众多财富100强公司合作,涉及增强/虚拟现实、机器人和汽车等领域。

是什么最初吸引你进入机器人和机器学习领域?

科幻小说,如艾萨克·阿西莫夫的《基础》系列和《我,机器人》,一直让我思考一个未来,机器人将成为我们日常生活的重要组成部分。有这么多枯燥、重复的任务让人们去做;我知道我不想做这些任务,我也不能想象其他人会想要做。考虑到机器人是一种技术上的必然性,我认为朝这个方向发展将是一个明智的、具有“未来证明”的职业选择。

所以,我最初接触这个领域时,关注的是物理方面,获得了特拉维夫Technion的机械工程学位。在我的学位即将结束时,我开始深入研究CAD工具和能力。这些工具使机械工程师能够设计结构和机械设备(从一座桥到一辆车)。我看到了一个巨大的机会,可以对机械系统产生重大影响,而无需处理物理世界中缓慢的迭代。实际上,这些程序中几乎没有(如果有的话),也没有集成机器学习/计算机视觉能力来帮助工程师创建更简单、更便宜、更稳定的机械系统(那是2015年)。我开始从事3D数据的计算机视觉和深度学习(当时非常新),目标是创建更智能的CAD程序。在现代深度学习的早期工作中,感觉像是在做一些可能非常重要的事情——就像互联网一样。

在实践中,我的研究是我们学院在Technion的第一个将深度学习革命带来的项目。这后来变成了被世界顶级计算机视觉会议CVPR接受的论文,我飞到了夏威夷参加2017年的CVPR会议。演讲我的论文并遇见那些人让我睁开了眼睛,看到计算机视觉社区的规模(现在至少是10倍大),成千上万的参与者都热情地从事该领域的研究。那次活动基本上巩固了我的方向,向我展示了计算机视觉的力量和潜在的解锁。

你能分享Datagen的创立故事吗?

Datagen成立于2018年,旨在改变团队获取计算机视觉网络训练数据的方式。在那之前的一年,我们看到了Oculus Rift的演示,它由一款VR头戴设备和一个手持遥控设备组成。演示结束后,我们发现自己在想,“头戴设备中有先进的摄像头,为什么需要手持设备来连接虚拟空间和物理空间(即跟踪手部运动)?”神经网络已经足够先进,可以处理它,所以问题是什么?”那时,灵感来了——数据!我们立即看到了使用先进计算机视觉和3D元数据解决3D空间存在挑战的巨大机会。与其仅仅关注VR/AR,我们采取了更全面的方法,专注于生成足够(和准确)的训练数据以实现现实世界的3D AI应用的看似不可逾越的问题。

Datagen专注于人类和人机交互,是模拟数据领域的先驱,模拟数据是合成数据的一个子集,专注于以照片般的真实性重现我们周围的世界。如今,我们与世界上最具创新精神的公司合作,推动和加速他们的计算机视觉开发,并得到了该领域最受尊敬的投资者的支持。

对于不熟悉的读者,你能解释什么是合成数据吗?

合成数据是任何通过算法或模拟生成的训练数据,而不是通过直接测量或观察现实世界获得。在计算机视觉的背景下,合成数据是带有用于训练人工智能所需的元数据的计算机生成图像。考虑到隐私问题和现实世界图像数据的物理和经济限制,很难夸大合成数据对机器学习和人工智能的重要性。在最近的一份报告中,Gartner 预测,到2024年,人工智能和分析项目开发中使用的数据将有60%是人工生成的。

合成数据与手动数据采集相比有什么优势?

简短的答案是,想想手动数据采集的每个不理想的方面,然后从这个过程中去掉它们——这些就是合成数据的优势。

为计算机视觉训练生成多样化的大规模数据集是一个昂贵且耗时的过程,变异性也受到人类被置于特定位置并被拍摄的物理限制。另一个主要优势是,有效地消除了手动注释的需要,这是一项枯燥、耗时且容易出错的人类任务。

Datagen将模拟数据称为合成数据的一个子集。你能详细解释什么是模拟数据吗?

模拟数据是通过模拟生成的合成数据。我们使用GAN(以及一些其他最先进的机器学习方法)来生成3D对象,并将它们放置在高度逼真的3D模拟的现实世界中。它看起来像是一个第一人称的“虚拟拍照”过程,但是在一个基于物理的、照片般逼真的系统中运行。这些模拟产生视觉数据(就像在现实世界中收集的一样),以及一系列注释(物理、照明等)。因此,模拟数据是合成数据,具有照片般逼真的、上下文生成的3D图像,收集自模拟环境。

Datagen如何生成定制的模拟数据?

Datagen的技术生成模拟数据,不仅可以扩大规模,还可以根据每个客户的独特应用需求进行定制。我们考虑每个项目的每个方面,从所使用的计算机视觉系统到它将运行的地区的人口统计组成。无论是直接与客户合作,还是使他们自己的工程师能够合作,Datagen的流程都从为每个特定用例建立关键参数开始,例如镜头规格、照明、环境、人口统计分布等。Datagen使用GAN和其他最先进的工具和技术来生成大量资产,包括从具有动态面部表情的人头用于训练AI进行情感分析,到车内用于驾驶员监控的车内环境,甚至是用于视频会议应用的家庭环境。对于每种资产类型,Datagen在无数个离散轴上引入变异性(从皮肤色调和眉毛高度到家具的大小、颜色和形状),使用精心调整以反映特定应用的参数。

由于这些功能,Datagen的数据集不仅大且多样化,而且针对训练独特系统执行独特任务(或任务集)在独特环境或设置中进行了优化——所有这些都没有损害扩大规模的能力。我们还考虑到每个应用的特定注释/元数据要求。

机器人领域中使用合成和/或模拟数据的解决方案有哪些例子?

使用模拟数据在机器人领域的一个最大优势是能够生成仍在开发中的硬件图像。这样,机器人的“大脑”(AI)和“身体”(硬件)可以同时开发。现在,训练可以随着规格的演变而演变,而不是等到最终产品完全原型设计后才开始拍摄照片并开发AI。

此外,由于模拟数据是上下文生成的,因此可以更容易地考虑机器人与其环境之间的交互。所以,如果你想象一个机器人从装配线上抓取和去除有缺陷的产品,模拟数据将允许你不仅生成每个可想象的产品物理缺陷的数据,还可以从机器人的角度捕捉机器人臂的全部运动范围、它与抓取的物体的交互等等。更重要的是,3D元数据意味着不需要花费大量时间来注释图像,以确保机器人可以正确识别产品、缺陷、其臂或视野中的任何其他内容。

智能汽车中使用模拟数据的用例有哪些?

智能汽车开发中使用模拟数据,可以更容易地为正在设计的特定车型开发数据集,并与汽车本身在设计和生产的各个阶段同步迭代。使用模拟图像数据,工程师还可以更有效地使用驾驶舱视觉来识别昏昏欲睡或分心的驾驶员,或者驾驶员是否将手从方向盘上移开,或者考虑到驾驶员安全的任何边缘情况。它还可以让工程师考虑驾驶员和乘客的多样性,并引入图像角度和照明的变化——所有这些都不会侵犯真实的人的隐私。

最近,Datagen宣布了一批新的、令人兴奋的招聘,这对公司的未来意味着什么?

最近加入我们的顾问委员会和高管团队的一些最杰出、最有成就的专业人士将帮助Datagen在一个仍然年轻且充满机遇的行业中导航和加速增长。拥有如此多未知数的情况下,没有什么比知识更有价值的了。

关于Datagen还有什么其他信息你想分享吗?

Datagen总部位于特拉维夫,是以色列发生的一场更大规模的经济和文化转变的一部分,我们为能够成为其中的一部分而感到自豪。短短几年内,以色列(特别是特拉维夫),已经发展成为一个主要的全球科技中心,拥有蓬勃发展的初创企业生态系统和充满活力的投资社区。虽然以色列经常被认为是以网络安全为中心的科技中心,但人工智能和数据驱动的科技在这里已经经历了指数级的增长。今天,以色列有680多家人工智能公司,这些公司总共筹集了45亿美元。这种增长在过去几年中主要是由于工程师的高集中度和以色列世界闻名的大学。这些学术机构提供了人才和该领域尖端新技术开发的机会。在过去两个月里,Datagen已经聘用了20多名员工,并计划在销售和营销、软件和DevOps以及产品部门增加更多团队成员。

感谢这次精彩的采访,希望了解更多的读者可以访问Datagen。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。