访谈
拉杜·鲁苏,Fyusion 的 CEO 和联合创始人 – 采访系列

拉杜·鲁苏,是 Fyusion 的 CEO 和联合创始人,Fyusion是一家致力于开发新型、视觉震撼的 3D 技术的公司,旨在利用人工智能解决复杂的视觉问题。他们共同开发并获得了一种新型文件格式的专利,称为 .fyuse,这使得人们可以使用智能手机捕捉惊人的 3D 图像,引发了社交媒体热潮,并吸引了超过 1 亿用户通过消费者移动应用程序。
您从 2012 年开始从事 3D 领域的工作,您目前是 Open Perception, Inc. 的总裁和 CEO。您能否分享这个非营利组织的使命宣言?
我在 2000 年初开始了我的 3D 数据处理职业生涯,当时我正在进行研究生学习,我有一个想法,就是让机器人从视觉角度更好地看到和理解世界。这让我经历了十年的机器人相关的 3D 计算机视觉研究,在 2010 年初,我意识到我所做的工作可以应用于更广泛的问题。Open Perception 是从 Willow Garage 分拆出来的,并接管了我们的一项 BSD 许可的开源项目——点云库(PCL)项目,并继续推动其发展。Open Perception, Inc. 于 2012 年 4 月在加利福尼亚州注册成立,作为一个独立的组织,旨在支持开源软件的开发、分发和采用,用于 2D/3D 感知数据处理,应用于研究、教育和产品开发。
2014 年,您成为 Fyusion, Inc. 的联合创始人和 CEO。您能否分享 Fyusion, Inc. 的创立故事?
在从事机器人研究期间,Fyusion 的联合创始人和我意识到瓶颈不再是算法,而是数据格式。机器学习在很多领域已经达到了峰值,因为我们使用的数据类型,尤其是视觉格式,是二维的(如照片和视频),而世界是三维的。我们认为,利用 3D 数据可以改变人们理解世界的方式,并将其应用于机器学习平台。
2014 年,我们决定创建一种新型的 3D 数据,通过计算机视觉和机器学习软件生成,通过融合多个数据源,并利用我们口袋里极其可扩展的商品硬件——即我们的智能手机。
我们创立 Fyusion,旨在开发新型、视觉震撼的 3D 技术,能够让每个人利用人工智能解决复杂的视觉问题。
我们共同开发并获得了一种新型文件格式的专利,称为 .fyuse,这使得人们可以使用智能手机捕捉惊人的 3D 图像。它立即引发了社交媒体热潮,并吸引了超过 1 亿用户通过消费者移动应用程序。
最初是什么吸引您去重新定义 3D 在消费者应用中的含义?
我们只是意识到没有人曾在大规模上解决过这个问题。这是一个未解决的问题。就像在我们的博士生项目中一样,令我们在智力上感到兴奋的是真正复杂的问题,某些人说无法解决。
在这种情况下,某种程度上,他们是正确的。解决这个问题所需的算法只部分被思考过,而运行它们所需的硬件,尤其是在智能手机等边缘设备上,是不存在的。我们实际上不得不等到 iPhone4S 发布,这样我们才能在智能手机上运行实时 3D 计算机视觉代码,因为在那之前,iPhone 只有一个 CPU 核心。一旦我们看到智能手机硬件可以做什么,我们就非常感兴趣地将我们的计算机视觉和机器人研究专业知识应用于这些小型摄像头和 CPU/GPU。花了一段时间才回到起点,重新思考如何通过软件实现光场捕获和处理。一旦我们看到它的工作原理,Fyusion 就开始运作了。
我们过去有 2D 照片的模拟形式,然后它们只是被数字化了,和其他一切一样。我们在 3D 世界中唯一的实例化是“三角网格加纹理”(例如 OBJ 类型的文件格式),它来自计算机游戏和计算机图形学,旨在代表游戏中的人工创建的对象。它们严重依赖于完美的几何形状,这是无法获得的——如何使用相机捕获和表示水作为三角网格加纹理?透明物体呢?树叶呢?远处的物体呢?等等…
很明显,某些人需要解决消费者友好的 3D 格式的需求。它必须基于一个完全不同的范式,并以“3D 图像渲染”的方式解决,并纳入在捕获时可用的信息(例如通过陀螺仪传感器的相机方向),通常在捕获 2D 图像时会丢弃这些信息。然后,当然,我们试图通过机器学习重新推断这些丢弃的信息。
这是我们的机会,这也是初创公司应该梦想的:找到一个真正困难的问题,他们对此充满热情,等待合适的时机和机会,然后疯狂地尝试解决它。
核心技术允许任何人通过移动相机周围的人、物体或场景来创建沉浸式、交互式 3D 图像,称为 .fyuses。您能否讨论使用移动应用程序创建 .fyuse 的过程?
我们仍然处于这种技术的初期阶段,但其基本思想是:您拿起一部安装了 Fyusion 或合作伙伴应用程序的智能手机,该应用程序使用 Fyusion ALIS SDK,并打开相机。您会得到指示,如果您遵循这些指示,您将在设备上获得一个 .fyuse,它是计算机视觉和机器学习处理的“文件对象”,可以在设备上、网络上或任何 AR/VR/MR 头显上渲染。
使这成为现实的计算机视觉和机器学习技术是什么?
这里没有银弹,但我们创建了一系列 3D 计算机视觉和机器学习工具来解决这个问题。其中有来自摄影测量学的想法(因为我们实际上是通过在空间中移动单个相机来创建一个虚拟相机阵列),机器人学(这是一个巨大的传感器融合问题,因为我们不再有一个相机,而是有大量的传感器,可以从中提取数据来帮助解决这个问题),计算机图形学(您可以查看我们的 Siggraph 2019 工作来了解我们如何表示一些底层结构),以及更多。所有这些都必须在设备上完成,并且可以实时运行,这意味着我们利用计算着色器并编写汇编代码。如前所述,这只是开始,随着更多的传感器和计算能力变得可用,我们将使用我们的 ALIS 引擎来改进技术的各个方面。这是一个长期的愿景,我们还有十多年的工作要做,才能完全满意于数字化复杂的真实世界场景的外观。
很容易想象 .fyuses 将如何颠覆 VR 应用程序。您能否讨论 .fyuses 可以用于的当前 VR 应用程序类型?
我们认为,任何 VR 应用程序中,数字化真实世界物体然后显示都是重要的,都应该从我们的 ALIS 引擎和 .fyuses 中受益。电子商务、医疗保健、汽车、教育等领域和应用程序中,有真正的垂直和应用程序,我们对此感到非常兴奋。
您预见 Fyuses 在 VR 应用程序中的未来是什么?
我们不认为当前技术有任何限制,尽管我们的当前重点是小型至中型场景和物体,而不是大型城市景观。
我可以轻松地想象 Fyuses 被用于未来增强现实(AR)和混合现实(MR)应用程序中。您对 Fyuses 在 AR 和 MR 环境中的未来有什么看法?
我们将所有 AR/VR/MR 应用程序视为相同:一旦使用我们的技术数字化 3D 物体,就可以从场景中提取并放置在任何地方。
您的团队是否讨论过使用虚拟助手或 AI 创建 Fyuses 的想法?
我们尚未探索创建交互式虚拟化身的机会。这当然是一个有趣的可能性,但我们试图专注于解决我们目前正在处理的问题。
关于 Fyuses 或 Fyusion, Inc.,您还想分享什么吗?
这可能听起来像一个推销,但… 我们是一群疯狂的机器人和 3D 计算机视觉科学家,混合了 CERN 物理学家、优秀的黑客和工程师,这只是描述核心技术团队的成员。我们喜欢所有类型的多样性,因为这使我们更聪明、更强大。如果我们正在处理的任何事情对阅读此内容的人感兴趣,请不要害羞,联系我们。我们尽力回答每个人,可能会出现一种情况,您来这里喝杯咖啡,然后留下来十年。
感谢这次精彩的采访,希望了解更多的读者可以访问 Fyusion。












