访谈
Edward Cui, Graviti 的创始人和 CEO – 采访系列

Edward Cui 是 Graviti 的创始人和 CEO,Graviti 是一家正在建设下一代数据平台的公司,这将从根本上改变开发人员与非结构化数据的交互方式。有了 Graviti,AI 开发人员可以更快、更容易地获取、存储和处理数据 – 这是利用人工智能赋予所有行业力量的基础。
您最初以机械工程专业开始您的本科学习,是什么导致您转向计算机科学和人工智能?
我实际上在 2012 年以机械工程专业开始了我的本科学习。在宾夕法尼亚大学,我参加了一门关于机器学习的课程,这让我感到震惊,我知道这就是未来,我想在我的职业生涯中做的事情。在那门课程之后,我转到了计算机科学专业。
毕业后,我在宾夕法尼亚大学进行了强化学习的研究。2015 年,我的前老板 Jeff Snyder 加入了 Uber,并邀请我加入 Uber ATG。那是我在自动驾驶汽车行业职业生涯的开始。
您能分享 Graviti 的起源故事吗?
在 Uber 工作一开始非常复杂,因为人们没有使用大型机器学习模型,我们缺乏计算能力和数据管理平台来训练模型。我们为自动驾驶汽车收集的数据都是非结构化的。例如,它们是图像、视频、LIDAR 点。所有这些来自现实世界传感器的数据,我们每天都会收集到大量的非结构化数据。我们进行了一项统计,结果表明我们在自动驾驶汽车部门一周内收集的数据量等于整个餐厅业务全球一年的数据量。大量的非结构化数据每天都会积累,这就产生了如何存储这些数据、如何管理这些数据以及如何使用这些数据来为不同组织生成价值的问题。
在 Uber 工作三年后,我看到了改进大规模非结构化数据管理的机会。因此,我在 2019 年创立了 Graviti,以加速人工智能创新,通过建立非结构化数据管理平台。
您能讨论一下 Graviti 如何成为一个管理和结构化数据的平台吗?
Graviti 旨在推出第一个数据平台,允许组织使用大量非结构化数据来驱动创新的人工智能应用。该平台消除了麻烦,并帮助开发人员以团队的方式管理大量非结构化数据。
虽然人工智能开发中可用的信息的大部分都是低质量和非结构化的,但开发团队通常会花费超过 50% 的时间 – 不是在构建模型 – 而是在识别、增强或清理非结构化数据,这只是他们工作的开始。Graviti 提供了一种更专业的数据管理方式,释放开发人员的时间,让他们能够分析非结构化数据和训练人工智能模型。
我们在三个维度上帮助开发人员:数据发现、数据迭代和工作流自动化。
数据发现:
Graviti 提供了一个数据托管功能,使得组织原始数据、注释和元数据变得更加容易,通过统一数据集和注释格式。当人工智能开发人员通过 Graviti 访问不同数据集时,他们不需要转换数据格式,这简化了管理、查询、访问和注释涉及的操作。Graviti 有助于减少原始数据或注释不匹配的机会。此外,Graviti 平台可以帮助开发人员使用数据可视化功能评估数据集的质量,这每周为开发人员节省至少 8 小时的时间。
数据迭代:
当开发人员训练他们的人工智能时,他们需要使用不同版本的数据集来查看结果并标记注释。挑战是跟踪团队成员在同一个项目上工作时的各种编辑和版本。Graviti 提供了解决方案,通过为员工分配不同级别的访问权限,允许他们上传注释以跟踪项目的进度并同时工作。
工作流自动化:
通过一个名为“Action”的功能,工程师可以自动化工作流程,减少重复、耗时和手动任务。这使得开发人员摆脱编写大型手动脚本来实现这些工作流程的需要,并为他们腾出时间来做他们需要做的工作。
为什么非结构化数据是人工智能的未来?
目前,超过 80% 的企业数据是非结构化的,包括图像、录音、视频、社交媒体帖子等。人工智能是从非结构化数据中提供价值的关键。企业开始利用非结构化数据来支持深入研究和进一步分析。
Graviti 最近推出了 OpenBytes,一個非盈利的開源數據項目,托管在 Linux 基金會下。您能否討論一下 OpenBytes 是什麼?
OpenBytes 的使命是通过创建数据标准、格式和流程来促进人工智能社区内数据的更广泛共享,從而实现数据的贡献。OpenBytes 的范围包括开放数据集的策划、开放数据规范和协作开发,以支持使命,包括文档、测试、集成和创建其他辅助开发、部署、操作或采用开源项目的文物。
OpenBytes 可以减少数据贡献者的责任风险。数据集持有者由于缺乏数据许可证知识而不愿意公开分享他们的数据集。一旦数据集贡献者加入 OpenBytes,他们的数据将受到保护,并且可以访问更多的开放数据。
我们还在发布、分享和交换数据时生成标准数据集格式。统一格式可以帮助数据贡献者了解数据集并找到他们需要的相关数据,从而导致更高质量的开放数据集贡献。
開源數據集的好處是什么?
它们惠及研究人员,因为科学家有更多的免费资源来训练模型和完成研究。
它们惠及企业,这些企业使用数据集来开始构建人工智能能力并促进从传统企业到人工智能企业的转变。
Graviti 如何验证数据集的质量?
即使像 COCO 和 KITTI 这样的流行数据集对于开发人员来说也不是完美的。开发人员在训练模型时总会出现错误,目前还没有找到一种很好的方法来提高数据集的质量。Graviti 相信,数据集评估模型将被建立,或者其他技术革命将帮助社区解决这个问题,这也是 Graviti 未来的使命。
您对开发人员在未来访问数据的未来有什么展望?
对于少量的数据,开发人员应该能够轻松访问这些数据。对于更大量的数据,例如用于训练模型的更多样化的数据集,联邦学习技术将有助于以去中心化的方式协作,通过将进行机器学习的能力与在中央服务器中存储数据的能力分离。
您是否还有其他关于 Graviti 的信息想要分享?
Graviti 也在不断演进。我们倾听来自客户的反馈,包括初创公司、企业、个人开发人员和研究人员。我们也欢迎来自每个人的任何合作或伙伴关系机会。
我们在人工智能开发中看到来自开放数据的巨大机会。我们为共享和贡献开放数据建立了一个社区。这不仅惠及研究人员以推动科学的边界,而且惠及企业以完善他们的模型并在相互有益的环境中发展技术。
感谢这次精彩的采访,希望了解更多的读者可以访问 Graviti。












