Connect with us

访谈

埃里克·兰道,Encord联合创始人兼CEO – 采访系列

mm

埃里克·兰道是Encord的CEO和联合创始人,Encord是一家计算机视觉的主动学习平台。埃里克曾是全球股权delta-one交易台的首席量化研究员,将成千上万的模型投入生产。在加入Encord之前,他在DRW从事高频交易近十年。他拥有哈佛大学应用物理学硕士学位、斯坦福大学电气工程学士学位和物理学学士学位。

在空闲时间,埃里克喜欢玩ChatGPT和大型语言模型,并制作手工鸡尾酒。

是什么启发你联合创立Encord,你在粒子物理和量化金融领域的经验如何影响你解决AI中的“数据问题”的方法?

我最初是在斯坦福线性加速器中心(SLAC)工作期间,处理非常大的数据集时开始思考机器学习的问题。我当时使用的是为物理学家设计的软件,换句话说,用户体验方面有很多不足。如果有更简单的工具,我就可以更快地运行分析。

后来,在DRW的量化金融领域工作时,我负责创建成千上万个部署到生产环境的模型。与我在物理学中的经历类似,我发现高质量的数据对于创建准确的模型至关重要,而管理复杂的大规模数据是困难的。Ulrik有类似的经历,他曾为计算机视觉可视化大型图像数据集。

当我听到他关于Encord的初步想法时,我立即同意并理解了其重要性。Ulrik和我一起看到了建立一个平台来自动化和简化AI数据开发过程的巨大机会,使团队更容易将最佳数据输入模型并构建可靠的AI系统。

你能详细说明Encord的愿景以及它与计算机或互联网早期的潜力和挑战相比如何吗?

Encord的愿景是成为企业依赖的基础平台,将数据转化为功能性AI模型。我们是公司数据和AI之间的层。

在很多方面,AI与之前的计算机和互联网等范式转变类似,它将成为每个个体、企业、国家和行业工作流程的重要组成部分。与之前的技术革命不同,这些技术革命的发展速度主要受限于摩尔定律,即每10年计算能力增长30倍,AI的发展得益于同时进行的创新。因此,AI的发展速度要快得多。用NVIDIA的黄仁勋的话来说:“我们第一次看到复合指数的增长……我们每10年增长一百万倍。不仅仅是增长一百倍或一千倍,而是一百万倍。”毫无夸张地说,我们正在见证人类历史上发展最快的技术。

这里的潜力是巨大的:通过自动化和扩大高质量AI数据的管理,我们正在解决阻碍更广泛采用AI的瓶颈。挑战与之前技术时代早期面临的挑战类似:数据孤岛、缺乏最佳实践、非技术用户的局限性以及缺乏明确定义的抽象概念。

Encord Index被定位为管理和策划AI数据的关键工具。它与当前可用的其他数据管理平台有什么不同?

Encord Index有几种方式脱颖而出:

Index可扩展:允许用户管理数十亿,而不是数百万的数据点。其他工具在处理非结构化数据和整合组织内所有相关数据方面面临可扩展性问题。

Index灵活:直接与私有数据存储和云存储提供商(如AWS、GCP和Azure)集成。与其他仅限于单个云提供商或内部存储系统的工具不同,Index对数据位置持中立态度。它允许您从多个来源管理数据,并具有适当的治理和访问控制,允许您开发安全且合规的AI应用程序。

Index是多模态的:支持多模态AI,管理图像、视频、音频、文本、文档等形式的数据。Index不像今天的许多LLM工具一样仅限于单一类型的数据。人类的认知是多模态的,我们相信多模态AI将是下一波AI进步的核心,这将取代聊天机器人和LLM。

Encord Index如何增强选择合适数据用于AI模型的过程,以及这对模型性能有何影响?

Encord Index通过自动化大型数据集的策划,帮助团队识别和保留最相关的数据,同时删除不具信息量或有偏见的数据,从而增强数据选择。该过程不仅减少了数据集的大小,还显著提高了用于训练AI模型的数据质量。我们的客户已经看到他们的模型性能提高了20%,同时实现了35%的数据集大小减少和数十万美元的计算和人工注释成本节约。

随着像Meta的Segment Anything Model这样的尖端技术的迅速整合,Encord如何在快速演变的AI格局中保持领先地位?

我们故意构建了这个平台,以便能够快速适应新技术。我们专注于提供可扩展的软件优先方法,轻松整合SAM等进步,确保我们的用户始终拥有最新的工具来保持竞争力。

我们计划通过专注于多模态AI来保持领先地位。Encord平台已经可以管理复杂的数据类型,例如图像、视频和文本,因此随着多模态AI的进步,我们已经准备好了。

公司在管理AI数据时面临的最常见挑战是什么,Encord如何帮助解决这些挑战?

公司面临三个主要挑战:

  • 数据组织和控制不佳:当企业准备实施AI解决方案时,他们经常面临现实,即数据是分散和未组织的,且不适合AI。这些数据通常缺乏强大的治理,限制了其中大部分数据在AI系统中使用。
  • 缺乏人类专家:随着AI模型解决越来越复杂的问题,很快就会出现人类领域专家短缺,他们负责准备和验证数据。随着公司的AI需求增加,扩大人类工作量变得具有挑战性和昂贵。
  • 工具不可扩展:高性能AI模型需要大量数据用于微调、验证、RAG和其他工作流程。前一代工具不适合管理所需的数据量和类型,以支持今天的生产级模型。

Encord通过自动化大规模数据策划的过程来解决这些问题,使得识别有影响力的数据和问题数据变得容易,并确保创建有效的训练和验证数据集。它采用软件优先的方法,易于根据数据管理需求的变化而扩大或缩小规模。我们的AI辅助注释工具使人类领域专家能够最大限度地提高工作流效率。这个过程在金融服务和医疗保健等行业尤其重要,因为AI培训师的成本很高。我们使管理和理解组织内所有非结构化数据变得容易,减少了手动劳动的需要。

Encord如何解决数据偏差和数据集中代表性不足的问题,以确保AI模型公平和平衡?

解决数据偏差是我们在Encord的关键关注点。我们的平台自动识别和显示数据可能存在偏差的区域,允许AI团队在这些问题影响模型性能之前解决它们。我们还确保数据集中代表性不足的区域得到适当的包含,从而有助于开发更公平和更平衡的AI模型。通过使用我们的策划工具,团队可以确信他们的模型是使用多样化和代表性的数据进行训练的。

Encord最近获得3000万美元B轮融资。这笔资金将如何加速您的产品路线图和扩张计划?

3000万美元的B轮融资将用于在接下来的六个月内大幅增加我们的产品、工程和AI研究团队的规模,并加速Encord Index和其他新功能的开发。我们还将扩大我们在旧金山的存在,开设一家新办公室,这笔资金将帮助我们扩大运营以支持我们的不断增长的客户群。

作为Y Combinator中最年轻的获得B轮融资的AI公司,你将Encord的快速增长和成功归因于什么?

我们能够快速增长的主要原因之一是,我们在公司的所有领域都采取了极其以客户为中心的关注点。我们不断地与客户沟通,倾听他们的问题,并“紧紧拥抱”他们以找到解决方案。通过超级专注于客户需求而不是炒作,我们创建了一个与各个行业的顶级AI团队产生共鸣的平台。

我们的客户在帮助我们走到今天的位置方面发挥了重要作用。我们能够快速扩张并有效地管理AI数据的复杂性,这使我们成为企业的有吸引力的解决方案。

我们也非常感谢我们的团队成员、合作伙伴和投资者,他们都不知疲倦地为Encord代言。与世界级的产品、工程和市场团队合作对我们的增长产生了巨大的影响。

考虑到数据在AI中的日益重要性,你如何看待像Encord这样的AI数据平台在未来五年内的演变?

随着AI应用变得更加复杂,高效且可扩展的数据管理解决方案的需求将只会增加。我相信,每个企业最终都会拥有一个AI部门,就像今天的IT部门一样。Encord将是他们管理AI和快速将模型投入生产所需的唯一平台。

感谢这次精彩的采访,希望了解更多的读者可以访问Encord

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。