访谈

Alex Ratner,Snorkel AI 的 CEO 和联合创始人 – 采访系列

mm

Alex Ratner 是 Snorkel AI 的 CEO 和联合创始人,这是一家源自斯坦福 AI 实验室的公司。

Snorkel AI 通过将手动 AI 开发过程转化为程序化解决方案,使 AI 开发变得快速和实用。Snorkel AI 能够让企业使用其独有的数据和知识以 10-100 倍的速度开发适用于其独特工作负载的 AI

最初是什么吸引你进入计算机科学领域?

计算机科学有两个令人兴奋的方面。当你年轻时,你可以通过摆弄和构建来以自己的节奏学习,并且可以立即获得反馈,而不需要等待老师。第二,你可以在不需要任何人许可的情况下构建很多东西!

我小时候开始编程就是因为这些原因。我也喜欢它所需的精确性。我喜欢抽象复杂的过程和例程,然后以模块化的方式对其进行编码。

后来,作为一名成年人,我通过一份咨询工作回到计算机科学领域,在那里我被要求编写脚本来执行一些基本的专利语料库分析。我对人类知识的数量感到着迷——任何人曾经认为值得专利的东西都可以轻松获取,但由于很难对复杂的技术文本和多模式数据进行甚至最基本的分析,因此这些知识实际上是无法访问的。

这就是我重新回到计算机科学领域的原因,最后我进入了斯坦福大学的研究生院,专注于 NLP,即使用机器学习/人工智能处理自然语言的领域。

你最初在斯坦福大学期间启动并领导了 Snorkel 开源项目,可以带我们了解这些早期日子的经历吗?

当时,我们和业界许多人一样,专注于开发新的算法和——即所有“花哨”的机器学习东西,这些都是社区中研究人员研究和发表论文的内容。

然而,我们始终致力于将其与现实世界的问题联系起来——主要是与斯坦福大学的医生和科学家合作。但每当我们提出一个新模型或算法时,反应都是“当然,我们会尝试,但我们需要所有这些标记的训练数据,我们没有时间创建!”

我们看到,一个大型的未曾提及的问题是围绕标记和策划这些训练数据的过程——所以我们将所有的重点转移到了这一点,这就是 Snorkel 项目和“数据驱动 AI”的想法是如何开始的。

Snorkel 采用了数据驱动 AI 的方法,可以定义什么是数据驱动 AI,以及它与模型驱动 AI 开发有何不同吗?

数据驱动 AI 意味着专注于构建更好的数据以构建更好的模型。

这与模型驱动 AI 相对立,但两者可以相互补充。在模型驱动 AI 中,数据科学家或研究人员假设数据是静态的,并将精力投入到调整模型架构和参数以获得更好的结果。

研究人员仍然在模型驱动 AI 领域做着很好的工作,但现成的模型和自动机器学习技术已经有了很大的改进,以至于模型选择在生产时间已经变得商品化。在这种情况下,改进这些模型的最佳方法是为它们提供更多更好的数据。

数据驱动 AI 方法的核心原则是什么?

数据驱动 AI 的核心原则很简单:更好的数据构建更好的模型

在我们的学术工作中,我们称之为“数据编程”。这个想法是,如果你给一个强大的模型足够多的输入和预期输出的例子,模型就会学习如何复制这些模式。

这比你想象的更具挑战性。绝大多数数据没有标签——或者至少,对于你的应用程序没有有用的标签。手动标记这些数据需要单调、时间和人类的努力。

拥有一个标记的数据集也不能保证质量。人类错误无处不在。每个错误的例子都会降低最终模型的性能。没有参数调整可以掩盖这种现实。研究人员甚至在基础开源数据集中发现了错误标记的记录。

可以详细说明数据驱动 AI 的程序化是什么意思吗?

手动标记数据存在严重的挑战。这样做需要很多人工小时,有时这些人工小时可能很昂贵。例如,医疗文档只能由医生标记。

此外,手动标记冲刺通常是单次使用的项目。标记者根据严格的模式注释数据。如果业务需求发生变化,需要不同的标签集,标记者必须从头开始。

数据驱动 AI 的程序化方法可以最小化这两个问题。Snorkel AI 的程序化标记系统将多种信号——从遗留模型到现有标签到外部知识库——结合起来,以大规模开发概率标签。我们的主要信号来源是与数据科学家合作的主题专家,他们将自己的专业判断编码为可扩展的规则,从而使每个决策对数十或数百个数据点产生影响。

这个框架也是灵活的。与其从头开始,当业务需求发生变化时,用户可以添加、删除和调整标记函数,以便在几小时内应用新的标签,而不是需要几天。

这种数据驱动方法如何实现未标记数据的快速扩展?

我们对数据驱动 AI 的程序化方法可以通过放大每个选择的影响来实现未标记数据的快速扩展。一旦主题专家建立了一个初始的小型真实数据集,他们就开始与数据科学家合作进行快速迭代。他们定义几个标记函数,训练一个快速模型,分析标记函数的影响,然后根据需要添加、删除或调整标记函数。

每个周期都可以提高模型的性能,直到达到或超过项目的目标。这可以将数月的数据标记工作减少到仅几个小时。在一个 Snorkel 研究项目中,我们的两名研究人员在一天内标记了 20,000 个文档——这对于手动标记者来说可能需要十周或更长时间。

Snorkel 提供了多种 AI 解决方案,包括 Snorkel Flow、Snorkel GenGlow 和 Snorkel Foundry。这些产品之间有什么区别?

Snorkel AI 套件使用户能够创建标记函数(例如,在文档中查找关键字或模式),以便在几分钟内以编程方式标记数百万个数据点,而不是手动标记一个数据点。

它压缩了公司将专有数据转化为生产就绪模型并开始从中提取价值所需的时间。Snorkel AI 允许企业通过高效地整合人类判断和主题专家知识来扩大人工在循环中的方法。

这导致了更透明和可解释的 AI,能够让企业管理偏差并提供负责任的结果。

具体来说,Snorkel AI 启用了以下功能:

  • 开发高质量的标记数据以训练模型或增强 RAG;
  • 使用微调进行自定义 LLM;
  • 将 LLM 蒸馏到更小、更便宜的专用模型中;
  • 使用预训练构建特定于域和任务的 LLM。

您写过一些开创性的论文,在您看来,您最重要的论文是什么?

一篇关键的论文是关于 数据编程(以编程方式标记训练数据)和 Snorkel 的原始论文。

您对 Snorkel 的未来有什么展望?

我希望 Snorkel 能够成为所有认真对待 AI 的大型企业的可靠合作伙伴。

Snorkel Flow 应该成为大型企业数据科学团队的无处不在的工具——无论他们是否正在为组织微调自定义的大型语言模型,构建图像分类模型,还是构建简单的可部署的逻辑回归模型。

无论企业需要什么样的模型,它们都需要高质量的标记数据来训练它。

感谢这次精彩的采访,希望了解更多的读者可以访问 Snorkel AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。