存根 Alex Ratner,Snorkel AI 首席执行官兼联合创始人 - 访谈系列 - Unite.AI
关注我们.

面试

Alex Ratner,Snorkel AI 首席执行官兼联合创始人 – 访谈系列

mm

发布时间

 on

亚历克斯·拉特纳 (Alex Ratner) 是 呼吸管AI,一家诞生于斯坦福人工智能实验室的公司。

呼吸管AI 通过将手动 AI 开发流程转变为程序化解决方案,使 AI 开发快速实用。 Snorkel AI 使企业能够使用其专有数据和知识以 10-100 倍的速度开发适用于其独特工作负载的 AI。

是什么最初吸引您进入计算机科学?

当你年轻的时候,计算机科学有两个非常令人兴奋的方面。 第一,你可以通过修补和构建以最快的速度学习,并获得即时反馈,而不必等待老师。 二、你开始建造 很多 无需征求任何人的许可!

由于这些原因,我在小时候就开始编程了。 我也喜欢它所需的精度。 我喜欢抽象复杂的流程和例程,然后以模块化方式对它们进行编码的过程。

后来,作为一个成年人,我通过一份咨询工作重新回到了计算机科学领域,我的任务是编写脚本来对专利语料库进行一些基本分析。 我着迷的是,有多少人类知识——任何人都认为可以申请专利的东西——都是唾手可得的,但却很难获得,因为即使对复杂的技术文本和多模态数据进行最简单的分析也非常困难。

这就是让我回到兔子洞并最终回到斯坦福大学研究生院的原因,专注于 NLP,即在自然语言上使用 ML/AI 的领域。

您在斯坦福大学期间首次启动并领导了 Snorkel 开源项目,您能向我们介绍一下早期的历程吗?

当时,我们和业内许多人一样,专注于开发新算法,即社区中的人们进行研究并发表论文的所有“奇特”机器学习东西。

然而,我们始终致力于将其扎根于现实世界的问题——主要是与斯坦福大学的医生和科学家合作。 但每次我们推出新模型或算法时,反应就变成了 “当然,我们会尝试这样做,但我们需要所有这些带标签的训练数据,但我们没有时间创建!” 

我们发现,最大的不言而喻的问题是围绕着训练数据的标记和管理过程,因此我们将所有注意力都转移到了这个问题上,这就是 Snorkel 项目和“以数据为中心的人工智能”理念的开始。

Snorkel 采用以数据为中心的 AI 方法,您能否定义这意味着什么以及它与以模型为中心的 AI 开发有何不同?

以数据为中心的人工智能意味着专注于构建更好的数据来构建更好的模型。

这与以模型为中心的人工智能形成鲜明对比,但又密切相关。 在以模型为中心的人工智能中,数据科学家或研究人员假设数据是静态的,并将精力投入到调整模型架构和参数上,以获得更好的结果。

研究人员在以模型为中心的人工智能方面仍然做了很多工作,但现成的模型和自动机器学习技术已经有了很大的改进,以至于模型选择在生产时已经商品化。 在这种情况下,改进这些模型的最佳方法就是为它们提供更多更好的数据。

以数据为中心的人工智能方法的核心原则是什么?

以数据为中心的人工智能的核心原则很简单: 更好的数据可以构建更好的模型。 

在我们的学术工作中,我们称之为“数据编程”。 这个想法是,如果你为一个足够强大的模型提供足够多的输入和预期输出示例,该模型就会学习如何复制这些模式。

这提出了比您想象的更大的挑战。 绝大多数数据没有标签,或者至少没有对您的应用程序有用的标签。 手动标记数据需要乏味、时间和人力。

拥有标记数据集也并不能保证质量。 人为错误无处不在。 基本事实中的每个错误示例都会降低最终模型的性能。 再多的参数调整也无法掩盖这一现实。 研究人员甚至在基础开源数据集中发现了错误标记的记录。

您能否详细说明一下以数据为中心的人工智能程序化意味着什么?

手动标记数据提出了严峻的挑战。 这样做需要大量的人工时间,有时这些人工时间可能会很昂贵。 例如,医疗文件只能由医生标记。

此外,手动标记冲刺通常相当于一次性项目。 贴标机根据严格的模式对数据进行注释。 如果企业的需求发生变化并需要一套不同的标签,贴标商必须从头开始。

以数据为中心的人工智能的编程方法可以最大限度地减少这两个问题。 Snorkel AI 的程序化标签系统融合了多种信号(从遗留模型到现有标签再到外部知识库),以大规模开发概率标签。 我们的主要信号来源来自主题专家,他们与数据科学家合作构建标签功能。 它们将专家的判断编码成可扩展的规则,从而使一项决策所投入的精力能够影响数十或数百个数据点。

这个框架也很灵活。 当业务需求发生变化时,用户无需从头开始,而是添加、删除和调整标签功能,以便在几小时而不是几天内应用新标签。

这种以数据为中心的方法如何实现未标记数据的快速扩展?

我们以数据为中心的人工智能的编程方法可以通过放大每个选择的影响来快速扩展未标记的数据。 一旦主题专家建立了初始的、少量的基本事实集,他们就开始与数据科学家合作进行快速迭代。 他们定义一些标签函数,训练快速模型,分析标签函数的影响,然后根据需要添加、删除或调整标签函数。

每个周期都会提高模型性能,直到达到或超过项目目标。 这可以将数月的数据标记工作减少到几个小时。 在 Snorkel 的一个研究项目中,我们的两名研究人员在一天之内标记了 20,000 个文档,这一数量可能需要手动贴标机花费十周或更长时间。

Snorkel 提供多种 AI 解决方案,包括 Snorkel Flow、Snorkel GenGlow 和 Snorkel Foundry。 这些产品之间有什么区别?

Snorkel AI 套件使用户能够创建标记功能(例如,在文档中查找关键字或模式),以编程方式在几分钟内标记数百万个数据点,而不是一次手动标记一个数据点。

它缩短了公司将专有数据转换为生产就绪模型并开始从中提取价值所需的时间。 Snorkel AI 允许企业通过有效地结合人类判断和主题专家知识来扩展人机交互方法。

这将带来更加透明和可解释的人工智能,使企业能够管理偏见并提供负责任的结果。

从具体细节来看,Snorkels AI 使财富 500 强企业能够:

  • 开发高质量的标记数据来训练模型或增强 RAG;
  • 通过微调定制法学硕士;
  • 将法学硕士提炼成更小、运营成本更低的专门模型;
  • 通过预训练构建特定于领域和任务的法学硕士。

您写了一些开创性的论文,您认为哪一篇是您最重要的论文?

其中一篇关键论文是关于 数据编程 (以编程方式标记训练数据)以及 Snorkel 的数据。

您对 Snorkel 的未来有何愿景?

我认为 Snorkel 会成为所有认真对待人工智能的大型企业值得信赖的合作伙伴。

Snorkel Flow 应该成为大型企业数据科学团队的普遍工具,无论他们是为其组织微调自定义大型语言模型、构建图像分类模型,还是构建简单、可部署的逻辑回归模型。

无论企业需要什么样的模型,他们都需要高质量的标记数据来训练它。

感谢您的精彩采访,想要了解更多信息的读者可以访问 呼吸管AI,

Unite.AI 创始合伙人 & 会员 福布斯技术委员会, 安托万是一个 未来学家 他对人工智能和机器人技术的未来充满热情。

他也是 证券,一个专注于投资颠覆性技术的网站。