Connect with us

思想领袖

自动化模型开发的关键路径

mm mm
A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

人工智能研究的下一个重要里程碑是自动化模型开发。每一个推理、语言和感知方面的进步,在某种意义上,都是一步向这个目标迈进。然而,实现模型自动化的道路需要解决一系列基础挑战,这些挑战必须首先被克服。

连接到这一目标的桥梁直接经过机器学习(ML)工程。一个常见的误解认为,ML是现代人工智能的前身技术,基础模型已经取代了它。这误解了两者的关系。作为一个学科,ML涵盖了所有方面的模型训练,包括当前人工智能热潮中心的基础模型训练。然而,规模和数据复杂性之间存在着显著的差异。

传统的ML模型通常是在经过精心策划的、特定领域的数据集上训练的,这些数据集包含成千上万或数百万个例子。相比之下,基础模型是在同时从不同来源、格式、来源和质量不一的数千个数据集上训练的。这种数据规模和异构性的差异是数据管理变得更加困难和重要的根本原因,当模型变得更加强大时。

这使得数据理解成为自动化模型开发中的一个关键瓶颈。一个能够解释异构数据并改进围绕它建立的管道的人工智能系统,原则上可以改进自己的训练过程,并帮助建立更好的模型。一旦人工智能可以通过它被训练的过程来改进自己,改进就会像多米诺效应一样传递到人工智能应用的每个领域。

阻碍自动化模型开发的三个障碍

第一个障碍是上下文碎片化。在几乎每个组织中,任何给定建模问题相关的信号、实验、特征定义和机构知识都分散在数据仓库、笔记本和管道中,这些系统从来没有被设计为相互通信。考虑一个建立脓毒症检测模型的医疗系统。与该问题相关的临床标准,例如生命阈值、实验室值和文档标准,可能存在于电子健康记录系统的完全独立的模块中。

第二个障碍是语义模糊性。意义并不是数据固有的,而是依赖于上下文和组织。两个不同数据库中的同一个字段名称可能指的是微妙不同的东西。像收入、活跃用户和流失率这样的概念通常在一个公司内部有多个有效的定义。甚至像“收入”这样的概念也可能引起问题。销售团队可能将收入定义为本季度签订的合同总价值,而财务团队将其定义为实际收到的现金。产品团队有着不同的理解,因为他们将其定义为在订阅期内分配的收入。所有这些团队都从各自系统中名为“收入”的字段中提取数据,但跨团队报告将会默默地混合三种不兼容的数字。

第三个也是最系统性的障碍是缺乏记录的组织记忆。跟踪来源、解决不一致性和在这么多来源中保持质量信号是一个即使对于人类团队来说也是未解决的问题。没有对尝试过什么以及这些方法如何有效的机构记忆,任何模型自动化机制都将不断重复发现同样的死胡同,浪费时间和资源。

考虑一个零售公司的数据科学团队,他们正在建立一个需求预测模型。在三年里,十二名分析师各自独立地发现,原始天气数据会在假期周降低模型性能,某个供应商的库存数据包含系统性滞后,处理促销事件的标准方法会导致目标泄漏。当最初的分析师转到其他团队或离开公司时,他们的知识也随之离开。没有对尝试过什么、什么失败了以及为什么失败的机构记录,模型自动化机制无法建立在积累的经验之上。它只是从零开始,反复浪费时间。

真正解决方案的要求

机器学习自动化的历史是一个部分解决方案的历史。自动化机器学习(AutoML)解决了狭窄的超参数调优问题,但无法处理目标不匹配或推理组织意图的问题。机器学习运维(MLOps)使生产管道更强健、更容易监控,但MLOps工具执行策略,而不是定义它。最近的编码代理代表了一步真正的进步,但它们继承了相同的盲点。它们生成代码很好,但在没有组织上下文或机构记忆的情况下运行。

一个真正具有自主机器学习工程能力的系统需要现有工具无法提供的能力。它需要将业务目标映射到模型目标,这是一种无法仅从数据中推断出的翻译。它需要在具有不一致模式的分散系统中发现相关数据,同时自动遵守合规性、治理和安全约束,而不是需要人类作为一个单独的过程来管理它们。它需要机构记忆来表面现有工作,了解为什么过去的实验被放弃,并建立在同事已经知道的基础上。

需要有严格的审计跟踪来记录数据版本、特征定义和代码提交的来源,以便将系统置于实际发生的事情中。任何这样的系统都需要深思熟虑的人机交互设计。不仅仅是二元选择之间的全自动化和全手动控制,而是根据任务、风险和系统在每个决策点的信心水平提供不同程度的交互支持。自动化在关键时刻绕过人类判断不是良好设计的人工智能的特征;相反,它是一个故障模式。

目前尚未解决的问题是如何创建一个理解组织数据在特定机构背景下含义的语义理解。MCP解决了连接问题。它还没有解决意义问题。这仍然是开放的研究前沿。

可能实现的结果

解决这些问题的经济影响是显著的。今天,定制机器学习开发需要专家从业者和数周的迭代,即使对于明确定义的问题也是如此。一个能够从问题定义到数据发现、模型开发和模型评估的整个工作流程中自主导航的系统,将会显著改变这一等式,压缩时间线,并开启目前由于资源密集型而无法追求的高价值用例。曾经需要深入机器学习专业知识的团队在数周内完成的项目,现在可以在不使用那么多稀缺机器学习专家的时间的情况下在几天内完成。

上下文碎片化、语义模糊性和缺乏机构记忆的挑战并非仅限于企业机器学习。它们在基础模型训练管道的构建中以不同的约束体现出来,在那里,必须聚合、过滤和迭代精炼数千个异构数据集。虽然这两个环境在结构和目标上有所不同,但它们都受到相同的根本瓶颈的限制:缺乏能够可靠地恢复上下文、跟踪来源并在迭代中建立在先前工作基础上的系统。因此,在企业中自动化模型开发是迈向能够自我改进的人工智能系统的关键一步。

Doris Xin 是 Disarray 的 CEO 和联合创始人。作为 UC Berkeley RISELab 的博士和 NSF Graduate Research Fellow,Doris 锻炼了她的机器学习专业知识,并且是 LinkedIn 的早期机器学习工程师。

Moustafa AbdelBaky 是 Disarray 的首席技术官和联合创始人。他是三届 IBM 博士研究员,拥有近二十年的分布式系统、边缘机器学习和 NASA 自主航空和空间任务的实时人工智能自主编排研究经验。