公告

Kumo 发布 KumoRFM-2,一种旨在取代传统企业机器学习的基础模型

mm

Kumo 推出了 KumoRFM-2,一种下一代的基础模型,专门为结构化企业数据设计。这种模型标志着组织从数据仓库中生成预测的根本转变。与传统的机器学习管道不同,传统管道需要几个月的特征工程和自定义模型开发,KumoRFM-2 允许团队使用自然语言立即生成预测,而无需训练或专门的专业知识。

在其核心,模型代表了一种新的 AI 类别:一种关系基础模型,直接操作企业数据结构,而不是将其简化为表格。这种区别解决了企业 AI 中最持久的限制之一,即有价值的数据集之间的关系通常在建模开始之前就丢失了。

从静态管道到实时预测系统

企业预测分析 历史上一直很慢且耗费资源。每个新用例,无论是客户流失预测、欺诈检测还是需求预测,通常都需要一个单独的管道,涉及数据清理、特征工程、模型训练和调优。

KumoRFM-2 用一个单一的预训练系统取代了整个工作流程。

用户不再需要构建模型,而是定义他们想要预测的内容。模型解释请求,构造必要的上下文,并在单次传递中生成预测。这是通过上下文学习和预测查询语言(PQL)实现的,用户使用 PQL 表达他们关心的结果,而不是计算结果所需的步骤。

结果是从“构建模型”转变为“提问”,这大大降低了使用预测 AI 的门槛。

为什么关系数据如此困难

大多数现有的 AI 系统都难以处理结构化企业数据,原因很简单:它们处理数据的方式不正确。

传统模型,包括许多表格 AI 系统和大型语言模型,依赖于将数据简化为单个表格。但是,现实世界中的企业数据存在于相互连接的系统中:客户与交易、交易与产品、产品与库存,所有这些都随着时间的推移而演变。

简化这种结构会删除关系,这些关系通常包含最有价值的预测信号。它还迫使团队通过特征工程手动重建这些信号,这个过程既耗时又容易出错。

KumoRFM-2 完全避免了这种情况,直接在关系数据库上运行,保留表、时间戳和实体之间的连接。

架构内部:KumoRFM-2 的工作原理

KumoRFM-2 背后的关键创新是其分层关系图转换器架构,它同时处理多个级别的数据。

在第一级,模型使用行和列注意力组合来分析单个表格。这使得它能够理解表格内特征之间的关系,同时过滤掉不相关或嘈杂的数据。在此阶段,预测目标被引入,这意味着模型从一开始就被条件化为任务。

在第二级,模型在表格之间执行基于图的推理。使用外键关系,它连接来自数据库不同部分的数据,例如将客户资料链接到购买历史或行为模式,并找出其他情况下会丢失的跨表信号。

在第三级,模型结合跨样本注意力,使其能够同时从多个示例中学习。这使得它能够从相对较少的上下文示例中推广,而不是需要完整的训练数据集。

这种分阶段设计至关重要。它避免了同时处理每个数据点的计算爆炸,同时通过在更深层次的推理之前过滤掉噪音来提高准确性。

上下文学习取代训练

KumoRFM-2 的一个定义特征是其依赖上下文学习而不是传统训练。

与为每个任务训练模型不同,KumoRFM-2 只需在大型合成和真实世界关系数据混合上预训练一次。当用户提交预测请求时,系统会自动生成一组上下文示例,这些示例是数据库的小子图,配以已知结果。

这些示例作为模型的指导,允许它在不更新其权重的情况下推断出模式并生成预测。在实践中,这意味着:

  • 无任务特定训练
  • 无特征工程
  • 无模型调优

即使使用的数据仅为传统监督学习所需的 0.2%,该模型仍可实现最先进的性能。

跨现实世界基准的性能

KumoRFM-2 已在 41 个预测任务上进行了评估,这些任务涵盖了电子商务、医疗保健、社交平台和企业系统等行业。

该模型始终优于传统的监督机器学习方法,包括工程化的集成和关系深度学习系统。在企业基准测试中,它以显著的差距超越了广泛使用的解决方案,并且在微调后性能进一步提高。

除了原始准确性之外,该模型还表现出强大的鲁棒性:

  • 即使关系链接缺失大量部分,也能保持性能
  • 即使数据嘈杂或不完整,也能处理,性能下降最小
  • 在冷启动场景中,即历史数据有限,性能良好

这种鲁棒性在企业环境中尤为重要,因为数据质量通常不一致。

为规模而构建:最高 500 亿行

KumoRFM-2 设计用于现代数据基础设施的规模。

该系统可以处理超过 500 亿行的数据集,方法是将数据库本地执行与高吞吐量数据访问的自定义图引擎相结合。计算直接推送到数据所在位置,无论是在 SQL 数据库还是云数据仓库中。

这种方法降低了延迟,简化了部署,并允许组织将预测功能直接集成到现有的工作流中。

自然语言作为接口

另一个定义特征是模型的自然语言接口。

用户可以提出以下问题:

  • 哪些客户在接下来的 30 天内可能流失?
  • 哪些潜在客户最有可能转化?
  • 哪些产品的需求会增加?

系统将这些查询转换为结构化的预测逻辑,在底层数据上执行,并返回预测和解释。

这不仅使预测分析更易于访问,还使其能够与 AI 代理集成,预测可以嵌入自动决策工作流中。

朝着代理驱动的企业智能

KumoRFM-2 专为代理而设计。

其预测能力可以作为模块化的“技能”暴露给 AI 代理,作为更大工作流的一部分。这使预测建模成为可组合的构建块,可以与检索、推理和执行结合使用,形成自主系统。

在这种情况下,模型不仅是分析师的工具,也是下一代企业自动化的基础层。

重新定义数据科学的角色

KumoRFM-2 表明组织对数据科学的方法正在发生更广泛的转变。

团队不再需要构建和维护数十个特定任务的模型,而是可以依赖于一个单一的通用系统,该系统可以瞬间适应新问题。这种方法减少了对特征工程和模型调优的专门专业知识的需求,同时实现了更快的实验和迭代。

对于许多组织来说,这可能意味着从集中式数据科学功能转变为更分散的模型,在这种模型中,预测洞察可以在多个部门中访问。

一种新的基础模型类别

虽然基础模型已经改变了语言和视觉等领域,但结构化企业数据仍然是最后的边疆之一。

KumoRFM-2 代表了结构化数据的专用基础模型可以实现的早期示例。通过结合关系推理、上下文学习和自然语言交互,它为预测 AI 引入了新的范式。

如果这种方法被广泛采用,它可能会重新定义企业与数据的交互方式,将预测分析从复杂、延迟的过程转变为实时、全组织的能力。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。