公告
Kumo 推出 KumoRFM-2,一种旨在取代传统企业机器学习的基础模型

Kumo 推出 KumoRFM-2,一款针对结构化企业数据的下一代基础模型,标志着组织从数据仓库生成预测的方式发生了根本性的转变。与传统的机器学习管道不同,传统机器学习管道需要数月的特征工程和自定义模型开发,KumoRFM-2 可以让团队使用自然语言立即生成预测,而无需训练或专门的专业知识。
在其核心,模型代表了一种新的 AI 类别:一种直接在企业数据结构上运行的关系基础模型,而不是将其简化为表格。这一区别解决了企业 AI 中最持久的限制之一,即在建模开始之前,数据集之间的有价值关系往往会丢失。
从静态管道到实时预测系统
企业预测分析 历史上一直很慢且耗费资源。每个新用例——无论是客户流失预测、欺诈检测还是需求预测——通常都需要一个单独的管道,涉及数据清理、特征工程、模型训练和调优。
KumoRFM-2 用一个单一的预训练系统取代了整个工作流程。
用户不需要构建模型,而是定义他们想要预测的内容。模型解释请求,从底层数据库中构造必要的上下文,并在一次传递中生成预测。这是通过上下文学习和称为预测查询语言 (PQL) 的声明式接口的组合实现的,用户在其中表达他们关心的结果,而不是计算它所需的步骤。
结果是从“构建模型”到“提问”的转变——这种变化显著降低了使用预测 AI 的门槛。
为什么关系数据如此困难
大多数现有的 AI 系统都难以处理结构化的企业数据,原因很简单:它们处理数据的方式不正确。
传统模型,包括许多表格 AI 系统和甚至大型语言模型,都依赖于将数据简化为单个表格。但是,现实世界中的企业数据存在于相互连接的系统中——客户与交易链接,交易与产品链接,产品与库存链接,所有这些都随着时间的推移而演变。
简化这种结构会删除往往包含最有价值的预测信号的关系。它还迫使团队通过特征工程手动重新创建这些信号,这是一个既耗时又容易出错的过程。
KumoRFM-2 完全避免了这种情况,直接在关系数据库上运行,保留表、时间戳和实体之间的连接。
架构内部:KumoRFM-2 的工作原理
KumoRFM-2 背后的关键创新是其分层 关系图变换器架构,它同时处理多个级别的数据。
在第一级,模型使用行和列注意力的组合分析单个表格。这使得它能够理解表格内特征之间的关系,同时在过程的早期过滤掉不相关或嘈杂的数据。重要的是,预测目标在此阶段被引入,这意味着模型从一开始就针对任务进行了条件设置。
在第二级,模型在表格之间执行基于图的推理。使用外键关系,它连接来自数据库不同部分的数据——例如,将客户配置文件链接到购买历史或行为模式——并找出其他情况下会丢失的跨表信号。
在第三级,模型结合跨样本注意力,使其能够同时从多个示例中学习。这使得它能够从相对较少的上下文示例中泛化,而不是需要完整的训练数据集。
这种分阶段的设计至关重要。它避免了同时处理每个数据点所带来的计算爆炸,同时通过在更深入的推理之前过滤掉噪音来提高准确性。
上下文学习取代训练
KumoRFM-2 的一个显著特征是它依赖于上下文学习而不是传统的训练。
与其为每个任务训练一个模型,KumoRFM-2 只需一次预训练,就可以在大量合成和真实世界的关系数据上进行预训练。当用户提交预测请求时,系统会自动生成一组上下文示例——数据库的小子图,配以已知结果。
这些示例作为模型的指导,允许它推断出模式并在不更新其权重的情况下生成预测。在实践中,这意味着:
- 无需任务特定的训练
- 无需特征工程
- 无需模型调优
即使只有 0.2% 的数据通常用于有监督学习,模型也可以达到最先进的性能。
跨现实世界基准的性能
KumoRFM-2 已在 41 个预测任务中进行了评估,涵盖了电子商务、医疗保健、社交平台和企业系统等行业。
该模型始终优于传统的有监督机器学习方法,包括工程化的集成和关系深度学习系统。在企业基准测试中,它以显著的幅度超过了广泛使用的解决方案,并且在微调后性能进一步提高。
除了原始准确性外,模型还表现出强大的鲁棒性:
- 即使缺少大量关系链接,也能保持性能
- 即使数据嘈杂或不完整,也能处理,性能下降最小
- 在冷启动场景中,即历史数据有限,表现良好
这种恢复力在企业环境中尤为重要,因为数据质量往往不一致。
适用于大规模:最高 5000 亿行
KumoRFM-2 设计用于在现代数据基础设施的规模下运行。
该系统可以处理超过 5000 亿行的数据集,方法是将数据库本机执行与能够高吞吐量数据访问的自定义图引擎相结合。与其将数据移到单独的 ML 系统中,计算直接推送到数据所在的位置——无论是在 SQL 数据库还是云数据仓库中。
这种方法降低了延迟,简化了部署,并允许组织将预测功能直接集成到现有的工作流中。
自然语言作为接口
另一个显著特征是模型的自然语言接口。
用户可以提出以下问题:
- 哪些客户在接下来的 30 天内可能流失?
- 哪些潜在客户最有可能转化?
- 哪些产品将会看到需求增加?
系统将这些查询转换为结构化的预测逻辑,在底层数据上执行它们,并返回预测和解释。
这不仅使预测分析更加易于使用,还使其能够与 AI 代理集成,预测可以嵌入到自动决策工作流中。
面向代理的企业智能
KumoRFM-2 专为代理设计。
其预测功能可以作为模块化的“技能”被 AI 代理调用,作为更大工作流的一部分。这将预测建模转变为一个可组合的构建块——可以与检索、推理和执行结合使用的东西,在自治系统中。
在这种情况下,模型不仅仅是一个工具,供分析师使用,而是下一代企业自动化的基础层。
重新定义数据科学的角色
KumoRFM-2 标志着组织对数据科学的方法发生了更广泛的转变。
与其为每个任务构建和维护数十个特定模型,团队可以依赖于一个单一的、通用的系统,该系统可以适应新问题,并且可以立即适应。这减少了对特征工程和模型调优的专门专业知识的需求,同时实现了更快的实验和迭代。
对于许多组织来说,这可能意味着从集中式数据科学功能转变为更分散的模型,在这种模型中,预测洞察可以在多个部门中访问。
新类别的基础模型
虽然基础模型已经改变了语言和视觉等领域,但结构化的企业数据仍然是最后的边疆。
KumoRFM-2 代表了结构化数据的专用基础模型可以实现的早期示例。通过结合关系推理、上下文学习和自然语言交互,它引入了预测 AI 的新范式。
如果被广泛采用,这种方法可能会重新定义企业与数据的交互方式——将预测分析从复杂、延迟的过程转变为实时、全组织的能力。










