צור קשר

不,AI并未停滞。你只是看错了记分牌

מנהיגי מחשבה

不,AI并未停滞。你只是看错了记分牌

mm

高管们开始重新审视他们的AI路线图。继2023年生成式工具的初始热潮之后,人们自然会问势头是否已经放缓。但这个问题误读了记分牌。AI的进步并未停滞,而是发生了转移。

曾经在表面感受到的指数级变化——流畅的写作、精美的摘要——如今正在更深层、更关键的领域发生:推理、代码、工作流编排和多模态理解。这些进步不那么炫目,但影响力却大得多。如果你仍然通过AI能否写出更好的段落来衡量它,你就错过了真正的变革。

真正的进展正发生在工作完成的地方

在最关键的领域,进步正在加速。在GPQA等评估研究生水平科学推理的新严格基准测试中,模型性能同比跃升了近49个百分点。在测试跨领域和多模态任务的MMMU上,得分上升了近19分。要求修复真实GitHub代码库并通过自动化测试的基准测试SWE-ספסל,在一年内从4.4%跃升至超过71%。

这些都不是边际改进。它们表明,大型语言模型正在掌握需要精确性、推理能力和跨复杂系统整合的任务。特别是SWE-bench,它超越了玩具问题,旨在证明模型能否参与实际的软件开发——这个门槛曾经看起来遥不可及。

与此同时,企业的期望也在演变。模型仅仅“通用智能”已经不够,它们必须“具体有用”。向领域适应模型、工具连接系统和多智能体框架的转变,反映了对可操作、可审计并能集成到现实工作流中的性能日益增长的需求。

叙事与现实不符

那么,为什么感觉事情在放缓呢?原因有二。首先,最初吸引注意力的基准测试——文本摘要、邮件生成和简单的聊天任务——已经触及了自然上限。一旦模型在这些任务上持续达到90%的准确率,收益就显得微乎其微。这是天花板效应,而非进步的停滞。

如今的改进涉及长上下文记忆、工具集成、推理时推理和特定领域准确性。这些能力不会产生病毒式传播的演示,但它们极大地增强了模型在真实工作流中的能力。虽然传统的语言基准测试趋于平缓,但与现实世界推理、工具使用和企业可靠性相关的操作基准测试正在以前所未有的速度改进。这种差距解释了脱节的原因:普通观察者看到停滞是因为表面没有变化,但实践者看到变革正在表面之下发生。

从演示到部署

AI不再局限于炫目的演示或狭窄的原型。它正在跨越门槛进入主流部署,尤其是在重视可靠性、准确性和成果交付的企业环境中。向结构化、任务特定系统的转变已经在进行中。

到2026年,40%的企业应用程序将嵌入AI智能体,这相比2025年的仅5%是一个巨大的飞跃。这些智能体的设计不仅仅是为了响应提示,更是为了执行任务、编排工作流,并在金融、网络安全和客户运营等领域交付切实的成果。

这种演变反映了一种更深层次的技术转变。包括OpenAI在内的领先AI开发者,正在超越蛮力扩展,拥抱推理时推理——使模型能够思考问题、验证输出并动态地与外部工具交互。曾经看似狭窄的自动化正在变得能力更强:能够可靠地规划、适应和执行的智能体。这不是更大的AI,而是为真实工作构建的更智能的AI。

而且,这些真实工作正在被衡量,而不仅仅是想象。企业正在超越概念验证周期,进入生产就绪的部署阶段,并制定了与成果挂钩的明确KPI和业务目标。这个成熟阶段更注重可靠性,而非新奇性。

高管们即将犯下的错误

当今企业领导者面临的真正风险并非AI进步停滞,而是他们会相信它停滞了,并在能力正在表面之下加速发展的关键时刻暂停投资。

那些领先的组织并没有等待下一个GPT式的发布。他们正在将当今的AI嵌入高价值、跨职能的工作流中,并交付可衡量的业务影响。超过三分之二使用AI的组织报告称,这些部署直接带来了显著的成本降低或收入增长。最成功的采用者是那些将AI集成到多个业务功能中并自动化整个流程链的组织。

然而,许多高管团队仍然固守过时的评估框架。他们依赖那些不再反映真实企业任务复杂性的学术基准测试。他们过度优化令牌效率,却忽视了准确性、可恢复性和集成性的操作价值。

这不仅仅是技术滞后,更是战略滞后。那些已经重新调整了AI方法的公司与那些尚未调整的公司之间的差距正在扩大。很快,衡量标准将不再是部署的模型数量,而是获得的市场份额和实现价值的时间。

如何重新思考AI评估

是时候更新记分牌了。组织需要跟踪完整的任务完成度、工具编排和跨模态工作流。评估模型不应只看它们是否“回答了问题”,而应看它们是否完成了多步骤任务、从失败中恢复,并产生了能集成到现有系统中的输出。

像GPQA、MMMU和SWE-bench这样的基准测试是一个开始。但围绕企业特定领域和工作流构建的内部基准测试更为重要。

现代AI能够交付高价值的成果,但前提是你测试的是那些重要的成果。

定义下一波成功的将不是参数最多的模型,而是在特定业务背景下可靠运行的系统。准确性、可审计性、工具链支持和错误恢复能力将比流畅性或语气更重要。

前沿已经转移

AI并未停滞。它正在进入工作实际发生的层面,进入系统必须进行推理、验证和跨领域交互的层面。它正在告别新奇阶段,进入基础设施阶段。

理解这一转变的公司已经在建立优势。他们不是在追逐下一个病毒式演示。他们正在获取真正的生产力,提高问题解决速度,并以精确和速度扩展流程。

如果你还在看旧的记分牌,你就错过了在别处获得的分数。下一批领导者不会是那些等待烟花的人。他们将是那些看穿噪音并根据真实信号采取行动的人。

//www.exabeam.com/">Exabeam的首席人工智能官,负责领导为全球企业开发先进的人工智能驱动网络安全解决方案。作为一名经验丰富的技术高管,威尔逊的职业生涯致力于为全球2000强企业构建大规模云平台和安全系统。他因能将深厚的技术专长与实际企业应用相结合,而在人工智能和安全社区中广受尊重。威尔逊还是《大型语言模型安全开发指南》(The Developer’s Playbook for Large Language Model Security,O’Reilly Media)的作者,该书是关于在现代软件堆栈中保护生成式人工智能系统的实用指南。