思想领袖
不,AI 并没有停滞。你只是看着错误的记分板

高管们开始对自己的 AI 路线图产生了怀疑。2023 年初,生成式工具的激增之后,人们自然会问是否动力已经减慢。但是,这个问题误读了记分板。AI 进展并没有停滞,它已经转变了。
曾经在表面上感觉到指数级变化,如流畅的写作、精致的摘要,现在正在更深层次、更有影响力的领域发生:推理、代码、工作流编排和多模态理解。这些进步不那么引人注目,但远更有影响。如果你仍然通过 AI 编写更好的段落来衡量它,你就错过了实际的转变。
真正的收益发生在工作完成的地方
进步正在加速的地方最重要。在新的、严格的基准如 GPQA 上,它评估研究生级别的科学推理,模型性能几乎每年提高 49%。在 MMMU 上,它测试跨领域和多模态任务,分数提高了近 19 分。SWE-bench,一个需要修复真实 GitHub 代码库并通过自动化测试的基准,从 4.4% 跃升到一年内超过 71%。
这些并不是边际改进。它们表明大型语言模型正在掌握需要精度、推理和复杂系统集成的任务。SWE-bench,特别是,它超越了玩具问题,证明了模型是否可以参与实际软件开发,这曾经似乎是一个遥远的门槛。
同时,企业正在改变他们的期望。模型不再需要“一般智能”,它们必须是具体有用。向领域适应模型、工具连接系统和多代理框架的转变反映了对操作性、可审计性和集成到现实世界工作流程的性能的日益增长的需求。
叙述与现实不符
为什么会感觉事情正在减慢?有两个原因。首先,最初吸引注意力的基准,文本摘要、电子邮件生成和简单聊天任务,已经达到自然天花板。一旦模型在这些任务上一致地达到 90% 的准确率,增益似乎很小。这是一个天花板效应,而不是进步的停滞。
今天的改进涉及长上下文记忆、工具集成、推理时间和领域特定准确性。这些能力不会产生病毒式的演示,但它们极大地增强了模型在实际工作流程中可以做的事情。虽然传统的语言基准正在停滞,但 与现实世界推理、工具使用和企业可靠性相关的操作基准正在比以往任何时候都快地改进。这种差距解释了脱节:随意观察者看到停滞,因为表面没有改变,但从业者看到变革正在发生就在下面。
从演示到部署
AI 不再局限于华丽的演示或狭窄的原型。它正在跨越到主流部署,特别是在企业环境中,可靠性、准确性和结果交付至关重要。转向结构化、特定任务的系统已经开始。
到 2026 年,40% 的企业应用将包含嵌入式 AI 代理,这比 2025 年的 5% 有了巨大的飞跃。这些代理不仅仅是为了响应提示,还要执行任务、编排工作流程,并在财务、网络安全和客户运营等领域交付有形结果。
这种演变反映了更深层次的技术转变。领先的 AI 开发者,包括 OpenAI,正在超越蛮力扩展,拥抱推理时间,允许模型动态地思考问题、验证输出和与外部工具交互。曾经看起来像狭窄自动化的东西现在变得更有能力:能够计划、适应和可靠执行的代理。这不是更大的 AI,而是更聪明的 AI,专为真正的工作而设计。
真正的工作正在被衡量,而不仅仅是想象。企业正在超越概念验证周期,进入生产就绪的部署,具有明确的 KPI 和与结果相关的业务目标。这种成熟阶段不再是关于新颖性,而是关于可靠性。
高管们即将犯的错误
企业领导者今天面临的真正风险不是 AI 进步已经停滞,而是他们会相信它已经停滞,并在能力正在表面下加速的确切时刻暂停投资。
领先的组织并没有等待下一个 GPT 风格的揭幕。他们正在将今天的 AI 嵌入高价值、跨职能工作流程中,并交付可衡量的业务影响。 超过三分之二 的使用 AI 的组织报告了直接与这些部署相关的显著成本降低或收入增长。最成功的采用者是那些将 AI 跨多个业务功能集成并自动化整个流程的组织。
然而,许多高管团队仍然陷在过时的评估框架中。他们依赖于不再反映现实企业任务复杂性的学术基准。他们过度优化令牌效率,同时忽略了准确性、可恢复性和集成的操作价值。
这不仅仅是一个技术滞后,这是一个战略滞后。已经调整了 AI 方法的公司与尚未调整的公司之间的差距正在扩大。很快,这种差距将不再以部署的模型或市场份额来衡量,而是以实现的时间价值来衡量。
如何重新思考 AI 评估
是时候更新记分板了。组织需要跟踪完整的任务完成、工具编排和跨模态工作流程。模型不应该仅仅根据它们“回答问题”的能力来评估,还应该根据它们完成多步骤任务、从故障中恢复以及生成可以集成到现有系统的输出的能力来评估。
像 GPQA、MMMU 和 SWE-bench 这样的基准是一个开始。但是围绕企业特定领域和工作流程的内部基准更加重要。
现代 AI 能够交付高价值的结果,但前提是你要测试那些重要的结果。
下一波成功的定义将不再是参数最多的模型,而是能够在特定业务环境中可靠执行的系统。准确性、可审计性、工具链支持和错误恢复将比流畅度或语气更重要。
边界已经转移
AI 并没有停滞,它正在转移到工作实际发生的地方,系统需要推理、验证和跨领域交互。它正在离开新颖性阶段,进入基础设施阶段。
理解这种转变的公司已经在建立优势。他们不再追逐下一个病毒式演示。他们正在捕获真正的生产力,提高解决问题的时间,通过精度和速度扩展流程。
如果你仍然看着旧的记分板,你就错过了在其他地方得分的点。下一个领导者将不是那些等待烟花的人,而是那些看穿噪音并对真正信号采取行动的人。












