Connect with us

思想领袖

为什么 AI 成本控制正成为下一个企业扩展挑战

mm
A high-tech data center landscape featuring glowing blue fiber-optic data streams converging into a complex network, passing through a massive, reinforced industrial gate that represents a

1. 部署 AI 后的隐性成本冲击

在早期试验中,AI 系统在表面上看起来似乎是经济高效的。流量量很低,使用案例被狭义定义,团队在受控环境中密切监视行为。在这些条件下,成本通常在个别模型调用或有限工作流的级别上进行评估。这给人一种扩展将会很直接的印象。至少,大多数团队都是这么认为的。

这种印象被加剧了,由于生成式 AI 的支出并没有显示出任何减慢的迹象。最近的一份 报告 估计,企业级生成式 AI 应用支出在 2025 年达到数十亿美元,同比增长了三倍以上。

但是一旦代理被暴露在真实用户和操作复杂性中,现实就会发生变化。

生产环境引入了不可预测的交互模式、更长的对话、后台进程和升级路径到更强大的模型。单个请求可以触发多个下游操作,这些操作在测试期间不可见。企业面临着一个挑战,许多团队将其描述为“发票惊喜”,即在没有明确了解哪些行为或工作流生成了它的情况下突然增加支出。

在这一阶段,挑战不仅仅是优化模型,而是关于获得对实际驱动 AI 成本的运行时动态的可见性。

2. 为什么 AI 工作负载打破传统云成本模型

以前,传统的云成本管理围绕着相对可预测的工作负载演变。基础设施消耗可以用稳定的单位来衡量,例如计算小时、存储或请求量,甚至可以通过预配策略或使用控制来优化。主要需要知道的是执行路径基本上是确定的。这使得能够以合理的准确性预测支出并将成本归因于特定的服务或团队。

AI 工作负载引入了一个不同的经济模型。支出主要与令牌使用、上下文大小、模型调用链和动态工作流决策相关,这些决策从一个交互到下一个交互都可能有所不同。

同一个用户请求可能根据置信度阈值、工具响应或回退逻辑遵循完全不同的执行路径。这就是为什么成本不是线性或容易预测的,如同以前一样。传统的 FinOps 仪表板提供了对基础设施消耗的可见性。真正的问题在于它们经常难以捕获运行时行为,而不仅仅是资源分配。企业不能通过传统的手段真正确定 AI 系统的经济性。

3. 主动系统的扩展成本表面

随着企业从单步推理转向主动架构,AI 系统的成本配置文件变得更加复杂。最近的行业分析甚至预测,超过 40% 的主动 AI 项目将在 2027 年底之前无法达到生产,就因为部署多步代理工作流在规模上的真正成本和复杂性。

用户请求不是通过一次模型调用来解决的。相反,过程涉及协调的工作流,这些工作流可能涉及规划步骤。可以想到检索操作、工具执行和多个代理之间的交互。

更不用说,上述工作流添加了诸如检索增强生成(RAG)或多代理协作等功能,这些功能随着时间的推移引入了额外的付费操作。

一次交互可以触发嵌入调用、向量数据库查询、迭代推理循环和当置信度下降时升级到更强大的模型。虽然每个单独的操作在隔离状态下可能看起来很小,但它们的累积效应决定了系统的整体经济性。

4. 为什么提示优化 alone 不能解决运行时经济学

提示优化通常是团队在尝试控制 AI 成本时首先使用的杠杆。减少令牌使用、改进指令或提高响应结构可以在个别模型调用级别上实现有意义的效率增益。优化仅解决了更广泛的经济图景的一小部分。

在生产环境中,成本波动的大部分是由工作流中的行为模式驱动的,而不是由提示长度本身驱动的。

低效率通常来自不必要的重试、过深的检索、升级到更昂贵的模型或代理执行不改变结果的工作。没有对执行跟踪和业务影响的可见性,提示调整可能只是将支出从系统的一个部分转移到另一个部分。

随着 AI 系统变得更加自治和相互连接,管理成本需要系统控制以确定代理在实时操作的方式。

最近的 AI FinOps 调查 涵盖了数十亿美元的云支出,提到了转向实时 AI 成本可见性、每团队预算和自动预算警报的趋势。这个想法是将成本视为运营 SLO,而不是纯粹的财务指标。

5. 新兴的 AI 成本控制架构方法

作为对日益增长的成本波动的回应,企业正在重新思考在 AI 系统中应该在哪里和如何应用经济控制。团队不再将成本优化视为事后财务练习,而是引入了在运行时影响支出的架构机制。

我们开始看到的一个新兴模式是使用路由和编排层,这些层根据任务复杂性、延迟目标或预算约束动态选择模型或工作流。它使企业能够在不依赖静态配置选择的情况下平衡质量和效率。

我们看到团队采取的其他途径包括基于策略的执行控制、成本感知重试策略和集中式可观察性,它将支出归因于特定的工作流。

评估也越来越多地被用作治理工具,团队只推广符合预定义成本和性能阈值的配置。

6. 成本作为下一个企业 AI 的可靠性门槛

随着 AI 系统成为核心业务工作流的一部分,企业真正开始将成本视为与质量、安全性和可靠性一样的部署约束。就像服务级别目标定义了可接受的性能边界一样,单位经济阈值正在出现为扩展自动化的先决条件。无法满足可预测成本配置文件的系统在操作上更难以证明其合理性,无论其技术能力如何。

这种转变促使团队在更广泛的推出之前引入“成本门槛”,并在系统上线后提供持续的监控。随着时间的推移,成本管理可能会演变成一个持续的工程学科,而不是一次性的优化工作。最成功地扩展 AI 的企业将是那些从一开始就设计经济控制的企业,确保任何功能的改进都与可持续的运营模型相匹配。

在企业 AI 采用的下一个阶段,我们可能会看到经济控制成为系统设计中与可靠性和安全性一样基本的方面。

Sohrab Hosseini, 或q.ai的联合创始人,是一位位于阿姆斯特丹地区的技术领袖和企业家,在SaaS、大规模系统和应用人工智能方面拥有深厚的经验。自2022年创立或q.ai以来,他专注于构建实用的基础设施,以帮助团队将大型语言模型从实验转移到可靠的生产使用。他的背景包括在Neocles担任COO和CTO、在Transdev担任未来技术CTO(他曾在那里从事自动化路由和车队管理)、以及在TradeYourTrip担任COO。在此同时,他还活跃于担任顾问和天使投资人,支持早期人工智能公司的产品方向、技术判断和执行策略。