思想领袖

人工智能基础设施已经破碎,令牌成为新的价值衡量标准

mm

人工智能行业存在一个衡量问题。

多年来,成功的定义是基于计算能力,如谁拥有最多的GPU、最大的集群或最快的训练运行。数十亿美元被投入基础设施以赢得这场竞争。

但是,当人工智能从实验转向生产时,这个模型开始破裂。

企业不再购买GPU,他们甚至不购买推理能力,他们购买的是结果,如摘要、推荐、决策、内容。换句话说,他们购买的是令牌。

然而,大多数人工智能基础设施仍然被设计为以计算为最终目标。但事实并非如此。

人工智能中的真正价值单位是令牌。并且,早期认识到这一转变的公司将定义市场的下一个时代。

人工智能令牌工厂的崛起

如果令牌是产品,那么人工智能基础设施需要像生产系统一样运行,而不是科学项目。这就是人工智能令牌工厂的概念出现的地方。

人工智能令牌工厂不仅仅是软件栈中的另一个层次,它是对整个栈的重新思考。它不再优化单个模型的性能或原始硬件利用率,而是专注于一个结果:在规模上高效地生产令牌。

这意味着抽象基础设施复杂性,动态地在异构环境中分配工作负载,并不断优化吞吐量、延迟、利用率和每个令牌的成本。

今天的模型基本上是GPU租赁加上额外的步骤。组织预配昂贵的硬件,拼凑碎片化的工具,并希望利用率最终能证明投资是合理的。

令牌工厂完全颠倒了这个等式。它提供输出,而不是基础设施,并从第一天开始将效率作为核心设计原则。这不是渐进式的进步,这是从基础设施作为容量到基础设施作为生产的转变。

为什么旧模型不能维持

当前的人工智能基础设施模型不仅效率低下,而且变得不可持续。

GPU短缺暴露了第一个裂缝。需求继续超过供应,迫使组织采用碎片化的多供应商部署。最初作为临时解决方案的东西很快成为常态:在没有统一操作层的情况下拼凑在一起的异构环境。

问题在于,大多数现有堆栈从未为这种现实而设计。它们不能有效地跨架构优化、实时适应或提供对性能和成本的清晰可见性。

因此,复杂性比规模增长得更快。

每个新模型、框架、加速器或云平台都会引入另一个运营层。团队花费大量时间管理编排、兼容性、路由、调度和可观察性问题,而不是改善结果。

本应成为规模优势的东西很快变成了协调问题。

同时,经济学变得越来越难以忽视。早期的人工智能部署可以将低效率隐藏在增长和实验之后。但是,这个窗口正在关闭。

高管现在正在问更艰难的问题:为什么推理成本如此不可预测?为什么GPU利用率仍然如此低?为什么组织为经常空闲的硬件支付高价?为什么将基础设施支出与业务结果联系起来如此困难?

答案很简单:该系统是为获取而设计的,而不是为效率而设计的。

从计算中心到令牌中心架构

转向令牌工厂既是哲学上的转变,也是架构上的转变。

首先,市场正在从GPU即服务转向结果即服务。客户不想管理基础设施,他们想要保证的结果。逻辑终态是基于输出而不是资源的消费。

其次,碎片化的堆栈正在让位给统一的控制平面。在异构环境中,可见性和控制是至关重要的。令牌工厂提供了对使用情况、成本和性能的实时洞察,并能够采取行动。组织需要了解:谁正在生成令牌?以什么成本?在哪种硬件上?在哪种工作负载下?以及以什么样的效率?没有这些答案,优化就变成了猜测。

最后,行业的重点正在从执行转向持续优化。挑战不再仅仅是运行模型,而是智能地运行模型,因为组织正在确定:哪些工作负载属于哪种硬件?如何在控制成本的同时最大化吞吐量?如何防止令牌使用失控?

令牌工厂将这些问题视为首要问题,而不是事后补充。

为什么今天的人工智能交付模型不够

传统的人工智能堆栈(跨硬件供应商、云平台、推理服务)主要是为快速增长而构建的,而不是为系统效率而设计的。

每一层都增加了价值,但也增加了成本、抽象和运营碎片化。结果是一个具有叠加利润、有限透明度和增加的供应商锁定的系统。组织最终在孤岛中优化,而不是在整个系统中优化。

令牌工厂从根本上挑战了这种模型。

通过解除硬件和价值交付的耦合,它们实现了端到端的优化。工作负载可以在环境中流畅地移动。架构可以在不需要大量重写的情况下演变。效率变得可测量、可管理和持续改进。

这就是企业和新兴的云计算可以更有效地与超大规模企业竞争的方式。不是通过匹配他们的规模,而是通过在效率方面超越他们。

谁将获胜

也许这一转变最具破坏性的方面是它赋予了谁的权力。你不需要拥有数据中心甚至GPU就可以运营令牌工厂。

重要的是对编排、优化和交付的控制。这为一组更广泛的参与者打开了大门:

  • 拥有大量持续人工智能工作负载的企业。
  • 针对特定垂直领域或用例进行优化的新云计算提供商。
  • 向上移动堆栈的基础设施供应商。

在这个模型中,竞争优势不再来自于囤积计算资源,而是来自于比任何其他人更好、更快、更便宜地生产令牌。

新的战场:每个令牌的成本

人工智能竞争的下一阶段不会仅仅因为模型质量而获胜。它将因为效率而获胜。更具体地说,每个令牌的成本。

谁可以以一小部分成本提供等效或更好的输出?谁可以在不使基础设施支出失控的情况下扩展?谁可以将人工智能转变为可预测的、利润丰厚的业务?

这些不是基础设施问题。它们是生产问题,需要生产思维方式。

未来不再依赖GPU

GPU不会消失,但它们不再是故事的主角。令牌才是主角。

仍然专注于计算的组织将面临不断上涨的成本和递减的回报。那些转向令牌中心系统的组织将解锁一个根本不同的模型,这个模型将基础设施与结果和成本与价值对齐。

人工智能令牌工厂不是一个遥远的概念。它们是市场的必然演进。唯一真正的问题是谁将首先构建它们,谁将被甩在后面。

高拉夫·沙阿是NeuReality的商业发展和战略副总裁,他领导客户努力革新AI推理,并加速其在金融科技、健康科技和政府等领域的采用。高拉夫拥有三十年的科技行业经验,曾在NVIDIA、Marvell、Tenstorrent和GlobalFoundries担任产品营销和管理角色。他位于旧金山湾区。