思想领袖

人工智能的新数字鸿沟：为什么边缘就绪、CPU优先模型将赢得成本战争

发布于 2025年8月26日

更新于 2026年5月18日

作者

Ritu Mehrotra, Shunya Labs创始人兼首席执行官

全球人工智能（AI）市场正在以惊人的速度扩张。2024年，人工智能市场的价值为257.68亿美元，预计到2025年底将达到371.71亿美元，到2032年将激增至2.4万亿美元。这几乎是十年内的十倍增长，速度堪比现代历史上一些最具变革性的技术浪潮。

过去十年中，约有1,500家新成立的AI公司每家获得超过150万美元的投资，这不仅表明创新浪潮的到来，也表明竞争的激烈程度。既有的公司也没有坐视不管。根据麦肯锡的一份行业报告，令人惊讶的92%的组织计划在未来三年的AI支出中增加投资。

然而，随着AI的采用加速，支撑其背后的基础设施开始显示出裂痕。过去两年中，AI已经从令人惊叹的演示转变为持续的、现实世界中的工作负载。

真正的瓶颈不仅仅在于模型质量，还在于这些模型的运行位置和方式。一个新的数字鸿沟正在形成，这个鸿沟不再是围绕数据或人才的获取，而是围绕计算策略。组织面临着一个至关重要的选择：继续依赖图形处理器（GPU）密集、云中心的系统，还是采用更为精简、边缘就绪、以中央处理器（CPU）为首的架构，这种架构更为廉价、易于部署于多样化环境，并且更好地满足了隐私和延迟的需求。

这些架构选择很重要，因为真正的压力不在于构建模型，而在于日复一日地运行它们。这就是为什么推理成本迅速超过训练成本并定义了大规模AI的经济学的原因。

推理正在消耗AI预算

虽然头条新闻经常强调训练前沿模型的巨大费用，但推理是永无止境的账单。斯坦福2025年AI指数报告指出，小模型的快速进步已经将“GPT-3.5级”性能的成本在2022年末和2024年末之间降低了280多倍。然而，同一份报告强调了行业对优化推理效率的痴迷。

云GPU定价只会加剧这种压力。租用高端GPU实例在三到五年的时间范围内可能会花费几乎是购买同等硬件的两倍的价格。弹性对于峰值工作负载很有用，但长期运行的推理“租赁”会悄悄地耗尽预算。甚至NVIDIA，这家公司的业务依赖于加速器，也在过去一年里大力优化了整个栈的推理。这表明真正的战场正在从训练性能转向服务经济学。

这种新出现的成本危机意味着不愿意或无法重新思考计算策略的组织风险被甩在后面。

为什么边缘（和CPU）改变了成本曲线

残酷的现实是，GPU中心的推理创造了不可持续的经济学。运行大规模、实时AI工作负载在昂贵的GPU上不仅推高了成本，还加速了硬件折旧。创新周期如此之快，通常在18个月内就有新一代芯片问世，这使得基础设施投资迅速失去价值。这导致分析师对AI芯片购买相关的折旧成本发出警告，因为他们已经开始大幅降低收益预期。例如，Alphabet预计到2026年将吸收280亿美元的折旧成本。

工厂、诊所、零售店和移动设备都是AI将来需要运行的地方。将每个请求发送到集中式GPU集群通常是错误的工具，因为它昂贵、耗能，并且容易出现延迟和隐私问题。

边缘环境不是同质的GPU农场。它们是多样化的CPU集群：服务器、坚固的PC、笔记本电脑和手持设备。这种多样性使得CPU成为成本有效的AI部署的自然基础。

在这个新景观中，CPU不仅仅是备选方案，它们是成本智能的AI扩展途径。

GPU作为AI的“私人飞机”

随着模型变得更大、更复杂，它们需要更多的GPU能力，这不仅推高了基础设施和能耗成本，还将先进的AI能力集中在那些能够承担得起的人手中。

研究表明，大型、通用生成模型通常比小型、特定任务的系统消耗更多的能量，并且每1000次推理产生的碳排放量显著更高，即使在控制参数数量时，GPU密集型架构也会放大财务和运营障碍。随着时间的推移，这会产生瓶颈，使得初创公司、研究人员和资源匮乏的社区难以获取最先进的AI工具。

这是一个排他性的问题：GPU就像AI的私人飞机一样，它们快捷强大，但只对少数拥有大量资金的组织开放。

但是，承认这些限制并不意味着完全否定GPU。它们在某些模型类别和吞吐量模式下仍然是卓越的。CPU优先的策略并不是反对GPU，而是一种成本智能的解决方案。

这种方法扩大了获取途径，确保AI的部署是由效率驱动的，而不是由声望驱动的。与其未来由GPU独占定义，不如说CPU打开了通往可扩展、可持续和包容的AI部署的大门。

转向CPU驱动模型的必要性

如果AI经济要可持续地扩张，解决方案是重新构想如何训练和部署模型。一个方法是优先考虑高熵数据和边缘情况在训练期间。这类输入可以推动有意义的进步，并可以减少对大量数据集的需求，使得模型可以在较少的参数下运行同时保持高效率。

通过能够在商品CPU上运行，无论是在笔记本电脑、智能手机、服务器还是物联网设备上，这些模型大大降低了推理成本和能耗。它们还可以实现设备上的实时处理，减少延迟并通过保持敏感数据本地提高隐私。

这种转变不仅仅是关于成本；它也是关于公平。在医疗保健等领域，已经存在“获取鸿沟”，边缘就绪的CPU部署可以通过将先进的AI工具直接送到诊所、呼叫中心或现场设备而无需依赖稀缺的集中式计算，从而弥合这些鸿沟。结果是更广泛的采用、提高的恢复力和更为包容的AI利益分配。

从权力到获取：CPU作为AI的伟大均衡器

未来几年将不仅仅是测试谁能构建最强大的AI模型，还将测试谁能高效、可持续、规模化地交付它们。CPU优化、边缘就绪的模型提供了一条前进的道路。通过使AI能够在商品硬件上有效运行，它们降低了初创公司和研究人员的进入门槛，减少了对脆弱供应链的依赖，并将先进的应用带到了集中式GPU集群不切实际的环境中。

通过总成本每转录小时、部署评分和边缘就绪等指标来评估AI基础设施，确保解决方案不仅通过基准准确性来评估，还要通过其在现实世界中可扩展和包容地扩张的能力来评估。

风险很高。如果行业继续把GPU视为默认选择，获取将保持排他性，创新将集中，公共服务、医疗保健和欠发达地区的扩散将滞后。但如果CPU优先、边缘就绪的策略占上风，AI可以变得更加坚韧、隐私和可持续。这不仅仅是平衡竞争场，也是重新定义它。