

尽管取得了惊人的进步,但人工智能的能力与现实世界的期望相比仍然有限。我们构建复杂的模型,运行神经网络,测试算法,然而进展有时却在我们最意想不到的地方停滞不前。问题往往不在于算法或数据,而在于计算能力——这种资源使得模型能够在必要的规模上学习和运行。那么,是什么构成了这层障碍?让我们来审视这种关键资源,没有它,即使是最有前途的AI项目也无法走出实验室。算力赤字及其后果要理解这个话题,让我们从移动通信的历史说起。当3G以及后来的4G网络出现时,互联网已经几乎覆盖全球。而当5G被引入时,许多人提出了一个非常合理的问题:“互联网会更快——但那又怎样?”实际上,互联网速度的提升并不仅仅关乎用户便利。它改变了整个技术格局。以前不可能的应用场景得以出现。5G的速度远超4G,这一飞跃并非像从1G到2G那样渐进,而是指数级的。因此,新的应用、设备和整个技术类别得以诞生。交通信号灯摄像头、实时交通分析系统和自动化交通管制机制——所有这些都得益于新的通信技术而成为可能。警方获得了新的数据交换方式,在太空中,望远镜和卫星可以向地球传输海量信息。基础技术的质变推动了整个生态系统的发展。同样的原理也适用于计算能力。想象一下人类总计算能力,用假设的单位来衡量。今天,我们可能拥有,比如说,十个这样的单位。有了它们,我们可以生成图像和视频、撰写文本、创建营销材料……这已经相当可观,但应用范围主要还是有限的。现在想象一下,如果我们拥有的不是十个,而是一千个这样的单位。突然间,以前成本过高的技术变得可行,那些因高昂计算成本而被放弃的初创公司也开始在经济上变得有意义。以机器人出租车为例。今天,它们主要依赖于安装在车辆上的相对较弱的本地计算机。然而,如果视频流能够传输到拥有巨大计算资源的云端,数据就可以被实时处理并返回。这一点至关重要:一辆以100公里/小时行驶的汽车必须在几分之一秒内做出决定——直行、转弯、刹车或不刹车。到那时,一个完全成熟的机器人出租车产业才成为可能,而不仅仅是像我们今天看到的孤立解决方案。任何安装在汽车上的本地计算机,其固有的局限性是联网系统所没有的。我们扩展它的速度越快,我们周围的世界变化得就越快。芯片获取与AI领域的“金票”在计算能力的背景下,问题出现了:获取现代芯片是否正在成为进入AI市场的“金票”?那些与芯片制造商签订合同或自行生产的大型参与者,是否正在大型企业公司与所有其他公司之间制造鸿沟?这种鸿沟只会在一种情况下出现:如果商业模式完全专注于向大客户销售芯片。实际上,像NVIDIA这样的制造商旨在为所有人提供云解决方案。他们优化的芯片在云端对OpenAI和独立开发者都是可用的。即使是像Google、Anthropic、Microsoft、OpenAI、Amazon和NVIDIA这样的公司之间的战略联盟,也主要是为了共享资源利用的合作伙伴关系,而不是试图封锁市场。这种模式能够实现计算能力的高效分配,从而加速技术发展。如果我们追溯计算资源的使用链条,它始于最终用户。例如,当你使用WhatsApp进行视频通话和发送消息时,公司必须确保服务正常运行:存储和处理数据,运行用于视频清理、添加效果和提高图像质量的模型。维护自有服务器成本高昂,它们会过时,并且需要持续维护。这就是为什么云解决方案,“云端”,应运而生。市场由三大参与者主导:Google Cloud、AWS和Microsoft Azure。其他公司无法在这个层面竞争:基础设施的规模过于庞大。云服务是拥有冷却、供电和全天候维护的大型数据中心。它们容纳着来自NVIDIA、AMD和其他制造商的服务器和专用芯片,从而实现大规模的计算过程。在这里,我们来到了我在之前关于数据中心的专栏中讨论过,并想在此继续的关键问题:这个系统中的主要瓶颈是什么?是电力短缺,还是在气候使其尤其具有挑战性的地区冷却数据中心的困难?实际上,秘密在于芯片本身……圣杯为什么NVIDIA今天的估值约为5万亿美元,并被认为是全球最成功的上市公司之一?原因很简单:NVIDIA生产用于训练AI模型和进行推理的芯片。在训练大型模型或处理不断增长的数据量时,这些芯片中的每一个都消耗着巨大的电力。但是,这些能源的使用效率如何?这就是专用芯片发挥作用的地方;它们处理特定任务的效率远高于通用GPU。AI模型各不相同。例如,OpenAI有一个模型家族,Anthropic有另一个。概念可能相似,但数学结构和计算过程是不同的。一个单一的通用芯片,在训练OpenAI模型(如ChatGPT)与Anthropic模型(如Claude)时,就像一个“一刀切”的工具,可能为一个模型消耗10万小时计算,为另一个消耗15万小时。效率差异显著,且很少达到最优。公司通过生产专用芯片来解决这个问题。例如,一个芯片可以针对ChatGPT架构进行优化,在,比如说,20分钟内完成训练,而另一个则针对Anthropic的架构量身定制,同样在20分钟内完成训练。与通用芯片相比,能耗和训练时间都减少了数倍。当这些芯片销售给大公司,如Google、Amazon、Microsoft或Azure时,它们是作为独立产品提供的。用户可以选择,例如,一个针对YOLO模型优化的芯片,或者一个更简单、更便宜的针对Xen架构的芯片。这样,公司就能获得精确针对其任务的计算资源,而不是购买通用GPU。如果用户有十个不同的功能,他们可以使用十个不同的专用芯片。趋势很明显:专用芯片正在逐步取代通用芯片。许多初创公司现在使用ASIC(专用集成电路),即专为特定计算任务设计的芯片。第一批ASIC是为比特币挖矿而出现的:最初,加密货币是在NVIDIA GPU上挖矿的,然后出现了专为比特币设计的芯片,这些芯片无法执行其他任务。我在实践中看到了这一点:相同的硬件配置,根据任务的不同,可能产生完全不同的结果。在我的初创公司Introspector中,我们在实际项目中研究这些过程,并且作为Keymakr的战略顾问,我观察到客户如何从专用芯片中获得效率,使模型运行得更快。那些之前在训练或推理阶段停滞的项目,通过这种方法达到了稳定的结果。然而,狭窄的专业化也带来了风险。一个针对Anthropic架构优化的芯片无法用于训练OpenAI模型,反之亦然。每个新架构都需要新一代硬件,这带来了大规模“淘汰”的风险。如果Anthropic明天发布一个新架构,所有前一代芯片都会变得低效或无用。生产新芯片需要花费数十亿美元,并且可能需要数年时间。这就产生了一个困境:我们是应该制造在狭窄场景下完美工作的专用芯片,还是继续生产能解决所有任务但表现平平、在架构改变时无需完全更换的通用芯片?在此背景下,效率由三个主要参数衡量:运行时间、电力消耗和热量产生。这些指标直接相关:系统运行时间越长,消耗的能量就越多,产生的热量也越多。减少一个参数会自动改善另外两个。这里就存在着AI性能的“圣杯”:如果至少一个基本的效率指标能够得到优化,其他指标几乎也会自动得到改善。可持续进程随着专用芯片使用的增长,产能过剩风险的问题变得紧迫。目前,设备的过剩已经相当显著,公司正通过各种可持续的方式解决这个问题,包括对现有资源的再利用。设备回收已成为高科技行业可持续发展的关键要素。芯片含有大量的贵金属和贱金属、金、铜、铝、钯和稀土材料,以及用于微芯片和晶体管的材料。一旦设备过时,这些宝贵的资源可以重新投入生产,从而降低新组件的成本,同时减少行业的环境足迹。一些专门的工厂和公司专注于回收和从过时组件中提取贵金属。例如,一些设施使用湿法冶金工艺和先进的化学方法提取高纯度的金和铜,使这些材料能够重新用于新芯片。此外,公司正在实施闭环模式,将旧设备升级或集成到新的解决方案中,从而减少对初级资源开采的需求。这种方法不仅有助于最大限度地减少浪费,还能降低生产的碳足迹,因为传统的采矿和金属加工需要大量能源。对芯片和设备生命周期的可持续管理可能成为行业标准,使技术进步与环境责任保持一致。


几年前,数据中心似乎还是一种纯粹技术性且隐形的存在——深藏在后端的基础设施,很少在专业圈子之外被讨论。但AI的爆炸式增长彻底改变了这一图景。如今,数据中心已成为数字经济的新“油井”:一个战略资产,围绕它正构建着数十亿美元的投资、政府政策和企业战略。最近的新闻证实了这一点。Anthropic 宣布在美国建造自己的数据中心,耗资500亿美元,这一数字堪比大型能源超级项目的预算。几乎同时,X.AI和Nvidia在沙特阿拉伯披露了一个联合项目,这是该地区最大的数据中心之一。为何数据中心的话题变得如此全球化?为何主要参与者正从纯粹的云模式转向,并投入数百亿资金建设自有容量?这种转变又如何影响AI架构、能源系统、地缘政治,以及从北极到太空数据中心等替代模式的兴起?这正是下文专栏探讨的内容。全球对拥有数据中心兴趣的激增当计算资源消耗以每年数百万美元计时,租用云服务器确实更具成本效益:企业无需建造和维护建筑、支付电力和冷却费用、购买设备或定期升级。但当支出达到数百亿美元时,逻辑就变了。到那时,建造自己的数据中心、雇佣工程师、购买设备并根据特定需求优化基础设施变得更具成本效益。公司不再为云提供商的利润空间支付溢价,并且获得了对计算成本和效率更大的控制权。这就是为什么建造私有数据中心的趋势对像OpenAI或Anthropic这样的巨头最为相关,这些公司的需求如此之大,以至于云服务在经济上不再合理。同时,重要的是要理解“数据中心”的概念是多层次的。对某些公司来说,它主要是数据存储设施、磁盘、数据库和用户信息。对另一些公司来说,它也是一个计算中心:运行着GPT、Claude或LLaMA等模型的服务器,同时存储数据并执行复杂操作。本质上,今天的数据中心是一个容纳数千台专用计算机的巨大技术“仓库”。对AI容量的需求越高,这个“仓库”就越具有战略意义和争议性,这就是为什么现在讨论数据中心的不仅是工程师,还有投资者、政策制定者和高管。建设AI数据中心:速度与质量,孰轻孰重?实际上,建设速度或数据中心形式上的“质量”都不是主要驱动力。大公司投资自有基础设施是为了降低成本并获得对计算的最大控制权。模型本身的质量对顶级参与者的关注度远低于人们的想象。原因很简单:市场领导者之间的质量差距微乎其微。这很像汽车行业:大众、丰田、本田——各不相同,但没有一家能遥遥领先到垄断市场。每家都保持着自己稳定的份额。AI市场遵循着类似的逻辑。高级用户已经同时使用多个模型:一个用于编程,另一个用于文本生成,第三个用于分析或搜索。企业客户也是如此。例如,像Grammarly这样的服务根本没有自己的模型。他们从多个提供商(Anthropic、OpenAI、Meta)购买令牌。当请求到来时,系统自动选择提供商:当前更便宜、更快或更准确的那个。如果是英文文本——就交给GPT;如果是印地语——交给Claude;如果LLaMA目前费率最低——就交给它。这本质上是一种类似证券交易所的负载分配模型。在与Keymakr的企业客户交流中,我越来越多地看到同样的趋势:大公司早已放弃了“一个模型 – 一个提供商”的方法。他们构建多模型管道,请求根据成本、延迟或语言特性在不同AI系统之间路由。然而,这种架构对数据提出了更高的要求,特别是其清洁度、标注、验证和一致性。从这个意义上说,数据基础设施变得与数据中心本身一样具有战略意义:没有高质量的输入,多模型系统根本无法工作。最终,在这种架构中,模型质量只是众多参数之一。关键在