思想领袖
人工智能计算能力的圣杯

尽管取得了令人难以置信的进展,人工智能的能力仍然受到限制,无法满足现实世界的期望。我们构建复杂的模型,运行神经网络,并测试算法,但有时进展会在我们最不期望的地方停滞。
问题往往不在于算法或数据,而在于计算能力,这是使模型能够以必要的规模学习和运行的资源。那么,这个障碍背后是什么?让我们来看看没有哪怕是最有前途的人工智能项目也无法离开实验室的关键资源。
计算赤字及其后果
为了理解这个话题,让我们从移动通信的历史开始。当3G和后来的4G网络出现时,互联网已经几乎遍布全球。当5G被引入时,很多人问了一个完全合理的问题:“互联网会更快——但这有什么关系?”
实际上,互联网速度的提高并不仅仅是为了用户的便利。它改变了整个技术格局。以前不可能的用例出现了。5G被证明比4G快得多,这一飞跃不是像从1G到2G的渐进式跳跃,而是一种指数级的飞跃。因此,新的应用程序、设备和整个技术类别都出现了。
交通信号灯摄像头、实时交通分析系统和自动交通调节机制——所有这些都成为可能,多亏了新的通信技术。警察获得了新的数据交换方式,在太空中,望远镜和卫星可以向地球传输大量信息。基础技术的质性飞跃推动了整个生态系统的发展。
同样的原理也适用于计算能力。想象一下人类总共拥有的计算能力,以假设的单位来衡量。今天,我们可能拥有十个这样的单位。有了它们,我们可以生成图像和视频、编写文本、创建营销材料……这已经是很了不起的,但应用范围主要是有限的。
现在,想象一下我们有不仅仅是十个这样的单位,而是一千个这样的单位。突然,之前由于计算成本太高而不可行的技术变得可行了,之前由于高计算成本而被放弃的创业公司开始具有经济意义。
以机器人出租车为例。今天,它们主要依赖于安装在车辆上的相对较弱的本地计算机。但是,如果视频信号被传输到云端拥有巨大计算资源的服务器,数据可以被实时处理和返回。这是至关重要的:一辆以100公里/小时的速度行驶的汽车必须在几分之一秒内做出决定——直行、转弯、刹车或不刹车。
这时,一个完全功能的机器人出租车行业变得可能,不仅仅是我们今天看到的孤立解决方案。安装在汽车上的任何本地计算机都以某种方式受到限制,而连接系统则不受这种限制。我们可以更快地扩大规模,世界就会随之改变得更快。
芯片的获取和人工智能中的“金色门票”
在计算能力的背景下,问题出现了:获取现代芯片是否正在成为进入人工智能市场的“金色门票”?签订芯片制造商合同或自己生产芯片的大公司是否正在与其他公司创造差距?
这种差距只会在一种情况下出现:如果商业模式专注于将芯片仅出售给大客户。在实践中,像NVIDIA这样的制造商旨在为每个人提供云解决方案。他们的优化芯片可在云中供OpenAI和独立开发者使用。
像Google、Anthropic、Microsoft、OpenAI、Amazon和NVIDIA之间的战略联盟主要是共享资源利用的合作伙伴关系,而不是试图关闭市场。这种模式实现了计算能力的高效分配,从而加速了技术发展。
如果我们追踪计算资源的使用链条,它始于最终用户。例如,当您使用WhatsApp进行视频通话和消息传递时,公司必须确保服务正常运行:存储和处理数据,运行模型进行视频清理,添加效果和提高图像质量。
维护专有服务器很昂贵,它们会过时,需要不断维护。这就是为什么云解决方案出现了。“云”由三家主要玩家主导:Google Cloud、AWS和Microsoft Azure。其他公司无法在这个水平上竞争:基础设施的规模太大了。
云服务是拥有冷却、电力供应和24小时维护的大型数据中心。它们包含来自NVIDIA、AMD和其他制造商的服务器和专用芯片,实现了大规模的计算过程。
这里出现了我在之前关于数据中心的专栏中讨论的关键问题,我想在这里继续讨论:这个系统的主要瓶颈是什么?是电力短缺,还是在气候使其特别具有挑战性的地区冷却数据中心的困难?实际上,秘密就在芯片本身……
圣杯
为什么NVIDIA今天的估值约为5万亿美元,并被列为世界上最成功的上市公司之一?原因很简单:NVIDIA生产用于训练和运行人工智能模型的芯片。
每个这样的芯片在训练大型模型或处理日益增长的数据量时都会消耗大量电力。但是,这种能量被使用的效率如何?这就是专用芯片发挥作用的地方;它们处理特定任务的效率远远高于通用GPU。
人工智能模型各不相同。例如,OpenAI有一系列模型,Anthropic有另一系列模型。概念可能相似,但数学结构和计算过程是不同的。一个通用芯片,在训练OpenAI模型(如ChatGPT)和Anthropic模型(如Claude)时,会像“一刀切”的工具,消耗100,000小时的计算时间用于一个模型,150,000小时用于另一个模型。效率差异很大,很少是最优的。
公司通过生产专用芯片来解决这个问题。例如,一块芯片可以针对ChatGPT架构进行优化,并在20分钟内完成训练,而另一块芯片可以针对Anthropic的架构进行优化,也可以在20分钟内完成训练。与通用芯片相比,能耗和训练时间减少了多倍。
当这些芯片被卖给大公司,如Google、Amazon、Microsoft或Azure时,它们被作为独立产品提供。用户可以选择,例如,一块针对YOLO模型优化的芯片或一块针对Xen架构的更简单、更便宜的芯片。这样,公司就可以获得针对其任务的计算资源,而不是购买通用GPU。如果用户有十个不同的功能,他们可以使用十个不同的专用芯片。
趋势很明显:专用芯片正在逐渐取代通用芯片。许多初创公司现在正在使用ASIC(应用特定集成电路),即为特定计算任务设计的芯片。第一个ASIC出现在比特币挖矿中:最初,比特币是在NVIDIA GPU上挖掘的,然后专门为比特币设计的芯片出现了,它们无法执行其他任务。
我在实践中看到这一点:相同的硬件配置可以根据任务的不同产生完全不同的结果。在我的初创公司Introspector中,我们研究这些过程,并在实际项目中观察到这一点。作为Keymakr的战略顾问,我看到客户如何从专用芯片中获得效率,从而使模型运行得更快。之前由于训练或推理而停滞的项目通过这种方法达到了稳定的结果。
然而,狭隘的专业化带来了风险。针对Anthropic架构优化的芯片无法用于训练OpenAI模型,反之亦然。每个新架构都需要新一代硬件,这会产生大规模“废弃”的风险。如果Anthropic明天发布了一种新架构,所有以前的芯片都会变得低效或无用。生产新芯片的成本可能达到数十亿美元,并且需要数年时间。
这就产生了一个困境:我们应该制作专用芯片,它们在狭窄的场景中完美工作,还是继续生产可以一般性地解决所有任务但不需要在架构更改时完全更换的通用芯片?
在这个背景下,效率由三个主要参数衡量:运行时间、电力消耗和热量产生。这些指标直接相关:系统运行时间越长,消耗的能量越多,产生的热量也越多。减少一个参数会自动改善其他两个参数。
这里就隐藏着人工智能性能的“圣杯”:如果至少可以优化一个基本的效率指标,其他指标几乎会自动改善。
可持续过程
随着专用芯片的使用增加,过度生产的风险问题变得迫切。目前,设备的过剩已经很显著,公司正在通过各种可持续的方式来解决这个问题,包括重用现有的资源。
设备回收已经成为高科技行业可持续发展的关键要素。芯片含有大量的贵重金属和基金属,如金、铜、铝、钯和稀土材料,以及用于微芯片和晶体管的材料。一旦设备过时,这些有价值的资源就可以被回收到生产中,减少新组件的成本,同时降低行业的环境影响。
一些专门的工厂和公司专注于从过时的组件中回收和提取贵重金属。例如,一些设施使用水力冶金工艺和先进的化学方法来提取金和铜,具有高纯度,使这些材料可以被用于新的芯片中。
此外,公司正在实施闭环模式,即旧设备被升级或集成到新的解决方案中,从而减少了对原始资源提取的需求。这种方法不仅有助于最小化浪费,还降低了生产的碳足迹,因为传统的采矿和金属加工需要大量的能量。
芯片和设备的生命周期可持续管理可能成为行业标准,在那里技术进步与环境责任相一致。












