AI算力的圣杯
尽管取得了惊人的进步,但人工智能的能力与现实世界的期望相比仍然有限。我们构建复杂的模型,运行神经网络,测试算法,然而进展有时却在我们最意想不到的地方停滞不前。问题往往不在于算法或数据,而在于计算能力——这种资源使得模型能够在必要的规模上学习和运行。那么,是什么构成了这层障碍?让我们来审视这种关键资源,没有它,即使是最有前途的AI项目也无法走出实验室。算力赤字及其后果要理解这个话题,让我们从移动通信的历史说起。当3G以及后来的4G网络出现时,互联网已经几乎覆盖全球。而当5G被引入时,许多人提出了一个非常合理的问题:“互联网会更快——但那又怎样?”实际上,互联网速度的提升并不仅仅关乎用户便利。它改变了整个技术格局。以前不可能的应用场景得以出现。5G的速度远超4G,这一飞跃并非像从1G到2G那样渐进,而是指数级的。因此,新的应用、设备和整个技术类别得以诞生。交通信号灯摄像头、实时交通分析系统和自动化交通管制机制——所有这些都得益于新的通信技术而成为可能。警方获得了新的数据交换方式,在太空中,望远镜和卫星可以向地球传输海量信息。基础技术的质变推动了整个生态系统的发展。同样的原理也适用于计算能力。想象一下人类总计算能力,用假设的单位来衡量。今天,我们可能拥有,比如说,十个这样的单位。有了它们,我们可以生成图像和视频、撰写文本、创建营销材料……这已经相当可观,但应用范围主要还是有限的。现在想象一下,如果我们拥有的不是十个,而是一千个这样的单位。突然间,以前成本过高的技术变得可行,那些因高昂计算成本而被放弃的初创公司也开始在经济上变得有意义。以机器人出租车为例。今天,它们主要依赖于安装在车辆上的相对较弱的本地计算机。然而,如果视频流能够传输到拥有巨大计算资源的云端,数据就可以被实时处理并返回。这一点至关重要:一辆以100公里/小时行驶的汽车必须在几分之一秒内做出决定——直行、转弯、刹车或不刹车。到那时,一个完全成熟的机器人出租车产业才成为可能,而不仅仅是像我们今天看到的孤立解决方案。任何安装在汽车上的本地计算机,其固有的局限性是联网系统所没有的。我们扩展它的速度越快,我们周围的世界变化得就越快。芯片获取与AI领域的“金票”在计算能力的背景下,问题出现了:获取现代芯片是否正在成为进入AI市场的“金票”?那些与芯片制造商签订合同或自行生产的大型参与者,是否正在大型企业公司与所有其他公司之间制造鸿沟?这种鸿沟只会在一种情况下出现:如果商业模式完全专注于向大客户销售芯片。实际上,像NVIDIA这样的制造商旨在为所有人提供云解决方案。他们优化的芯片在云端对OpenAI和独立开发者都是可用的。即使是像Google、Anthropic、Microsoft、OpenAI、Amazon和NVIDIA这样的公司之间的战略联盟,也主要是为了共享资源利用的合作伙伴关系,而不是试图封锁市场。这种模式能够实现计算能力的高效分配,从而加速技术发展。如果我们追溯计算资源的使用链条,它始于最终用户。例如,当你使用WhatsApp进行视频通话和发送消息时,公司必须确保服务正常运行:存储和处理数据,运行用于视频清理、添加效果和提高图像质量的模型。维护自有服务器成本高昂,它们会过时,并且需要持续维护。这就是为什么云解决方案,“云端”,应运而生。市场由三大参与者主导:Google Cloud、AWS和Microsoft Azure。其他公司无法在这个层面竞争:基础设施的规模过于庞大。云服务是拥有冷却、供电和全天候维护的大型数据中心。它们容纳着来自NVIDIA、AMD和其他制造商的服务器和专用芯片,从而实现大规模的计算过程。在这里,我们来到了我在之前关于数据中心的专栏中讨论过,并想在此继续的关键问题:这个系统中的主要瓶颈是什么?是电力短缺,还是在气候使其尤其具有挑战性的地区冷却数据中心的困难?实际上,秘密在于芯片本身……圣杯为什么NVIDIA今天的估值约为5万亿美元,并被认为是全球最成功的上市公司之一?原因很简单:NVIDIA生产用于训练AI模型和进行推理的芯片。在训练大型模型或处理不断增长的数据量时,这些芯片中的每一个都消耗着巨大的电力。但是,这些能源的使用效率如何?这就是专用芯片发挥作用的地方;它们处理特定任务的效率远高于通用GPU。AI模型各不相同。例如,OpenAI有一个模型家族,Anthropic有另一个。概念可能相似,但数学结构和计算过程是不同的。一个单一的通用芯片,在训练OpenAI模型(如ChatGPT)与Anthropic模型(如Claude)时,就像一个“一刀切”的工具,可能为一个模型消耗10万小时计算,为另一个消耗15万小时。效率差异显著,且很少达到最优。公司通过生产专用芯片来解决这个问题。例如,一个芯片可以针对ChatGPT架构进行优化,在,比如说,20分钟内完成训练,而另一个则针对Anthropic的架构量身定制,同样在20分钟内完成训练。与通用芯片相比,能耗和训练时间都减少了数倍。当这些芯片销售给大公司,如Google、Amazon、Microsoft或Azure时,它们是作为独立产品提供的。用户可以选择,例如,一个针对YOLO模型优化的芯片,或者一个更简单、更便宜的针对Xen架构的芯片。这样,公司就能获得精确针对其任务的计算资源,而不是购买通用GPU。如果用户有十个不同的功能,他们可以使用十个不同的专用芯片。趋势很明显:专用芯片正在逐步取代通用芯片。许多初创公司现在使用ASIC(专用集成电路),即专为特定计算任务设计的芯片。第一批ASIC是为比特币挖矿而出现的:最初,加密货币是在NVIDIA GPU上挖矿的,然后出现了专为比特币设计的芯片,这些芯片无法执行其他任务。我在实践中看到了这一点:相同的硬件配置,根据任务的不同,可能产生完全不同的结果。在我的初创公司Introspector中,我们在实际项目中研究这些过程,并且作为Keymakr的战略顾问,我观察到客户如何从专用芯片中获得效率,使模型运行得更快。那些之前在训练或推理阶段停滞的项目,通过这种方法达到了稳定的结果。然而,狭窄的专业化也带来了风险。一个针对Anthropic架构优化的芯片无法用于训练OpenAI模型,反之亦然。每个新架构都需要新一代硬件,这带来了大规模“淘汰”的风险。如果Anthropic明天发布一个新架构,所有前一代芯片都会变得低效或无用。生产新芯片需要花费数十亿美元,并且可能需要数年时间。这就产生了一个困境:我们是应该制造在狭窄场景下完美工作的专用芯片,还是继续生产能解决所有任务但表现平平、在架构改变时无需完全更换的通用芯片?在此背景下,效率由三个主要参数衡量:运行时间、电力消耗和热量产生。这些指标直接相关:系统运行时间越长,消耗的能量就越多,产生的热量也越多。减少一个参数会自动改善另外两个。这里就存在着AI性能的“圣杯”:如果至少一个基本的效率指标能够得到优化,其他指标几乎也会自动得到改善。可持续进程随着专用芯片使用的增长,产能过剩风险的问题变得紧迫。目前,设备的过剩已经相当显著,公司正通过各种可持续的方式解决这个问题,包括对现有资源的再利用。设备回收已成为高科技行业可持续发展的关键要素。芯片含有大量的贵金属和贱金属、金、铜、铝、钯和稀土材料,以及用于微芯片和晶体管的材料。一旦设备过时,这些宝贵的资源可以重新投入生产,从而降低新组件的成本,同时减少行业的环境足迹。一些专门的工厂和公司专注于回收和从过时组件中提取贵金属。例如,一些设施使用湿法冶金工艺和先进的化学方法提取高纯度的金和铜,使这些材料能够重新用于新芯片。此外,公司正在实施闭环模式,将旧设备升级或集成到新的解决方案中,从而减少对初级资源开采的需求。这种方法不仅有助于最大限度地减少浪费,还能降低生产的碳足迹,因为传统的采矿和金属加工需要大量能源。对芯片和设备生命周期的可持续管理可能成为行业标准,使技术进步与环境责任保持一致。