思想领袖
人工智能计算能力的圣杯

尽管人工智能取得了令人难以置信的进步,但其能力仍然受到限制,无法满足现实世界的期望。我们构建复杂的模型,运行神经网络,并测试算法,但有时进展会在我们最不期望的地方停滞。
问题往往不在于算法或数据,而在于计算能力,即使模型能够以必要的规模学习和运行的资源。那么,这个障碍背后是什么?让我们来看看使得甚至最有前途的人工智能项目也无法离开实验室的关键资源。
计算赤字及其后果
为了理解这个话题,让我们从移动通信的历史开始。当3G和4G网络出现时,互联网已经几乎全球化。当5G被引入时,很多人问了一个很有道理的问题:“互联网会更快——但有什么意义?”
实际上,互联网速度的提高并不仅仅是为了用户的便利。它改变了整个技术格局。以前不可能的应用场景出现了。5G比4G快得多,这种飞跃不是逐渐的,就像从1G到2G的跳跃一样,而是指数级的。因此,新的应用、设备和整个技术类别都出现了。
交通信号灯、实时交通分析系统和自动交通调节机制——所有这些都成为可能,多亏了新的通信技术。警察获得了新的数据交换方式,在太空中,望远镜和卫星可以向地球传输大量信息。基础技术的质性飞跃推动了整个生态系统的发展。
同样的原理也适用于计算能力。想象一下人类的总计算能力,以假设的单位来表示。今天,我们可能有十个这样的单位。凭借这些单位,我们可以生成图像和视频、编写文本、创建营销材料……这已经很可观了,但应用范围主要是有限的。
现在,想象一下我们不仅有十个这样的单位,而是一千个单位。突然,之前由于计算成本太高而被放弃的技术变得可行了,之前由于高计算成本而被放弃的初创公司开始具有经济效益。
例如,机器人出租车。今天,它们主要依赖于安装在车辆上的相对较弱的本地计算机。然而,如果视频信号被传输到具有巨大计算资源的云端,数据可以被处理并实时返回。这一点至关重要:以100公里/小时的速度行驶的汽车必须在分数秒内做出决定——直行、转弯、刹车或不刹车。
这就是一个完全功能的机器人出租车行业变得可能的地方,不仅仅是我们今天看到的孤立解决方案。安装在汽车上的任何本地计算机都以某种方式受到限制,而连接系统则不受限制。我们可以更快地扩展它,周围的世界就会更快地改变。
进入人工智能的“金色门票”——芯片的获取
在计算能力的背景下,一个问题出现了:获取现代芯片是否正在成为进入人工智能市场的“金色门票”?签订芯片制造商合同或自己生产芯片的大型玩家是否正在为大型企业公司和其他公司之间制造差距?
这种差距只会在一种情况下出现:如果商业模式专注于将芯片仅出售给大客户。在实践中,像NVIDIA这样的制造商旨在为每个人提供云解决方案。他们的优化芯片在云中可供OpenAI和独立开发者使用。
即使像谷歌、Anthropic、微软、OpenAI、亚马逊和NVIDIA这样的公司之间的战略联盟,也主要是共享资源利用的伙伴关系,而不是尝试关闭市场。这种模式使计算能力的分配更加高效,从而加速了技术的发展。
如果我们追溯计算资源的使用链条,它始于最终用户。例如,当您使用WhatsApp进行视频通话和消息传递时,公司必须确保该服务正常运行:存储和处理数据,运行模型以清理视频,添加效果和提高图像质量。
维护专有服务器的成本很高,它们会过时,并需要不断维护。这就是为什么云解决方案出现了。市场由三家主要玩家主导:谷歌云、AWS和微软Azure。其他公司无法在这个水平上竞争:基础设施的规模太大了。
云服务是拥有冷却、电力供应和24小时维护的巨大数据中心。它们拥有来自NVIDIA、AMD和其他制造商的服务器和专用芯片,实现了大规模的计算过程。
这里我们来到了我在之前关于数据中心的专栏中讨论的关键问题,我想在这里继续讨论:这个系统的主要瓶颈是什么?是电力短缺,还是在气候使其特别具有挑战性的地区冷却数据中心的困难?实际上,秘密在于芯片本身…
圣杯
为什么NVIDIA今天的估值约为5万亿美元,并被列为世界上最成功的上市公司之一?原因很简单:NVIDIA生产训练和运行AI模型的芯片。
每个这样的芯片在训练大型模型或处理日益增长的数据量时都会消耗大量电力。但是,这种能量使用效率如何?这就是专用芯片发挥作用的地方;它们处理特定任务的效率远远高于通用GPU。
AI模型不同。例如,OpenAI有一系列模型,Anthropic有另一系列模型。概念可能相似,但数学结构和计算过程是不同的。一个通用芯片,训练OpenAI模型(如ChatGPT)和Anthropic模型(如Claude),就像“一刀切”的工具,消耗100,000小时的计算时间用于一个模型和150,000小时用于另一个模型。效率差异很大,很少是最优的。
公司通过生产专用芯片来解决这个问题。例如,一块芯片可以针对ChatGPT架构进行优化,并在20分钟内完成训练,而另一块芯片则针对Anthropic的架构进行优化,也可以在20分钟内完成训练。与通用芯片相比,能耗和训练时间大大降低。
当这些芯片被卖给大公司,如谷歌、亚马逊、微软或Azure时,它们被作为独立产品提供。用户可以选择一块针对YOLO模型优化的芯片或一块针对Xen架构的更简单、更便宜的芯片。这样,公司就可以获得专门为其任务定制的计算资源,而不是购买通用GPU。如果用户有十个不同的功能,他们可以使用十个不同的专用芯片。
趋势很明显:专用芯片正在逐渐取代通用芯片。许多初创公司现在正在使用ASIC(应用特定集成电路),即为特定计算任务设计的芯片。第一个ASIC出现在比特币挖矿中:最初,比特币是在NVIDIA的GPU上挖掘的,后来专门为比特币设计的芯片出现了,它们无法执行其他任务。
我在实践中看到这一点:相同的硬件配置可以根据任务的不同产生完全不同的结果。在我的初创公司Introspector中,我们研究这些在实际项目中的过程,并作为Keymakr的战略顾问,我观察到客户如何通过专用芯片获得效率,使模型运行速度更快。以前由于训练或推理而停滞的项目通过这种方法获得了稳定的结果。
然而,狭隘的专业化带来风险。针对Anthropic架构优化的芯片无法用于训练OpenAI模型,反之亦然。每个新架构都需要新一代硬件,这可能会导致大规模“淘汰”。如果Anthropic明天发布新架构,所有以前的芯片都变得低效或无用。生产新芯片的成本可能达到数十亿美元,并且需要数年时间。
这就产生了一个困境:我们应该生产专用芯片,仅适用于狭窄的场景,还是继续生产通用芯片,能够中等程度地解决所有任务,但在架构发生变化时不需要完全更换?
在这个背景下,效率是由三个主要参数衡量的:运行时间、电力消耗和热量产生。这些指标直接相关:系统运行时间越长,消耗的能量越多,产生的热量也越多。减少一个参数会自动改善其他两个参数。
这里就隐藏着人工智能性能的“圣杯”:如果至少一个基本的效率指标可以优化,其他指标几乎会自动改善。
可持续过程
随着专用芯片的使用量增加,过度生产的风险问题变得迫切。目前,设备的过剩已经很大,公司正在通过各种可持续方式解决这个问题,包括重用现有资源。
设备回收已经成为高科技行业可持续发展的关键要素。芯片含有大量的贵重金属、铜、铝、钯和稀土材料,以及用于微芯片和晶体管的材料。一旦设备过时,这些贵重资源就可以被回收到生产中,减少新部件的成本,同时降低行业的环境影响。
一些专门的工厂和公司专注于回收和从过时组件中提取贵重金属。例如,一些设施使用水力冶金工艺和先进的化学方法来提取金和铜,具有高纯度,使这些材料可以被回收到新芯片中。
此外,公司正在实施闭环模式,即旧设备被升级或集成到新解决方案中,从而减少了对原始资源开采的需求。这种方法不仅有助于减少浪费,还降低了生产的碳足迹,因为传统的采矿和金属加工需要大量能量。
芯片和设备的生命周期可持续管理可能会成为行业标准,在那里技术进步与环境责任相一致。












