人工智能

利用硅技术:内部芯片如何塑造人工智能的未来

mm

人工智能,如同其他软件一样,依赖于两个基本组件:人工智能程序(通常被称为模型)和驱动这些程序的计算硬件(或芯片)。到目前为止,人工智能开发的重点一直在于完善模型,而硬件通常被视为第三方供应商提供的标准组件。然而,最近这种方法开始发生变化。谷歌、Meta和亚马逊等主要人工智能公司已经开始开发自己的人工智能芯片。内部定制人工智能芯片的开发标志着人工智能发展的新时代。本文将探讨这种方法转变的原因,并将强调这一不断发展领域的最新发展。

为什么内部开发人工智能芯片?

向内部开发定制人工智能芯片的转变是由几个关键因素驱动的,包括:

人工智能芯片的日益增长的需求

创建和使用人工智能模型需要大量的计算资源来有效地处理大量数据并生成精确的预测或见解。传统的计算机芯片无法处理训练数万亿数据点时的计算需求。这一限制导致了专门为满足现代人工智能应用的高性能和效率要求而设计的尖端人工智能芯片的诞生。随着人工智能研究和开发的不断增长,对这些专用芯片的需求也在增长。

Nvidia,一家领先的高级人工智能芯片制造商,远远领先于其竞争对手,但由于需求远远超过其制造能力,因此面临挑战。这一情况导致了Nvidia的AI芯片等待名单延长到几个月,这一延迟随着对其AI芯片的需求激增而持续增长。此外,芯片市场,包括Nvidia和Intel等主要玩家,在芯片生产中面临挑战。这一问题源于他们对台湾制造商台积电(TSMC)进行芯片组装的依赖。这一对单一制造商的依赖导致了制造这些先进芯片的延长交货期。

使人工智能计算变得节能和可持续

当前一代人工智能芯片,由于被设计用于重型计算任务,往往消耗大量电力,并产生大量热量。这导致了训练和使用人工智能模型的重大环境影响。OpenAI研究人员指出:自2012年以来,训练先进人工智能模型所需的计算能力每3.4个月就增加了一倍,表明到2040年,信息和通信技术(ICT)部门的排放量可能占全球排放量的14%。另一项研究显示,训练一个大规模语言模型可以排放多达284,000公斤的二氧化碳,这大约相当于五辆汽车在其整个生命周期中的能耗。此外,据估计,数据中心的能耗将在2030年之前增长28%。这些发现强调了在人工智能开发和环境责任之间找到平衡的必要性。作为回应,许多人工智能公司现在正在投资开发更节能的芯片,旨在使人工智能训练和操作更加可持续和环保。

为专用任务定制芯片

不同的人工智能过程具有不同的计算需求。例如,训练深度学习模型需要大量的计算能力和高吞吐量来处理大型数据集并快速执行复杂的计算。为训练而设计的芯片旨在增强这些操作,提高速度和效率。另一方面,推理过程,即模型应用其学习到的知识进行预测,需要快速处理和最小化能耗,特别是在边缘设备(如智能手机和物联网设备)中。为推理而设计的芯片旨在优化每瓦特的性能,确保快速响应和电池保护。这种为训练和推理任务定制芯片设计的方法允许每个芯片根据其预期角色进行精确调整,提高不同设备和应用中的性能。这种专业化不仅支持更强大的人工智能功能,还促进了更大的能效和成本效益。

降低财务负担

人工智能模型训练和操作的计算成本仍然很高。例如,OpenAI使用Microsoft创建的庞大超级计算机,自2020年以来用于训练和推理。训练其GPT-3模型花费OpenAI大约1200万美元,而训练GPT-4的成本飙升至1亿美元。根据SemiAnalysis的一份报告,OpenAI需要大约3617台HGX A100服务器,总共28936个GPU来支持ChatGPT,每个查询的平均成本约为0.36美元。考虑到这些高昂的成本,OpenAI的CEO Sam Altman据报道正在寻求大量投资,以建立全球人工智能芯片生产设施的网络,根据彭博社的一份报告

掌握控制和创新

第三方人工智能芯片通常带有限制。依赖这些芯片的公司可能会发现自己受到标准解决方案的限制,这些解决方案不能完全满足他们独特的人工智能模型或应用程序的需求。内部芯片开发允许根据特定用例进行定制。无论是用于自动驾驶汽车还是移动设备,控制硬件使公司能够充分利用其人工智能算法。定制芯片可以增强特定任务,减少延迟并提高整体性能。

人工智能芯片开发的最新进展

本节深入探讨谷歌、Meta和亚马逊在构建人工智能芯片技术方面的最新进展。

谷歌的Axion处理器

谷歌自2015年推出张量处理单元(TPU)以来,在人工智能芯片技术领域取得了稳定的进展。基于这一基础,谷歌最近推出了Axion处理器,这是一款专门为数据中心和人工智能工作负载设计的定制CPU。这些处理器基于Arm架构,以其效率和紧凑的设计而闻名。Axion处理器旨在提高CPU 기반人工智能训练和推理的效率,同时保持能效。这一进展也标志着对各种通用工作负载(包括Web和应用服务器、容器化微服务、开源数据库、内存缓存、数据分析引擎、媒体处理等)的性能取得了显著改善。

Meta的MTIA

Meta正在推进人工智能芯片技术的发展,推出了Meta训练和推理加速器(MTIA)。该工具旨在提高训练和推理过程的效率,特别是对于排名和推荐算法。最近,Meta概述了MTIA如何成为其加强人工智能基础设施(超越GPU)的战略计划的一部分。最初计划于2025年推出,Meta已经将MTIA的两个版本投入生产,表明其芯片开发计划的步伐更快。虽然MTIA目前专注于训练某些类型的算法,但Meta旨在将其用途扩展到包括训练生成性人工智能(如其Llama语言模型)的训练。

亚马逊的Trainium和Inferentia

自2013年推出其定制的Nitro芯片以来,亚马逊已经显著扩展了其人工智能芯片开发。该公司最近推出了两款创新的人工智能芯片,TrainiumInferentia。Trainium专门设计用于增强人工智能模型训练,并将被集成到EC2 UltraClusters中。这些集群可以容纳多达100,000个芯片,针对以节能方式训练基础模型和大型语言模型进行优化。Inferentia另一方面,则针对推理任务进行优化,在这些任务中,人工智能模型被积极应用,重点是降低推理期间的延迟和成本,以更好地满足数百万用户与人工智能服务交互的需求。

结论

像谷歌、微软和亚马逊这样的主要公司转向内部开发定制人工智能芯片,反映了解决人工智能技术日益增长的计算需求的战略转变。这一趋势强调了需要专门为高效支持人工智能模型而设计的解决方案的必要性,满足这些先进系统的独特需求。随着对人工智能芯片的需求持续增长,行业领先者如Nvidia可能会看到其市场价值显著增加,凸显了定制芯片在推动人工智能创新方面的重要作用。通过创建自己的芯片,这些科技巨头不仅提高了其人工智能系统的性能和效率,还促进了人工智能领域更加可持续和经济的未来。这一演变为该行业设定了新的标准,推动了技术进步和在快速变化的全球市场中的竞争优势。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。