Anderson 视角
限制机器学习日益增长的能耗需求

近年来,人们越来越担心大型机器学习模型的能耗需求。来自MIT林肯实验室和东北大学的一项最新研究调查了通过对模型训练和推理中使用的GPU进行限电,以及其他减少AI能耗的技术和方法可以带来的节能效果。
这项新研究还呼吁新的AI论文在结尾处加入“能耗声明”(类似于机器学习研究领域近期流行的“伦理影响声明”)。
该研究的主要建议是,限电(限制训练模型的GPU的可用电力)可以带来显著的能耗节约,特别是对于掩码语言模型(MLM)和BERT等框架及其衍生品。

三个语言建模网络在默认250W设置(黑线)的百分比下运行的功耗。限制功耗不会在1:1的基础上限制训练效率或准确性,并且在大规模上提供了显著的能耗节约。来源:https://arxiv.org/pdf/2205.09646.pdf
对于更大规模的模型,近年来由于超大规模数据集和具有数十亿或数万亿参数的新模型而引起了人们的关注,类似的节能效果可以通过在训练时间和能耗之间进行权衡而获得。

在150W功耗限制下大规模训练更强大的NLP模型。蓝色表示150W限制下的平均相对时间,橙色表示150W下的平均相对能耗。
对于这些更大规模的部署,研究人员发现,150W的功耗限制与默认的250W最大功耗相比,平均能耗降低了13.7%,训练时间增加了6.8%。
此外,研究人员指出,尽管近年来模型训练成本引起了人们的关注,但实际使用训练好的模型的能耗却远远高于训练成本。
‘对于语言建模,特别是使用BERT,推理时的能耗节约远远大于训练时。如果这一点对其他AI应用也成立,那么这将对大规模或云计算平台的能耗产生重大影响。’
此外,论文建议将大型机器学习模型的训练安排在较冷的月份和夜间,以节约冷却成本。

上图为2020年每日PUE统计,下图为一周内每小时PUE的平均变化,能耗在中午时分增加,因为GPU内部冷却硬件和数据中心环境冷却都难以维持可行的温度。
作者指出:
‘显然,NLP工作负载在夏季通常比在冬季执行的工作负载效率低得多。考虑到季节变化很大,如果可以将计算密集型实验安排在较凉爽的月份,这将显著减少碳足迹。’
该论文还承认,通过剪枝和优化模型架构和工作流程可以实现的能耗节约潜力,但将进一步开发留给其他计划。
最后,作者建议,机器学习领域的新科学论文应该鼓励或要求在结尾处加入声明,说明研究中使用的能耗以及采纳研究中建议的计划的潜在能耗影响。

论文以身作则,解释了其自身研究的能耗影响。
该论文题为《巨大的力量,巨大的责任:减少语言模型训练能耗的建议》,由六位来自MIT林肯实验室和东北大学的研究人员共同撰写。
机器学习的能耗问题
随着机器学习模型的计算需求增加,当前的ML文化将能耗与性能提升等同起来,尽管有一些值得注意的倡导者,如Andrew Ng,认为数据策划可能是一个更重要的因素。
在2020年的一项关键MIT合作研究中,估计模型性能提高十倍需要计算需求增加十万倍,并且需要相应数量的能耗。
因此,研究人员对更节能的ML训练方法的研究增加了。该论文的作者声称,这是首次对限电对机器学习训练和推理的影响进行深入研究,重点关注NLP框架(如GPT系列)。
由于推理质量是一个至关重要的问题,作者在开始时指出:
‘这种方法不会影响训练模型的预测或其在任务中的性能准确性。也就是说,如果两个具有相同结构、初始值和批处理数据的网络在相同的批次数下以不同的限电训练,得到的参数将是相同的,只有能耗可能会有所不同。’
减少NLP的能耗
为了评估限电对训练和推理的影响,作者使用了nvidia-smi(系统管理接口)命令行实用程序和HuggingFace的MLM库。
作者训练了自然语言处理模型BERT、DistilBERT和Big Bird,并监测了它们在训练和部署中的能耗。
模型在DeepAI的WikiText-103数据集上训练了4个epoch,批次大小为8,使用16个V100 GPU,并应用了四个不同的限电:100W、150W、200W和250W(默认或基准值,用于NVIDIA V100 GPU)。模型具有从头开始训练的参数和随机初始化值,以确保可比训练评估。
如上图所示,结果表明在非线性、有利的训练时间增加中实现了良好的能耗节约。作者指出:
‘我们的实验表明,实施限电可以显著减少能耗,但会增加训练时间。’
瘦身“大型NLP”
接下来,作者将相同的方法应用于一个更具挑战性的场景:在多个GPU上分布式训练BERT和MLM——这是一个更典型的FAANG NLP模型的使用场景。
该实验的主要区别在于,一个模型可能使用2-400个GPU进行训练实例。应用了相同的限电约束,使用了相同的任务(WikiText-103)。请参见上图中的结果图表。
该论文指出:
‘平均而言,150W的限电可以带来13.7%的能耗降低和6.8%的训练时间增加,相比之下100W的设置会导致训练时间大大增加(平均增加31.4%)。200W的限制与250W的限制相比,训练时间几乎相同,但能耗节约较为谦逊。’
作者建议,这些结果支持在GPU架构和应用中使用150W的限电。他们还指出,获得的能耗节约可以在跨硬件平台上实现,并且他们重复进行了测试,以比较NVIDIA K80、T4和A100 GPU的结果。

在三个不同NVIDIA GPU上获得的能耗节约。
推理,而非训练,才是能耗的主要来源
该论文引用了多项以前的研究,表明尽管头条新闻如此,但实际上是推理(使用完成的模型,如NLP模型)而非训练才是能耗的主要来源。因此,研究人员测量了推理对能耗的影响,发现限电对推理延迟有着显著的影响:
‘相比之下,100W的设置需要双倍的推理时间(增加114%),能耗减少11.0%;150W的设置需要22.7%更长的时间,能耗减少24.2%;200W的设置需要8.2%更长的时间,能耗减少12.0%。’
冬季训练
该论文建议,训练(如果不是推理,由于明显的原因)可以安排在数据中心的PUE(功耗效率)最高的时间进行——这基本上是在冬季和夜间。
‘如果工作负载可以安排在预期PUE较低的时间,可能会获得显著的能耗节约。例如,将一个短期作业从白天移到夜间可能会带来大约10%的减少,而将一个长期、昂贵的作业(例如,需要几周时间完成的语言模型)从夏季移到冬季可能会看到33%的减少。 ‘
‘虽然很难预测个别研究人员可能获得的节约,但这里提供的信息强调了环境因素对工作负载总能耗的影响。’
保持在云端
最后,该论文指出,自建的处理资源不太可能实施与大型数据中心和高级云计算提供商相同的效率措施,并且可以通过将工作负载转移到在设施效率方面进行了大量投资的位置来获得环境效益。
‘虽然拥有可访问的私人计算资源很方便,但这种方便是有代价的。一般来说,能耗节约和影响更容易在更大规模上实现。数据中心和云计算提供商在其设施的效率方面进行了大量投资。’
* 论文提供的相关链接。












