人工智能
DeepMind 推出 JEST 算法:使 AI 模型训练更快、更便宜、更环保

生成式 AI 正在取得令人难以置信的进步,改变了医学、教育、金融、艺术、体育等领域。这一进步主要来自于 AI 从更大的数据集中学习和构建具有数十亿参数的更复杂模型的能力。虽然这些进步推动了重大的科学发现、创造了新的商业机会和工业增长,但它们也带来了高昂的成本,特别是考虑到训练这些大规模模型的财务和环境影响。训练生成式 AI 模型需要大量的计算能力,这导致了高能耗和显著的碳足迹。
虽然之前的努力旨在提高 AI 训练的硬件效率和开发具有较少参数的较小模型,但 Google DeepMind 采取了一种创新方法,旨在提高生成式 AI 训练算法的效率。他们开创了一种新的算法,JEST(联合示例选择),其速度是当前技术的 13 倍,功耗仅为当前技术的 1/10。
在本文中,我们探讨了 AI 训练的挑战以及 JEST 如何解决这些问题。另外,我们考虑了 JEST 算法的更广泛的影响和未来研究方向,展望其对 AI 训练的潜在影响,超越提高速度、降低成本和环境友好性。
Ai 训练的挑战:高成本和环境影响
训练生成式 AI 模型带来了显著的挑战,主要是由于高成本和显著的环境影响。
- 财务成本: 训练生成式 AI 模型是一项昂贵的任务。最近的估计表明,训练一个大型模型,如 OpenAI 的 GPT-3,拥有 175 亿个参数,可能需要花费 约 460 万美元。训练 ChatGPT-4 的估计成本约为 OpenAI 的 1 亿美元。这些费用主要归因于训练所需的大量计算资源、广泛的数据处理和漫长的训练时间。
- 能耗: 生成式 AI 训练过程是极其耗能的。训练这些模型需要成千上万的 GPU,并且消耗多个千兆瓦时的能量,使得该过程极其耗能。数据中心是 AI 训练的计算基础设施所在地,每年消耗约 200 太瓦时(TWh)的电力,约占 全球电力需求的 1%。麦肯锡的一份报告预测,美国的数据中心电力消耗可能从 2017 年的 17 吉瓦(GW)增加到 2030 年的 35 GW,这将需要额外的电力输出,相当于九座胡佛水坝的容量。
- 碳足迹: 训练生成式 AI 模型的高能耗显著地导致了温室气体排放,恶化了气候变化。马萨诸塞大学阿默斯特分校的一项研究发现,训练一个大型 AI 模型可以排放与五辆汽车整个生命周期所排放的二氧化碳量相当。具体来说,训练一个 AI 模型可以排放超过 626,000 磅的二氧化碳,相当于 315 次跨美洲航班的碳足迹。
这些挑战主要源于两个主要原因:对高能耗计算硬件的依赖和当前训练算法的低效。虽然 AI 社区在开发节能硬件方面取得了进展,但仍需要更多地关注创建更智能的算法,以优化数据使用和减少训练时间。Google 最近推出的 JEST 算法是朝着使训练算法更智能的方向迈出的一步。通过智能地选择重要的数据,JEST 大大提高了 AI 训练的效率,为更可持续和更具成本效益的生成式 AI 模型训练铺平了道路。
了解 JEST 算法
JEST 是一种旨在更高效地训练多模态生成式 AI 模型的学习算法。要了解 JEST 的工作原理,可以将 AI 训练视为解决一个复杂的拼图,其中每个数据点(拼图碎片)都有助于构建完整的图景(AI 模型)。JEST 就像一个经验丰富的拼图解决者,使得这个过程更加高效。就像拼图解决者选择最重要和最具特色的碎片一样,JEST 确定并选择数据集中的最有价值的数据批次,以确保每个批次在 AI 开发中发挥至关重要的作用。
JEST 使用一个较小的 AI 模型来评估数据批次的质量。这些批次根据其在模型训练中的有效性进行排名。使用这些精心选择的批次,JEST 战略性地将它们组装起来以训练模型。就像拼图解决者以最大效率和连贯性排列拼图碎片一样,JEST 通过优先选择最具信息量的批次,大大加快了训练过程。
JEST 方法的一个关键部分是多模态对比学习。这项技术专注于学习不同数据类型(如文本和图像)之间的对应关系。JEST 采用多模态对比学习方法来评估多模态数据样本在训练模型中的有效性。除了评估个别数据样本的有效性外,JEST 还评估数据样本集的集体可学习性,以从更大的“超级批次”中选择少量数据。这一过程有助于 JEST 选择和优先考虑提供挑战和丰富学习机会的批次。
展望未来:JEST 超越更快、更便宜、更环保的 AI 训练
当我们探索 JEST(联合示例选择)的未来影响时,很明显其贡献不仅仅在于加快 AI 训练速度、降低成本和促进环境可持续性。以下是 JEST 可以继续改进和改变生成式 AI 领域的几种方式:
- 提高模型性能和准确性: JEST 创新的数据选择和优先级方法带来了更快的训练时间和更好的模型性能。通过专注于最具信息量的数据批次,JEST 确保 AI 模型接受高质量的输入,从而提高其准确性和鲁棒性。这一优势在需要精度和可靠性的应用中至关重要,例如医学诊断、金融预测和自主系统。
- 识别和减轻数据中的偏差: AI 容易受到偏差数据集的影响,其中某些群体或观点被低估或歪曲。JEST 的数据选择方法涉及评估数据批次的质量和信息量。通过优先选择多样化和具有代表性的数据样本,JEST 可以帮助 AI 系统从更平衡的数据集中学习,减少训练数据中的偏差。例如,在医疗 AI 应用中,JEST 可以选择涵盖各种人口统计因素的数据批次,确保医疗诊断模型接受多样化的患者人群的训练。这一选择减少了偏差的风险,这些偏差可能会不成比例地影响某些群体,基于种族、性别或社会经济地位等因素。
- 促进创新和研究: 通过显著降低 AI 模型训练所需的计算资源和时间,JEST 降低了研究人员和创新者的进入门槛。这一可及性促进了 AI 开发的更加充满活力的生态系统,在这个生态系统中,小型团队和组织可以尝试和部署先进的 AI 解决方案。此外,JEST 提供的效率收益可以释放资源,这些资源可以被重定向到探索 AI 的新前沿领域,例如新型架构、先进算法和道德 AI 框架。
- 促进包容性 AI 开发: AI 开发应该涉及多样化的观点和输入,以有效地减轻偏差和道德问题。JEST 选择数据的方法基于其信息量和代表性,鼓励数据集的策划实践更加包容。AI 开发人员可以通过让来自各个领域的专家(包括伦理、社会科学和特定领域的专家)参与数据选择标准的制定,确保 JEST 有效地解决偏差和道德问题。这种合作方法促进了 AI 技术的更加包容和负责任的开发。
结论
DeepMind 推出的 JEST 算法代表了生成式 AI 训练的一个重大突破。通过显著加快训练过程和降低能耗,JEST 提供了大量的成本节约和解决了与 AI 开发相关的环境问题。超越这些优势,JEST 有潜力提高模型准确性、减轻数据偏差、促进创新和鼓励包容性 AI 开发。JEST 的持续改进和应用有望重新定义 AI 的未来,朝着更加高效、可持续和道德负责的 AI 解决方案迈进。












