人工智能

是否可以以半价建设像 ChatGPT 一样的大型语言模型？

Published May 11, 2023

Updated April 28, 2026

Haziqa Sajid

大型语言模型（LLMs）如 GPT-3 和 ChatGPT 通过提供自然语言理解和内容生成能力，革新了人工智能。但是，它们的开发需要巨大的成本，限制了其可及性和进一步的研究。研究人员估计，训练 GPT-3 的成本约为 OpenAI $5 million。尽管如此，微软认识到了其潜力，并在 2019 年投资了 $1 billion，以及在 2023 年投资了 $10 billion 于 OpenAI 的 GPT-3 和 ChatGPT 项目。

LLMs 是在大量文本数据上训练的机器学习模型，用于自然语言处理应用。它们基于变换器架构，并利用注意力机制进行问答、机器翻译、情感分析等 NLP 任务。

问题是：是否可以在降低计算成本和训练时间的同时提高这些大型模型的效率？

已经开发了几种方法，例如进化神经网络、网络形态学、层内模型并行、知识继承等，以降低训练神经网络的计算成本。我们将要讨论的新型 LiGO（线性增长运算符）方法正在设定新的基准。它将训练 LLMs 的计算成本减半。

在讨论这种技术之前，检查导致 LLMs 高昂成本的因素是至关重要的。

建设大型语言模型的成本

建设 LLMs 的三项主要支出如下：

1. 计算资源

建设 LLMs 需要大量计算资源来训练大型数据集。它们必须处理数十亿个参数，并从大量文本数据中学习复杂模式。

需要投资专用硬件，如图形处理单元（GPUs）和张量处理单元（TPUs），以建设和训练 LLMs 并实现最先进的性能。

例如，GPT-3是在一个具有10000个企业级GPU（H100和A100）和285,000个CPU核心的超级计算机上训练的。

2. 能源消耗

建设 LLMs 所需的强大计算资源导致了显著的能源消耗。例如，训练175亿参数的GPT-3需要14.8天，使用10000个V100 GPUs，相当于355万个GPU小时。这种高水平的能源消耗对环境也有显著影响。

3. 数据存储和管理

LLMs是在大型数据集上训练的。例如，GPT-3是在一个庞大的文本数据集上训练的，包括Common Crawl、WebText2、Books1、Books2和维基百科等。需要大量基础设施投资来收集、整理和存储这些数据集。

还需要云存储来存储数据，需要人工专业知识来进行数据预处理和版本控制。此外，确保您的数据策略符合GDPR等法规也会增加成本。

LiGO 技术：将建设大型语言模型的成本减半

LiGO（线性增长运算符）是一种由 MIT 研究人员开发的新技术，用于将训练 LLMs 的计算成本减少 50%。该方法涉及从较小的预训练模型的权重初始化较大的模型，从而实现神经网络的高效扩展。

图片来自论文：学习预训练模型以实现高效的变换器训练

Yoon Kim，论文的首席作者说：

“据估计，在 ChatGPT 所假设的规模上训练模型可能需要数百万美元的单次训练费用。我们能否提高这些训练方法的效率，以便在更短的时间内和更低的成本下获得良好的模型？我们提议通过利用以前训练过的较小的语言模型来实现这一点。”

这种方法在降低计算成本和训练时间的同时保持了较大模型的性能优势。LiGO 利用数据驱动的线性增长运算符，将深度和宽度运算符结合起来以获得最佳性能。

该论文使用各种数据集进行基于文本的实验，包括用于训练 BERT 和 RoBERTa 模型的英文维基百科语料库，以及用于训练 GPT2 的 C4 数据集。

LiGO 技术的实验包括将 BERT-Small 增长到 BERT-Base，将 BERT-Base 增长到 BERT-Large，将 RoBERTaSmall 增长到 RoBERTa-Base，将 GPT2-Base 增长到 GPT2-Medium，将 CaiT-XS 增长到 CaiT-S。

研究人员将他们的方法与几种其他基准进行了比较，包括从头开始训练、进化训练、bert2BERT 和 KI。

LiGO 技术通过重用 BERT-Small 模型来训练 BERT-Base，相比从头开始训练，FLOPs（每秒浮点运算）节省了 44.7%，墙上时间节省了 40.7%。LiGO 增长运算符在高效训练方面优于 StackBERT、MSLT、bert2BERT 和 KI。

使用 LiGO 等训练优化技术的益处

LiGO 是一种高效的神经网络训练方法，具有以下几点益处：

1. 更快的训练

如前所述，LiGO 技术的主要优势是更快的训练。它将 LLMs 的训练时间减半，提高了生产力并降低了成本。

2. 资源高效

LiGO 是资源高效的，因为它最小化了墙上时间和 FLOPs，从而实现了更具成本效益和环保的方法来训练大型变换器模型。

3. 通用性

LiGO 技术提高了语言和视觉变换器的性能，表明它是一种可以应用于各种任务的通用技术。

建设商业 AI 产品只是与 AI 系统相关的总成本的一方面。另一个重要的成本组成部分来自日常运营。例如，使用 ChatGPT 回答查询的成本约为 OpenAI 每天 $700,000。研究人员预计将继续探索使 LLMs 在训练和运行时更具成本效益的方法。

有关更多 AI 相关内容，请访问 unite.ai。