人工智能

是否可以以半价构建大型语言模型,如ChatGPT?

mm

大型语言模型(LLM)如GPT-3和ChatGPT通过提供自然语言理解和内容生成能力,革新了人工智能。但是,它们的开发需要巨大的成本,限制了其可访问性和进一步的研究。研究人员估计,训练GPT-3的成本约为500万美元。然而,微软认识到了其潜力,并在2019年投资了10亿美元,以及2023年投资了100亿美元,用于OpenAI的GPT-3和ChatGPT项目。

LLM是机器学习模型,训练于大量文本数据,用于自然语言处理应用。它们基于变换器架构,利用注意力机制进行自然语言处理任务,如问答、机器翻译、情感分析等。

问题是:是否可以提高这些大型模型的效率,同时减少计算成本和训练时间?

已经开发了几种方法,如进化神经网络网络形态学层内模型并行知识继承等,来减少训练神经网络的计算成本。我们将要讨论的新方法LiGO(线性增长算子)是将训练LLM的计算成本减半的方法。

在讨论这个技术之前,了解构建LLM的高昂成本的因素是至关重要的。

构建大型语言模型的成本

构建LLM的三大主要费用如下:

1. 计算资源

构建LLM需要大量计算资源来训练大型数据集。它们必须处理数十亿参数,并从大量文本数据中学习复杂模式。

需要投资专用硬件,如图形处理单元(GPU)和张量处理单元(TPU),来构建和训练LLM,以实现最先进的性能。

例如,GPT-3是在一台超级计算机上训练的,配备了10000台企业级GPU(H100和A100)和285,000个CPU核心。

2. 能源消耗

构建LLM所需的强大计算资源导致了大量的能源消耗。例如,训练175亿参数的GPT-3需要14.8天,使用10000个V100 GPU,相当于355万个GPU小时。这种高水平的能源消耗对环境也有显著影响。

3. 数据存储和管理

LLM是在大型数据集上训练的。例如,GPT-3是在一个庞大的文本数据集上训练的,包括Common Crawl、WebText2、Books1、Books2和维基百科等。需要大量的基础设施投资来收集、整理和存储这些数据集。

此外,需要云存储来存储数据,需要人工专业知识来进行数据预处理和版本控制。此外,确保数据策略符合GDPR等法规也增加了成本。

LiGO技术:将构建大型语言模型的成本减半

LiGO(线性增长算子)是一种新技术, 由麻省理工学院的研究人员开发,旨在将训练LLM的计算成本减少50%。该方法涉及从较小的预训练模型的权重初始化较大的模型,从而实现神经网络的高效扩展。

Yoon Kim,论文的首席作者说:

“据估计,训练像ChatGPT这样的模型可能需要数百万美元的单次训练费用。我们能否提高这些训练方法的效率,以便在更短的时间内和更低的成本下获得良好的模型?我们提议通过利用之前训练过的较小语言模型来实现这一目标。”

该方法在减少计算成本和训练时间的同时,保持了较大模型的性能优势。LiGO利用数据驱动的线性增长算子,结合深度和宽度算子以实现最佳性能。

该论文使用了各种数据集进行基于文本的实验,包括英语维基百科语料库用于训练BERT和RoBERTa模型,以及C4数据集用于训练GPT2。

LiGO技术的实验包括将BERT-Small扩展到BERT-Base,将BERT-Base扩展到BERT-Large,将RoBERTaSmall扩展到RoBERTa-Base,将GPT2-Base扩展到GPT2-Medium,将CaiT-XS扩展到CaiT-S。

研究人员将他们的方法与几种其他基线进行了比较,包括从头开始训练、进化训练、bert2BERT和KI。

LiGO技术提供了44.7%的FLOPs(每秒浮点运算)节省和40.7%的墙面时间节省,相比从头开始训练BERT-Base,通过重用BERT-Small模型。LiGO增长算子在高效训练中优于StackBERT、MSLT、bert2BERT和KI。

使用LiGO等训练优化技术的优势

LiGO是一种高效的神经网络训练方法,具有以下几点优势:

1. 更快的训练

如前所述,LiGO技术的主要优势是更快的训练。它可以将LLM的训练时间减半,从而提高生产力和降低成本。

2. 资源高效

LiGO是资源高效的,因为它最小化了墙面时间和FLOPs,从而实现了更具成本效益和环保的方法来训练大型变换器模型。

3. 普遍性

LiGO技术提高了语言和视觉变换器的性能,表明它是一种可以应用于各种任务的普遍技术。

构建商业AI产品只是与AI系统相关的总成本的一方面。另一个重要的成本组成部分来自日常运营。例如,OpenAI每天需要花费约70万美元来使用ChatGPT回答查询。研究人员预计将继续探索使LLM在训练和运行时更具成本效益的方法。

更多关于AI的内容,请访问unite.ai

Haziqa 是一名具有丰富经验的数据科学家,擅长为 AI 和 SaaS 公司撰写技术内容。