关注我们.

人工智能

你能以一半的成本构建像 ChatGPT 这样的大型语言模型吗?

mm

大型语言模型 GPT-3 和 ChatGPT 等法学硕士 (LLM) 通过提供自然语言理解和内容生成功能,彻底改变了人工智能。 但它们的发展代价高昂,限制了可及性和进一步的研究。 研究人员估计,训练 GPT-3 的 OpenAI 成本约为 5 百万美元。 尽管如此,微软还是认识到了这一潜力并进行了投资 的美元1亿元 2019和 的美元10亿元 2023 年,OpenAI 的 GPT-3 和 ChatGPT 合资企业。

LLM 是针对 NLP 应用程序在大量文本数据上进行训练的机器学习模型。它们基于 Transformer 架构,并利用注意力机制来完成 NLP 任务,如问答、机器翻译、情感分析等。

问题出现了:能否提高这些大型模型的效率,同时减少计算成本和训练时间?

几种方法,例如 渐进神经网络, 网络态射, 层内模型并行性, 知识传承等,已被开发以减少训练神经网络的计算成本。 小说 利戈 我们将讨论的(线性增长算子)方法是设定一个新的基准。 它使训练法学硕士的计算成本减半。

在讨论这项技术之前,有必要检查一下导致法学硕士课程成本高昂的因素。

构建大型语言模型的成本

培养LLM的三大费用如下:

1. 计算资源

构建法学硕士需要大量计算资源来在大型数据集上进行训练。 他们必须处理数十亿个参数并从大量文本数据中学习复杂的模式。

对图形处理单元等专用硬件的投资(图形处理器)和张量处理单元(TPU)是构建和训练法学硕士以实现最先进性能所必需的。

例如,GPT-3 是在 超级计算机 拥有 10000 个企业级 GPU(H100 和 A100)和 285,000 个 CPU 内核。

2. 能源消耗

建立法学硕士所需的密集计算资源会导致大量能源消耗。 例如,训练 175 亿个参数 GPT-3 花费了 为期14.8天 使用 10,000 个 V100 GPU,相当于 3.55 万个 GPU 小时。 如此高的能源消耗水平也会对环境产生重大影响。

3. 数据存储与管理

法学硕士接受过大型数据集的培训。 例如,GPT-3 是在大量文本语料库上进行训练的 data,包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia 等来源。 收集、整理和存储这些数据集需要大量基础设施投资。

此外,数据存储需要云存储,数据预处理和版本控制需要人工专业知识。 此外,确保您的数据策略符合 GDPR 等法规也会增加成本。

LiGO技术:将构建大型语言模型的成本降低一半

LiGO(线性增长算子)是麻省理工学院研究人员开发的一项新技术,可将训练法学硕士的计算成本降低 50%。 该方法涉及从较小的预训练模型的权重初始化较大模型的权重,从而实现神经网络的有效扩展。

金允儿该论文的资深作者说:

“据估计,ChatGPT 假设运行规模的训练模型仅一次训练就需要数百万美元。 我们能否提高这些训练方法的效率,以便我们仍然可以用更少的时间和更少的钱获得好的模型? 我们建议通过利用之前训练过的较小语言模型来做到这一点。”

与从头开始训练大型模型相比,该方法保持了大型模型的性能优势,同时减少了计算成本和训练时间。 LiGO 采用数据驱动的线性增长算子,结合深度和宽度算子以获得最佳性能。

论文利用各种数据集进行基于文本的实验,包括用于训练 BERT 和 RoBERTa 模型的英文维基百科语料库以及用于训练 GPT4 的 C2 数据集。

LiGO 技术实验包括将 BERT-Small 发展为 BERT-Base、将 BERT-Base 发展为 BERT-Large、将 RoBERTaSmall 发展为 RoBERTa-Base、将 GPT2-Base 发展为 GPT2-Medium、将 CaiT-XS 发展为 CaiT-S。

研究人员将他们的方法与其他几种基线进行了比较,包括从头开始训练、渐进训练、bert2BERT 和 KI。

与通过重用 BERT-Small 模型从头开始训练 BERT-Base 相比,LiGO 技术的 FLOP(每秒浮点运算)节省了 44.7%,墙壁时间节省了 40.7%。 LiGO 增长算子在高效训练方面优于 StackBERT、MSLT、bert2BERT 和 KI。

使用 LiGO 等训练优化技术的好处

LiGO 是一种高效的神经网络训练方法,具有以下优点:

1. 更快的训练

如前所述,更快的训练是 LiGO 技术的主要优势。 它可以将法学硕士的培训时间缩短一半,从而提高生产率并降低成本。

2. 资源效率

LiGO 资源高效,因为它最大限度地减少了挂机时间和失败次数,从而为训练大型变压器模型提供了一种更具成本效益且环保的方法。

3. 泛化

LiGO 技术提高了语言和视觉转换器的性能,这表明它是一种可应用于各种任务的通用技术。

构建商业人工智能产品只是人工智能系统相关总费用的一方面。 成本的另一个重要组成部分来自日常运营。 例如,OpenAI 的成本约为 $700,000 每天使用 ChatGPT 回答查询。 研究人员预计将继续探索使法学硕士在培训期间具有成本效益且在运行时更容易获得的方法。

更多AI相关内容,请访问 团结.ai.

哈兹卡 是一位数据科学家,在为 AI 和 SaaS 公司编写技术内容方面拥有丰富的经验。