存根 揭晓 Meta Llama 3:大型语言模型的飞跃 - Unite.AI
关注我们.

人工智能

揭晓 Meta Llama 3:大型语言模型的飞跃

mm
更新 on

在生成人工智能领域,Meta 继续致力于开源可用性的领先地位,向全球开发者和研究人员分发其先进的大型语言模型 Meta AI (Llama) 系列。基于其先进的举措,Meta 最近推出了该系列的第三次迭代, 骆驼3。这个新版本显着改进了 骆驼2,提供众多增强功能并设定基准,挑战 Google、Mistral 和 Anthropic 等行业竞争对手。本文探讨了 Llama 3 的重大进步以及它与其前身 Llama 2 的比较。

Meta 的 Llama 系列:从独家到开放访问和增强性能

Meta 于 2022 年推出了 Llama 系列,推出了 骆驼1,由于当时尖端法学硕士的巨大计算需求和专有性质,该模型仅限于非商业用途,并且仅可供选定的研究机构使用。 2023 年,随着 Llama 2 的推出,Meta AI 转向了更大的开放性,免费提供用于研究和商业目的的模型。此举旨在实现复杂的生成式人工智能技术的民主化,让包括初创公司和小型研究团队在内的更广泛的用户能够创新和开发应用程序,而无需支付通常与大型模型相关的高昂成本。为了延续这种开放趋势,Meta 推出了 Llama 3,它专注于提高小型模型在各种工业基准上的性能。

羊驼 3 简介

Llama 3 是 Meta 的第二代开源大语言模型 (LLM),具有具有 8B 和 70B 参数的预训练模型和指令微调模型。与前代产品一样,Llama 3 采用 仅解码器 变压器架构 并继续自回归的实践, 自我监督训练 预测文本序列中的后续标记。 Llama 3 在比 Llama 2 使用的数据集大七倍的数据集上进行预训练,其中包含从新策划的公开可用在线数据组合中提取的超过 15 万亿个代币。这个庞大的数据集使用两个配备 24,000 个 GPU 的集群进行处理。为了保持训练数据的高质量,各种 以数据为中心的人工智能 采用了一些技术,包括启发式过滤器和 NSFW 过滤器, 语义去重,以及文本质量分类。 Llama 3 Instruct 模型专为对话应用程序量身定制,得到了显着增强,纳入了超过 10 万个人工注释的数据样本,并利用了复杂的训练方法组合,例如 监督微调(SFT), 拒绝抽样, 近端策略优化(PPO)直接策略优化 (DPO).

Llama 3 与 Llama 2:主要增强功能

Llama 3 相对于 Llama 2 进行了多项改进,显着提升了其功能和性能:

  • 扩大词汇量: Llama 3 的词汇量从 Llama 128,256 的 2 个令牌增加到 32,000 个令牌。此增强功能支持更高效的输入和输出文本编码,并增强了其多语言功能。
  • 扩展上下文长度: Llama 3 模型提供 8,000 个令牌的上下文长度,是 Llama 4,090 支持的 2 个令牌的两倍。这种增加允许更广泛的内容处理,包括用户提示和模型响应。
  • 升级后的训练数据: Llama 3 的训练数据集比 Llama 2 大七倍,其中代码量多四倍。它包含超过 5% 的高质量非英语数据,涵盖 30 多种语言,这对于多语言应用支持至关重要。这些数据使用启发式和 NSFW 过滤器、语义重复数据删除和文本分类器等先进技术进行严格的质量控制。
  • 精细化指令调整和评估: 与 Llama 2 不同,Llama 3 采用先进的指令调优技术,包括监督微调 (SFT)、拒绝采样、近端策略优化 (PPO) 和直接策略优化 (DPO)。为了增强这一过程,引入了新的高质量人类评估集,由 1,800 个提示组成,涵盖建议、头脑风暴、分类、编码等不同用例,确保对模型功能的全面评估和微调。
  • 先进的人工智能安全: Llama 3 与 Llama 2 一样,采用了严格的安全措施,例如指令微调和全面的红队,以降低风险,特别是在网络安全和生物威胁等关键领域。为了支持这些努力,Meta 还推出了 Llama Guard 2,它是在 Llama 8 的 3B 版本上进行微调的。这个新模型增强了 羊驼卫士系列 通过对 LLM 输入和响应进行分类来识别潜在的不安全内容,使其成为生产环境的理想选择。

骆驼 3 的可用性

Llama 3 型号现已集成到 抱脸生态系统,增强开发人员的可访问性。这些模型还可以通过模型即服务平台获得,例如 困惑实验室烟花.ai,以及在云平台上 AWS SageMaker, 天蓝色机器学习顶点AI。 Meta 计划进一步扩大 Llama 3 的可用性,包括 Google Cloud、Kaggle、IBM WatsonX、NVIDIA NIM 和 Snowflake 等平台。此外,对 Llama 3 的硬件支持将扩展到包括 AMD、AWS、戴尔、英特尔、NVIDIA 和高通的平台。

Llama 3 即将推出的增强功能

Meta 透露,目前发布的 Llama 3 只是他们对 Llama 3 完整版的更广泛愿景的初始阶段。他们正在开发一个具有超过 400 亿个参数的高级模型,该模型将引入新功能,包括多模态和能力处理多种语言。此增强版本还将具有显着扩展的上下文窗口和改进的整体性能功能。

底线

Meta 的 Llama 3 标志着大型语言模型领域的重大演变,不仅推动该系列实现更大的开源可访问性,而且还大幅增强了其性能能力。 Llama 3 的训练数据集比其前身大七倍,并具有扩展词汇量和增加上下文长度等功能,树立了新的基准,甚至可以挑战最强大的行业竞争对手。

第三次迭代不仅通过向更广泛的开发人员提供高级功能来继续实现人工智能技术的民主化,而且还在安全性和训练精度方面引入了重大进步。通过将这些模型集成到 Hugging Face 等平台中,并通过主要云服务扩展可用性,Meta 确保 Llama 3 无处不在且功能强大。

展望未来,Meta 的持续开发有望提供更强大的功能,包括多模态和扩展的语言支持,为 Llama 3 奠定基础,不仅可以与市场上其他主要人工智能模型竞争,而且有可能超越其他主要人工智能模型。 Llama 3 证明了 Meta 致力于引领人工智能革命,为全球用户群提供的工具不仅更易于使用,而且更加先进和安全。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。