人工智能

揭开Meta Llama 3的面纱：大型语言模型的飞跃

发布于 2024年4月21日

更新于 2026年5月21日

作者

Dr. Tehseen Zia

在生成性AI领域，Meta继续以其开源可用性的承诺领先，向全球开发人员和研究人员分发其先进的Large Language Model Meta AI（Llama）系列。继其进步性倡议之后，Meta最近推出了该系列的第三个版本，Llama 3。这一新版本在其前身Llama 2的基础上进行了显著改进，提供了众多增强功能，并为行业竞争对手如Google、Mistral和Anthropic设定了新的基准。本文探讨了Llama 3的重大进步及其与前身Llama 2的比较。

Meta的Llama系列：从独占到开源和增强性能

Meta于2022年启动了其Llama系列，推出了Llama 1，这是一个仅限非商业用途且仅对选定的研究机构开放的模型，因为当时最先进的LLM具有巨大的计算需求和专有性质。2023年，随着Llama 2的推出，Meta AI转向了更大的开放性，免费提供该模型用于研究和商业目的。这一举动旨在使先进的生成性AI技术更容易被更广泛的用户获取，包括初创公司和较小的研究团队，使他们能够在不需要大型模型通常带来的高昂成本的情况下创新和开发应用程序。继续这一开放趋势，Meta推出了Llama 3，专注于提高小型模型在各个工业基准上的性能。

介绍Llama 3

Llama 3是Meta开源大型语言模型（LLM）的第二代，具有预训练和指令微调模型，参数分别为8B和70B。与其前身一样，Llama 3采用解码器仅变压器架构，并继续使用自主学习、自我监督训练来预测文本序列中的后续标记。Llama 3在一个比Llama 2大七倍的数据集上进行预训练，包含超过15万亿个标记，来自一个新的、经过策划的公开在线数据混合集。这个庞大的数据集使用配备24,000个GPU的两个集群进行处理。为了保持训练数据的高质量，采用了各种数据中心AI技术，包括启发式和NSFW过滤器、语义去重和文本质量分类。针对对话应用，Llama 3 Instruct模型得到了显著增强，融入了超过1000万个人工注释数据样本，并利用了复杂的训练方法，如监督微调（SFT）、拒绝采样、近似策略优化（PPO）和直接偏好优化（DPO）。

Llama 3与Llama 2的比较：关键增强

Llama 3相比Llama 2带来了多项改进，显著提高了其功能和性能：

扩展词汇表： Llama 3的词汇表增加到128,256个标记，高于Llama 2的32,000个标记。这一增强支持更高效的文本编码，用于输入和输出，并加强了其多语言能力。
扩展上下文长度： Llama 3模型提供了8,000个标记的上下文长度，是Llama 2支持的4,090个标记的两倍。这一增加允许处理更广泛的内容，包括用户提示和模型响应。
升级训练数据： Llama 3的训练数据集比Llama 2大七倍，包括四倍以上的代码。它包含超过5%的高质量、非英语数据，涵盖30多种语言，对于多语言应用支持至关重要。这些数据使用先进技术如启发式和NSFW过滤器、语义去重和文本分类器进行严格的质量控制。
改进的指令微调和评估： 与Llama 2不同，Llama 3采用了先进的指令微调技术，包括监督微调（SFT）、拒绝采样、近似策略优化（PPO）和直接偏好优化（DPO）。为了增强这一过程，引入了一个新的高质量人工评估集，包含1,800个提示，涵盖了建议、头脑风暴、分类、编码等多种用例，确保了对模型能力的全面评估和微调。
先进的AI安全性： Llama 3与Llama 2一样，融入了严格的安全措施，如指令微调和全面红队测试，以减轻风险，特别是在网络安全和生物威胁等关键领域。为支持这些努力，Meta还推出了Llama Guard 2，在Llama 3的8B版本上进行了微调。这一新模型增强了Llama Guard系列，通过分类LLM输入和响应来识别潜在的不安全内容，使其非常适合生产环境。

Llama 3的可用性

Llama 3模型现在已集成到Hugging Face生态系统中，提高了开发人员的可访问性。这些模型也可通过模型即服务平台如Perplexity Labs和Fireworks.ai以及云平台如AWS SageMaker、Azure ML和Vertex AI获得。Meta计划进一步扩大Llama 3的可用性，包括Google Cloud、Kaggle、IBM WatsonX、NVIDIA NIM和Snowflake等平台。此外，Llama 3的硬件支持将扩展到包括AMD、AWS、Dell、Intel、NVIDIA和Qualcomm等平台。

即将推出的Llama 3增强功能

Meta已经透露，Llama 3的当前版本只是其更广泛愿景中的初始阶段。他们正在开发一个具有超过400亿参数的高级模型，引入了多模态和处理多种语言的能力。这个增强版本还将具有显著扩大的上下文窗口和改进的整体性能能力。

结论

Meta的Llama 3标志着大型语言模型领域的重大演进，不仅推动了该系列朝着更大的开源可用性发展，还大幅提高了其性能能力。凭借比其前身大七倍的训练数据集和扩展词汇表、增加的上下文长度等特点，Llama 3为行业竞争对手设定了新的基准。

这一第三个版本不仅继续使AI技术民主化，使高级能力可供更广泛的开发人员使用，还在安全性和训练精度方面带来了显著进步。通过将这些模型集成到Hugging Face和其他主要云服务平台中，Meta确保Llama 3不仅强大，还广泛可用且对全球用户群体更安全。

展望未来，Meta持续的开发承诺将带来更强大的功能，包括多模态和扩展语言支持，为Llama 3铺平了不仅能与其他主要AI模型竞争，还可能超越它们的道路。Llama 3是Meta领导AI革命的承诺的体现，提供不仅更易访问、更先进、更安全的工具，为全球用户服务。