人工智能

您需要了解的关于 Llama 3 的一切 | 最强大的开源模型 | 概念到使用

Published April 24, 2024

Updated April 24, 2026

Aayush Mittal Mittal

Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta最近发布了 Llama 3，其下一代的开源大型语言模型（LLM）。在其前身的基础上，Llama 3旨在增强其能力，使其成为一个重要的开源竞争对手，挑战ChatGPT，如文章 Llama 2：深入探索开源ChatGPT竞争对手中所述。

在本文中，我们将讨论Llama 3背后的核心概念，探索其创新架构和训练过程，并提供如何访问、使用和部署该开创性模型的实用指导。无论您是研究人员、开发人员还是AI爱好者，本文都将为您提供所需的知识和资源，以便您能够利用Llama 3的力量为您的项目和应用程序提供支持。

Llama的演变：从Llama 2到Llama 3

Meta的CEO，Mark Zuckerberg，宣布了Llama 3的发布，这是Meta AI开发的最新AI模型。该模型现在开源，旨在增强Meta的各种产品，包括Messenger和Instagram。Zuckerberg强调，Llama 3使Meta AI成为最先进的免费AI助手。

在讨论Llama 3的具体细节之前，让我们简要回顾其前身Llama 2。Llama 2于2022年推出，是开源LLM领域的一个重要里程碑，提供了一个强大且高效的模型，可以在消费级硬件上运行。

然而，虽然Llama 2是一个值得注意的成就，但它仍有一些局限性。用户报告了虚假拒绝（模型拒绝回答良性提示）、有限的有用性以及在推理和代码生成等领域需要改进的地方。

这就是Llama 3的由来：Meta对这些挑战和社区反馈的回应。通过Llama 3，Meta旨在建立与当前可用顶级专有模型相当的最佳开源模型，同时优先考虑负责任的开发和部署实践。

Llama 3：架构和训练

Llama 3的一个关键创新是其分词器，它具有显著扩大的词汇表，包含 128,256 个令牌（比Llama 2的32,000个令牌多）。这种更大的词汇表允许更高效地对文本进行编码，无论是输入还是输出，可能会带来更强的多语言支持和整体性能改进。

Llama 3还采用了 分组查询注意力（GQA），一种提高可扩展性并帮助模型更有效地处理更长上下文的高效表示技术。Llama 3的 8B 版本使用GQA，而 8B 和 70B 模型都可以处理最多 8,192 个令牌 的序列。

训练数据和扩展

用于Llama 3的训练数据是其性能改进的一个关键因素。Meta策划了一个包含超过 15 万亿 个令牌的巨大数据集，这些数据来自公开的在线来源，这比Llama 2中使用的数据集大了七倍。该数据集还包括大量（超过5%）高质量的非英语数据，涵盖了 30 多种 语言，为未来的多语言应用程序做好了准备。

为了确保数据质量，Meta采用了高级过滤技术，包括启发式过滤器、NSFW过滤器、语义去重和使用Llama 2训练的文本分类器来预测数据质量。该团队还进行了大量实验，以确定预训练的最佳数据源混合，确保Llama 3在广泛的用例中表现良好，包括琐事、STEM、编码和历史知识。

扩大预训练是Llama 3开发的另一个关键方面。Meta开发了可以预测其最大模型在关键任务（如代码生成）上的性能的缩放法则，然后再训练它们。这使得他们能够就数据混合和计算分配做出明智的决定，最终导致训练更加高效和有效。

Llama 3的最大模型是在两个自定义的24,000个GPU集群上训练的，利用了数据并行、模型并行和管道并行技术的组合。Meta的高级训练堆栈自动检测、处理和维护错误，最大限度地提高了GPU的使用时间，并将训练效率提高了大约三倍，相比Llama 2。

指令微调和性能

为了解锁Llama 3在聊天和对话应用中的全部潜力，Meta创新了其指令微调方法。其方法结合了 有监督微调（SFT）、拒绝采样、近端策略优化（PPO）和 直接偏好优化（DPO）。

在SFT和PPO、DPO中使用的提示质量和偏好排名在对齐模型的性能中起到了至关重要的作用。Meta的团队仔细策划了这些数据，并对人类注释者提供的注释进行了多轮质量保证。

通过PPO和DPO对偏好排名进行训练也显著提高了Llama 3在推理和编码任务上的性能。Meta发现，即使模型难以直接回答推理问题，但它仍可能产生正确的推理跟踪。通过偏好排名进行训练使模型能够学习如何从这些跟踪中选择正确的答案。

结果不言自明：Llama 3在常见的行业基准测试中超越了许多可用的开源聊天模型，建立了8B和70B参数规模的LLM的新状态。

负责任的开发和安全考虑

在追求最先进的性能的同时，Meta也优先考虑了Llama 3的负责任的开发和部署实践。该公司采用了系统级方法，将Llama 3模型视为更广泛的生态系统的一部分，该生态系统让开发人员处于驾驶座位，使他们能够根据自己的特定用例和安全要求设计和自定义模型。

Meta进行了广泛的红队演练，进行了对抗性评估，并实施了安全缓解技术，以降低其指令微调模型的残余风险。然而，该公司承认，残余风险可能仍然存在，并建议开发人员在其特定用例的背景下评估这些风险。

为了支持负责任的部署，Meta已更新了其负责任使用指南，提供了一个全面的资源，供开发人员为其应用程序实施模型和系统级安全最佳实践。该指南涵盖了内容审查、风险评估以及使用安全工具（如Llama Guard 2和Code Shield）的主题。

Llama Guard 2建立在MLCommons分类法的基础上，旨在对LLM输入（提示）和响应进行分类，检测可能被认为是不安全或有害的内容。CyberSecEval 2在其前身的基础上添加了措施，以防止对模型代码解释器、攻击性网络安全功能和对提示注入攻击的易受性进行滥用。

Code Shield是Llama 3中引入的新功能，在推理时过滤LLM生成的不安全代码，从而减轻了不安全代码建议、代码解释器滥用和安全命令执行相关的风险。

访问和使用Llama 3

在Meta AI的Llama 3发布后，已经有多种开源工具可用于在各种操作系统（包括Mac、Windows和Linux）上进行本地部署。本节详细介绍了三个值得注意的工具：Ollama、Open WebUI和LM Studio，每个工具都提供了独特的功能，以利用Llama 3的功能在个人设备上。

Ollama: 可用于Mac、Linux和Windows， Ollama 简化了在个人计算机上运行Llama 3和其他大型语言模型的操作，即使是在硬件不太强大的设备上。它包括一个包管理器，用于轻松管理模型，并支持跨平台的命令以下载和运行模型。

Open WebUI with Docker: 该工具提供了一个用户友好的、基于 Docker 的界面，兼容Mac、Linux和Windows。它与Ollama注册表中的模型无缝集成，允许用户在本地Web界面中部署和与模型（如Llama 3）交互。

LM Studio: 面向Mac、Linux和Windows用户， LM Studio 支持一系列模型，并建立在llama.cpp项目之上。它提供了一个聊天界面，并促进了与各种模型（包括Llama 3 8B Instruct模型）的直接交互。

这些工具确保用户可以在个人设备上高效地利用Llama 3，每个平台都提供了设置和模型交互的分步骤过程，以适应不同技术技能和要求。

在规模上部署Llama 3

除了提供直接访问模型权重外，Meta还与各种云提供商、模型API服务和硬件平台合作，以实现Llama 3的无缝部署。

Llama 3的一个关键优势是其改进的令牌效率，得益于新的分词器。基准测试表明，Llama 3与Llama 2相比，需要的令牌少了 15%，从而实现了更快、更具成本效益的推理。

在8B版本的Llama 3中集成的分组查询注意力（GQA）有助于保持与Llama 2的7B版本相当的推理效率，尽管参数数量增加了。

为了简化部署过程，Meta提供了Llama Recipes仓库，该仓库包含用于微调、部署、模型评估等的开源代码和示例。该仓库是开发人员希望利用Llama 3功能的宝贵资源。

对于那些有兴趣探索Llama 3性能的人来说，Meta已将其最新模型集成到Meta AI中，Meta AI是使用Llama 3技术构建的领先AI助手。用户可以通过各种Meta应用程序（如Facebook、Instagram、WhatsApp、Messenger和Web）与Meta AI交互，以完成任务、学习、创造和与他们关心的东西建立联系。

Llama 3的未来

虽然8B和70B模型标志着Llama 3发布的开始，但Meta对Llama 3的未来有着雄心壮志的计划。

在接下来的几个月里，我们可以期待看到新的功能被引入，包括多模态（处理和生成不同数据模态，例如图像和视频）、多语言支持以及更长的上下文窗口，以增强需要大量上下文的任务的性能。

此外，Meta计划发布更大的模型大小，包括具有超过400亿参数的模型，这些模型目前正在训练中，并且在性能和功能方面显示出有希望的趋势。

为了进一步推进该领域的发展，Meta还将发布一篇关于Llama 3的详细研究论文，与更广泛的AI社区分享其发现和见解。

作为对即将发生的事情的预览，Meta已经分享了一些其最大LLM模型在各种基准测试中的性能的早期快照。虽然这些结果基于早期的检查点，并且可能会有所改变，但它们为Llama 3的未来潜力提供了一个令人兴奋的预览。

结论

Llama 3代表着开源大型语言模型演进的一个重要里程碑，推动了性能、功能和负责任的开发实践的边界。凭借其创新架构、巨大的训练数据集和最先进的微调技术，Llama 3在8B和70B参数规模上为LLM建立了新的最先进基准。

然而，Llama 3不仅仅是一个强大的语言模型；它是Meta致力于培养一个开放和负责任的AI生态系统的证明。通过提供全面资源、安全工具和最佳实践，Meta赋予开发人员利用Llama 3的全部潜力并确保其部署方式适合其特定用例和受众的能力，同时保持负责任的部署实践。

随着Llama 3的旅程继续进行，新的功能、模型大小和研究发现即将到来，AI社区热切期待着将从这个开创性的LLM中涌现出的创新应用和突破。

无论您是推动自然语言处理边界的研究人员，还是构建下一代智能应用的开发人员，还是对最新进展感到好奇的AI爱好者，Llama 3都承诺成为您武器库中的一种强大工具，开启新的机会和可能性的大门。

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI