AI 模型与平台
您需要了解的关于 Llama 3 的一切 | 最强大的开源模型 | 概念到使用
Meta最近发布了Llama 3,其下一代的开源大型语言模型(LLM)。在其前身的基础上,Llama 3旨在增强其作为开源ChatGPT竞争者的能力,如Llama 2:深入了解开源ChatGPT竞争者文章中的综合评论所述。
在本文中,我们将讨论Llama 3背后的核心概念,探索其创新架构和训练过程,并提供如何访问、使用和负责地部署该开创性模型的实用指导。无论您是研究人员、开发人员还是AI爱好者,本文都将为您提供所需的知识和资源,以便您能够利用Llama 3的力量为您的项目和应用程序服务。
Llama的演变:从Llama 2到Llama 3
Meta的CEO马克·扎克伯格(Mark Zuckerberg)宣布了Llama 3的发布,这是Meta AI开发的最新AI模型。该开源模型将增强Meta的各种产品,包括Messenger和Instagram。扎克伯格强调,Llama 3使Meta AI成为最先进的免费可用的AI助手。
在我们讨论Llama 3的具体细节之前,让我们简要回顾其前身Llama 2。Llama 2于2022年推出,是开源LLM领域的一个重要里程碑,提供了一个强大且高效的模型,可以在消费级硬件上运行。
然而,虽然Llama 2是一个值得注意的成就,但它也有一些局限性。用户报告了虚假拒绝(模型拒绝回答良性提示)、有限的有用性以及推理和代码生成等领域需要改进的地方。
这就是Llama 3的由来:Meta对这些挑战和社区反馈的回应。通过Llama 3,Meta旨在建立与当今最好的专有模型相当的开源模型,同时优先考虑负责的开发和部署实践。
Llama 3:架构和训练
Llama 3的一个关键创新是其分词器,它具有显著扩大的词汇表,包含128,256个令牌(比Llama 2的32,000个令牌多)。这种更大的词汇表可以更高效地对文本进行编码,无论是输入还是输出,这可能会带来更强的多语言支持和整体性能改进。
Llama 3还融入了分组查询注意力(GQA),一种提高可扩展性和处理更长上下文的高效表示技术。Llama 3的8B版本使用GQA,而8B和70B模型都可以处理最多8,192个令牌的序列。
训练数据和扩展
Llama 3的训练数据是其改进性能的关键因素。Meta策划了一个包含超过15万亿个令牌的巨大数据集,这个数据集比Llama 2使用的数据集大七倍。该数据集还包括大量(超过5%)高质量的非英语数据,涵盖了超过30种语言,为未来的多语言应用做好了准备。
为了确保数据质量,Meta采用了高级筛选技术,包括启发式筛选器、NSFW筛选器、语义去重和使用Llama 2训练的文本分类器来预测数据质量。该团队还进行了广泛的实验,以确定预训练的最佳数据源混合,确保Llama 3在广泛的用例中表现良好,包括琐事、STEM、编码和历史知识。
扩大预训练规模是Llama 3开发的另一个关键方面。Meta开发了预测其最大模型在关键任务(如代码生成)上的性能的扩展规律,这使他们能够在实际训练模型之前预测其性能。这种方法使他们能够对数据混合和计算分配做出明智的决定,最终导致更高效、更有效的训练。
Llama 3的最大模型是在两个自定义的24,000个GPU集群上训练的,利用了数据并行化、模型并行化和管道并行化技术的组合。Meta的高级训练堆栈自动化了错误检测、处理和维护,最大限度地提高了GPU的使用率,并将训练效率提高了大约三倍,相比Llama 2。
指令微调和性能
为了解锁Llama 3在聊天和对话应用中的全部潜力,Meta创新了其指令微调方法。其方法结合了有监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接偏好优化(DPO)。
SFT和PPO、DPO中使用的提示质量以及偏好排名在对齐模型的性能中起到了至关重要的作用。Meta的团队仔细策划了这些数据,并对人类注释者提供的注释进行了多轮质量保证。
通过PPO和DPO对偏好排名进行训练也显著提高了Llama 3在推理和编码任务上的性能。Meta发现,即使模型难以直接回答推理问题,但它仍可能产生正确的推理跟踪。通过偏好排名的训练使模型能够从这些跟踪中学习如何选择正确的答案。
结果不言自明:Llama 3在常见的行业基准测试中超越了许多可用的开源聊天模型,建立了8B和70B参数规模的LLM的新最先进性能。
负责的开发和安全考虑
在追求最先进的性能的同时,Meta也优先考虑了Llama 3的负责开发和部署实践。该公司采用了一种系统级方法,将Llama 3模型视为一个更广泛的生态系统的一部分,该生态系统将开发人员置于驾驶座位,允许他们为自己的特定用例和安全要求设计和自定义模型。
Meta进行了广泛的红队演习,进行了对抗性评估,并实施了安全缓解技术,以降低其指令微调模型中的残余风险。然而,该公司承认,残余风险可能仍然存在,并建议开发人员在其特定用例的背景下评估这些风险。
为了支持负责的部署,Meta更新了其《负责使用指南》,为开发人员提供了一个全面资源,以实施模型和系统级安全最佳实践。该指南涵盖了内容审查、风险评估以及使用Llama Guard 2和Code Shield等安全工具等主题。
Llama Guard 2基于MLCommons分类法,旨在对LLM输入(提示)和响应进行分类,检测可能被认为不安全或有害的内容。CyberSecEval 2在其前身的基础上增加了措施,以防止对模型的代码解释器、网络安全功能和对提示注入攻击的滥用。
Code Shield是Llama 3中的一项新功能,在推理时过滤LLM生成的不安全代码,减轻了不安全代码建议、代码解释器滥用和安全命令执行相关的风险。
访问和使用Llama 3
在Meta AI的Llama 3发布后,已经有多个开源工具可用于在各种操作系统(包括Mac、Windows和Linux)上进行本地部署。本节介绍了三个值得注意的工具:Ollama、Open WebUI和LM Studio,每个工具都提供了独特的功能,以利用Llama 3的功能在个人设备上。
Ollama:适用于Mac、Linux和Windows,Ollama简化了在个人计算机上运行Llama 3和其他大型语言模型的操作,即使在硬件不太强大的计算机上。它包括一个包管理器,用于轻松管理模型,并支持跨平台的命令,用于下载和运行模型。
Open WebUI with Docker:该工具提供了一个用户友好的、Docker基于的界面,适用于Mac、Linux和Windows。它与Ollama注册表中的模型无缝集成,允许用户在本地Web界面中部署和与Llama 3等模型交互。
LM Studio:面向Mac、Linux和Windows用户,LM Studio支持一系列模型,并基于llama.cpp项目构建。它提供了一个聊天界面,并促进了与各种模型(包括Llama 3 8B Instruct模型)的直接交互。
这些工具确保用户可以在个人设备上高效地利用Llama 3,每个平台都提供了设置和模型交互的分步骤过程,使其更容易让开发人员和爱好者接触到先进的AI。
大规模部署Llama 3
除了提供直接访问模型权重外,Meta还与各种云提供商、模型API服务和硬件平台合作,以实现Llama 3的大规模无缝部署。
Llama 3的一个主要优势是其改进的令牌效率,得益于新的分词器。基准测试显示,Llama 3与Llama 2相比需要的令牌少了多达15%,从而实现了更快、更具成本效益的推理。
Llama 3的8B版本中Grouped Query Attention(GQA)的集成有助于保持与Llama 2的7B版本相当的推理效率,尽管参数数量增加。
为了简化部署过程,Meta提供了Llama Recipes仓库,包含用于微调、部署、模型评估等的开源代码和示例。该仓库是开发人员利用Llama 3功能的宝贵资源。
对于那些有兴趣探索Llama 3性能的人,Meta将其最新模型集成到Meta AI中,Meta AI是使用Llama 3技术构建的领先AI助手。用户可以通过各种Meta应用程序(如Facebook、Instagram、WhatsApp、Messenger和Web)与Meta AI交互,实现目标、学习、创作和与重要事物建立联系。
Llama 3的未来
虽然8B和70B模型标志着Llama 3发布的开始,但Meta对该开创性的LLM的未来有雄心壮志的计划。
在接下来的几个月里,我们可以期待看到新的能力被引入,包括多模态(处理和生成不同数据模态的能力,例如图像和视频)、多语言支持以及更长的上下文窗口,以增强在需要大量上下文的任务上的性能。
此外,Meta计划发布更大的模型,包括具有超过400亿参数的模型,这些模型目前正在训练,并且在性能和能力方面显示出有希望的趋势。
为了进一步推进该领域的发展,Meta还将发布一篇关于Llama 3的详细研究论文,向更广泛的AI社区分享其发现和见解。
作为对即将发生的事情的预览,Meta分享了一些其最大LLM模型在各种基准测试上的性能的早期快照。虽然这些结果基于早期检查点,可能会有所改变,但它们为Llama 3的未来潜力提供了一个令人兴奋的预览。
结论
Llama 3代表着开源大型语言模型演进的一个重要里程碑,推动了性能、能力和负责的开发实践的边界。凭借其创新架构、庞大的训练数据集和最先进的微调技术,Llama 3为8B和70B参数规模的LLM建立了新的最先进基准。
然而,Llama 3不仅仅是一个强大的语言模型;它是Meta致力于培养开放和负责的AI生态系统的见证。通过提供全面资源、安全工具和最佳实践,Meta赋予开发人员利用Llama 3的全部潜力并确保其部署负责的能力,针对其特定的用例和受众。
随着Llama 3的旅程继续,新的能力、模型大小和研究发现即将到来,AI社区热切期待着将从这一开创性的LLM中涌现出的创新应用和突破。
无论您是自然语言处理的研究人员、下一代智能应用的开发人员,还是对最新进展感到好奇的AI爱好者,Llama 3都承诺成为您武器库中的一种强大工具,开启新的大门,解锁一个充满可能性的世界。















