BEST OF
5 个最佳开源法学硕士 (2025 年 XNUMX 月)

大型语言模型 (法学硕士)已成为当今人工智能的基石,推动创新并重塑我们与技术互动的方式。
随着这些模型变得越来越复杂,人们越来越重视对它们的访问的民主化。 尤其是开源模型,在这种民主化过程中发挥着关键作用,为研究人员、开发人员和爱好者提供了深入研究其复杂性、针对特定任务进行微调、甚至在其基础上进行构建的机会。
在这篇博客中,我们将探讨一些在人工智能社区掀起波澜的顶级开源法学硕士。每个人都具有其独特的优势和能力。
1. 骆驼3
Meta 的 Llama 3 代表了其开源大型语言模型阵容的巨大飞跃。作为 2 年发布的突破性 Llama 2023 的继任者,Llama 3 为 8B 和 70B 参数尺度的公开可用模型建立了新的最先进技术。这不仅仅是增量更新;这是一项变革性的进步,将使开发人员能够构建尖端的自然语言应用程序,同时刺激人工智能领域的开放研究和创新。
Llama 3 无与伦比的性能得益于其预训练过程和架构的重大改进。该模型在来自公开来源的超过 15 万亿个代币的海量数据集上进行训练,数据量比 Llama 7 多出惊人的 2 倍。其中包括 4 倍多的代码数据以增强 Llama 3 的编码能力,以及 30 多个的显着覆盖语言,为未来的多语言版本奠定基础。使用广泛的过滤来管理这些数据,确保 Llama 3 仅从最高质量的来源学习。
但 Llama 3 的增强不仅仅是更多的数据。对模型架构和训练过程的前沿优化极大地提高了其推理能力、代码生成、指令跟踪和响应多样性。改进的标记器使 Llama 3 的标记效率比其前身提高了 15%。分组查询注意力使 8B 模型能够保持与之前的 7B 模型的推理奇偶性。

资料来源:元
最终结果是一个擅长各种复杂语言任务的语言模型:
- 创意一代:Llama 3 可以以故事、剧本、音乐作品、诗歌等形式生成高度连贯且富有创意的文本。
- 编码和推理:由于其增强的代码训练数据,Llama 3 拥有令人难以置信的强大编码和逻辑推理能力,可以解决复杂的问题。
- 问题回答:通过将广泛的知识库中的信息连接起来,Llama 3 可以为不同主题的问题提供知识渊博的答案。
- 概要:Llama 3 擅长对长篇文章和事实内容进行简洁而全面的摘要。
- 遵循指令:Llama 3 最令人印象深刻的壮举之一是它能够准确遵循复杂的多步骤指令来执行开放式任务。
Llama 系列的未来是光明的。 Meta 已经在开发具有超过 3B 参数的 Llama 400 版本,这些参数不仅更大,而且支持多语言和多模式。早期测试表明,这些超大规模模型提供了可与最好的专有系统竞争的有希望的结果。

资料来源:元
2. Bloom
经过人工智能公司 Hugging Face 领导、来自 2022 多个国家的 1,000 多名志愿者研究人员长达一年的合作努力,BLOOM 项目于 70 年揭晓。 BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)是一个 176 亿参数的大语言模型,专为自回归文本生成而设计,能够扩展给定的文本提示以生成连贯的故事、脚本、诗歌、文章等。
BLOOM 的与众不同之处在于其开放获取的性质——模型、源代码和训练数据都可以在开放许可下免费获得,这与科技公司开发的大多数其他大型语言模型不同。这种开放性吸引了更广泛的人工智能社区不断检查、利用和增强该模型。
BLOOM 拥有令人印象深刻的多语言功能,已在涵盖 1.6 种自然语言和 46 种编程语言的 13TB 庞大数据集(ROOTS 语料库)上进行了训练,其中超过 30% 的数据是英语。对于西班牙语和阿拉伯语等许多语言,BLOOM 是同尺寸的第一个模型。
该模型在法国的 Jean Zay 超级计算机上使用 3.5 个 NVIDIA A384 GPU 进行了超过 100 个月的训练,这得益于法国政府的计算拨款,相当于超过 5 万小时的计算时间。基于经过修改的 GPT 架构,BLOOM 在基准测试中实现了具有竞争力的性能。
BLOOM 的主要优势:
- 开放获取: BLOOM 的模型、代码和训练数据均可免费获取,从而实现了对强大语言模型的民主化访问并支持开放研究。
- 多语言能力: BLOOM 经过 46 种自然语言和 13 种编程语言的数据训练,具有广泛的多语言功能。
- 多才多艺的语言技能: 从文本生成到问答、摘要、翻译和代码生成,BLOOM 擅长各种语言任务。
- 负责任的人工智能开发: BLOOM 的开发重点是负责任的人工智能实践,并根据禁止恶意使用案例的许可证发布。
- 轻松部署: 开发人员可以通过 Hugging Face Transformers 库访问 BLOOM 并使用 Accelerate 进行部署。
展望未来,BigScience 团队计划将 BLOOM 扩展到更多语言,压缩模型,并将其用作更高级架构的起点。 BLOOM 代表了使大型语言模型更加透明且可供所有人访问的重要一步。
3. MPT-7B
MosaicML Foundations 推出了最新的开源 LLM MPT-7B,为这一领域做出了重大贡献。 MPT-7B 是 MosaicML Pretrained Transformer 的缩写,是一种 GPT 风格的仅解码器变压器模型。 该模型拥有多项增强功能,包括性能优化的层实现和确保更高训练稳定性的架构更改。
MPT-7B 的一个突出特点是它在包含 1 万亿个文本和代码标记的广泛数据集上进行训练。 这项严格的培训在 MosaicML 平台上进行,历时 9.5 天。
MPT-7B 的开源性质使其成为商业应用的宝贵工具。 它有可能对企业和组织的预测分析和决策过程产生重大影响。
除了基本模型之外,MosaicML Foundations 还发布了针对特定任务量身定制的专用模型,例如用于执行简短指令的 MPT-7B-Instruct、用于生成对话的 MPT-7B-Chat 以及 MPT-7B-StoryWriter-65k+用于长篇故事创作。
MPT-7B 的开发过程非常全面,MosaicML 团队在几周内管理了从数据准备到部署的所有阶段。 数据来自不同的存储库,团队利用 EleutherAI 的 GPT-NeoX 和 20B 分词器等工具来确保多样化和全面的培训组合。
MPT-7B 主要特性概述:
- 商业许可: MPT-7B 已获得商业用途许可,这使其成为企业的宝贵资产。
- 广泛的培训数据: 该模型拥有在包含 1 万亿个代币的庞大数据集上进行训练的能力。
- 长输入处理: MPT-7B 旨在毫不妥协地处理极长的输入。
- 速度和效率: 该模型针对快速训练和推理进行了优化,确保及时获得结果。
- 开源代码: MPT-7B 配备高效的开源训练代码,提高透明度和易用性。
- 比较卓越: MPT-7B 已展现出优于 7B-20B 系列中其他开源型号的优势,其质量可与 LLaMA-7B 相媲美。
4. 猎鹰2
*有关 Falcon 180B(Falcon 2 的前身)的视频
Falcon 2 是阿布扎比技术创新研究所 (TII) 推出的最新一代开源大型语言模型,其基础是 7 年发布的早期 Falcon 40B、180B 和 2023B 模型的成功。Falcon 2 系列目前包括:
- 猎鹰 2 11B: 一个 11 亿参数的因果解码器模型,在标准基准测试中优于 Meta 的 LLaMA 3 8B,并与 Google 的 Gemma 7B 模型相当,经 Hugging Face 排行榜验证。
- 猎鹰 2 11B VLM: Falcon 2 11B 的突破性多模式版本具有视觉到语言功能,使其成为唯一提供此功能的开源模型之一。

资料来源:TII
Falcon 2 模型在宽松的 TII Falcon License 2.0 下完全开源,基于 Apache 2.0,但具有可接受的使用政策,以促进负责任的 AI 开发。这允许免费使用模型进行研究和大多数商业应用。
Falcon 2 模型接受了来自增强型 RefinedWeb 数据集的超过 5 万亿个令牌的训练,其中包括高质量网络数据、书籍、技术写作、代码和对话的多样化组合。使用广泛的过滤和重复数据删除技术来提取最佳数据。虽然仍然主要以英语为中心,但部分训练数据涵盖了德语、西班牙语、法语和意大利语等其他语言,为未来的多语言模型奠定了基础。
Falcon 2 采用优化的仅解码器变压器架构,与其他开放模型相比,可在更小的规模下实现强大的性能。 TII 计划在即将发布的版本中使用专家混合等技术进一步提高效率。
在原始能力方面,Falcon 2 11B 在广泛的自然语言任务上表现出色,包括:
- 连贯的长篇内容(例如故事和文章)的文本生成
- 通过连接不同主题的信息来回答知识渊博的问题
- 长文章或事实内容的高质量摘要
- 微调后可准确遵循指令
- 在编码和推理基准测试中表现稳定
Falcon 2 11B VLM 变体增加了理解图像并根据视觉和语言输入生成文本的独特能力。这使得强大的多模式用例成为可能,例如视觉问答、图像字幕和视觉到语言推理。
展望未来,TII 已分享计划以更大的型号扩展 Falcon 2 系列,同时保持对效率和开放访问的关注。将利用专家混合等技术来扩展能力,而不会大幅增加计算要求。
5. 骆驼毛-13B
LMSYS ORG 凭借 Vicuna-13B 在开源法学硕士领域取得了重大成就。这个开源聊天机器人已经通过使用公共 API 对来自 ShareGPT.com 的约 70 万个用户共享对话进行微调 LLaMA 进行了精心训练。为了确保数据质量,对话从 HTML 转换回 Markdown,并进行过滤以删除不适当或低质量的样本。冗长的对话也被分成适合模型最大上下文长度的较小片段。
由GPT-4担任评委的初步评估表明,Vicuna-13B达到了OpenAI ChatGPT和Google Bard等知名模型90%以上的质量。令人印象深刻的是,Vicuna-13B 在当时超过 90% 的情况下表现优于其他著名模型,例如 LLaMA 和斯坦福羊驼。 Vicuna-13B 的整个训练过程的执行成本约为 300 美元,利用现场实例、梯度检查点和闪存注意力等技术来优化内存使用并降低成本。对于那些有兴趣探索其功能的人,代码、权重和在线演示已公开用于非商业目的。
Vicuna 的训练配方建立在斯坦福大学的羊驼模型的基础上,并进行了几项关键改进:
- 多轮对话: 调整训练损失以考虑多轮对话,仅根据聊天机器人的输出计算微调损失。
- 内存优化: 最大上下文长度从 Alpaca 的 512 扩展到 Vicuna 的 2048,从而能够理解更长的上下文,但代价是增加 GPU 内存需求。这是通过梯度检查点和闪光注意来解决的。
- 降低成本: 40 倍大的数据集和 4 倍序列长度对培训费用提出了挑战,但通过 SkyPilot 使用托管现货实例可显着降低成本 - 82B 模型从 140 万美元降至 7 美元,135B 模型从 300 万美元降至 13 美元。
为了服务 Vicuna,构建了一个分布式服务系统,能够处理多个模型,并且工作人员可以从本地集群或云灵活地插入。利用容错控制器和托管现货实例,该系统可以与来自多个云的更便宜的现货实例良好配合,从而最大限度地降低服务成本。虽然目前是轻量级实施,但整合最新研究成果的工作正在进行中,以进一步增强服务基础设施。
Vicuna-13B 的主要特点:
- 开源性质: Vicuna-13B 可供公众访问,促进透明度和社区参与。
- 广泛的培训数据: 该模型已经过 70 万个用户共享对话的训练,确保全面理解不同的交互。
- 具有成本效益的培训: 托管 Spot 实例、梯度检查点和 Flash Attention 等技术使 300B 模型的训练成本高效,成本约为 13 美元。
- 强化训练配方: Vicuna 以羊驼配方为基础,在多轮对话处理、内存优化和降低成本方面进行了改进。
- 分布式服务基础设施: 建立了一个灵活且经济高效的分布式服务系统,使 Vicuna 可供公众访问。
- 在线演示可用性: 交互式在线演示可供用户测试和体验 Vicuna-13B 的功能。
值得注意的是,该分析是基于使用 GPT-4 进行的初步非科学评估。仍需严格评估。