人工智能
开源与闭源语言模型之战:技术分析
近年来,大型语言模型(LLMs)在人工智能社区中引起了广泛关注,推动了自然语言处理领域的突破。然而,在这一热潮背后,却存在着一个复杂的争论——这些强大的模型应该是开源还是闭源?
在本文中,我们将分析开源和闭源方法之间的技术区别,以了解每种方法所带来的机会和局限性。我们将涵盖以下关键方面:
- 定义开源和闭源LLMs
- 架构透明度和可定制性
- 性能基准测试
- 计算要求
- 应用多样性
- 可访问性和许可
- 数据隐私和保密性
- 商业支持和维护
通过本文,您将对开源和闭源LLMs之间的技术权衡有一个明确的了解,从而指导您自己的AI策略。让我们开始!
定义开源和闭源LLMs
开源LLMs具有公开可访问的模型架构、源代码和权重参数。这使得研究人员可以检查内部结构、评估质量、复制结果并构建自定义变体。著名的例子包括Anthropic的ConstitutionalAI、Meta的LLaMA和EleutherAI的GPT-NeoX。
相比之下,闭源LLMs将模型架构和权重视为专有资产。像Anthropic、DeepMind和OpenAI这样的商业实体在内部开发它们。由于无法访问代码或设计细节,复制性和可定制性面临限制。
架构透明度和可定制性
访问开源LLM内部解锁了可定制化的机会,这些机会在闭源替代品中是不可能的。
通过调整模型架构,研究人员可以探索诸如引入层之间的稀疏连接或添加专用分类令牌以增强性能的技术,从而在特定任务上提高性能。通过访问权重参数,开发人员可以转移现有的表示或使用预训练的构建块(如T5和BERT嵌入)初始化变体。
这种可定制性使开源LLMs更好地服务于专门的领域,如生物医学研究、代码生成和教育。然而,需要的专业知识可能会提高生产质量实现的门槛。
闭源LLMs提供有限的可定制性,因为它们的技术细节仍然是专有的。然而,它们的支持者致力于大量的内部研究和开发。所产生的系统推动了通用LLM架构的可能性边界。
因此,虽然灵活性较低,但闭源LLMs在广泛适用的自然语言任务中表现出色。它们还通过遵循既定的接口标准(如OpenAPI标准)简化了集成。
性能基准测试
尽管具有架构透明度,但测量开源LLM的性能引入了挑战。它们的灵活性使得可能存在无数种配置和调优策略。同时,也允许被标记为“开源”的模型实际上包含专有技术,这会扭曲比较结果。
闭源LLMs则具有更明确的性能目标,因为它们的支持者对特定的指标阈值进行基准测试和宣传。例如,Anthropic公开了ConstitutionalAI在精心策划的NLU问题集上的准确率。Microsoft强调了GPT-4在SuperGLUE语言理解工具包上超越人类基线的能力。
话虽如此,这些狭义的基准测试面临批评,认为它们夸大了模型在实际任务中的性能,并低估了失败的表现。真正的无偏见LLM评估仍然是一个开放的研究问题——对于开源和闭源方法都是如此。
计算要求
训练大型语言模型需要大量的计算资源。OpenAI在云基础设施上花费数百万美元训练GPT-3,而Anthropic则为ConstitutionalAI消耗了价值超过1000万美元的GPU。
对于开源社区中的个人和小团队来说,这样的模型费用是难以承受的。事实上,EleutherAI不得不由于托管成本激增而将GPT-J模型从公共访问中删除。
没有深厚的钱袋,开源LLM的成功故事依赖于捐赠的计算资源。LAION利用众包数据策划了他们的技术专注的LAION-5B模型。非营利组织Anthropic ConstitutionalAI项目利用了志愿者计算。
像Google、Meta和Baidu这样的大型科技公司为闭源努力提供了必要的财务燃料来工业化LLM的开发。这使得它们可以扩展到开源草根计划难以想象的规模——看看DeepMind的280亿参数Gopher模型。
应用多样性
开源LLM的可定制性赋予了它们处理高度专门化用例的能力。研究人员可以大胆地修改模型内部以提高在特定任务上的性能,如蛋白质结构预测、代码文档生成和数学证明验证。
话虽如此,能够访问和编辑代码并不保证没有合适的数据就能获得有效的领域特定解决方案。为狭窄的应用程序策划和更新全面训练数据集需要大量的努力。
在这里,闭源LLM从内部仓库和商业伙伴那里获取训练数据的资源中受益。例如,DeepMind许可ChEMBL用于化学和UniProt用于蛋白质的数据库,以扩大应用范围。工业规模的数据访问使得像Gopher这样的模型能够实现令人惊叹的多样性,尽管其架构不透明。
可访问性和许可
开源LLM的宽松许可促进了免费访问和协作。像GPT-NeoX、LLaMA和Jurassic-1 Jumbo这样的模型使用Creative Commons和Apache 2.0等协议,允许非商业研究和公平的商业化。
相比之下,闭源LLM带有限制性许可,限制了模型的可用性。商业实体严格控制访问以保护潜在的收入流来自预测API和企业合作伙伴关系。
可以理解,像Anthropic和Cohere这样的组织会为ConstitutionalAI和Cohere-512接口收费。然而,这可能会使重要的研究领域因价格而被排除在外,同时将开发偏向于资金充足的行业。
开源许可也带来了挑战,特别是在归属和责任方面。然而,对于研究用例来说,开源的可访问性所提供的自由具有明显的优势。
数据隐私和保密性
训练LLM的数据集通常聚合来自各种在线来源的内容,如网页、科学文章和讨论论坛。这就存在在模型输出中泄露个人可识别信息或其他敏感信息的风险。
对于开源LLM,检查数据集的组成提供了对抗保密性问题的最佳保障。评估数据来源、过滤程序和在测试期间发现的令人担忧的示例,可以帮助识别漏洞。
不幸的是,闭源LLM不允许进行此类公开审计。相反,消费者必须依赖内部审查流程的严谨性,这些流程基于宣布的政策。例如,Azure Cognitive Services承诺过滤个人数据,而Google指定了正式的隐私审查和数据标记。
总体而言,开源LLM使得在AI系统中更积极地识别保密性风险成为可能,在这些风险在大规模上表现出来之前。闭源对应物提供了相对有限的透明度,用于数据处理实践。
商业支持和维护
闭源LLM的商业化潜力激励了大量的商业投资用于开发和维护。例如,预计其Azure AI产品组合将带来可观的回报,Microsoft同意与OpenAI就GPT模型达成数十亿美元的合作伙伴关系。
相比之下,开源LLM依赖于志愿者分配个人时间用于维护或提供有限期限的资助。这种资源不对称可能会危及开源项目的连续性和长期性。
然而,商业化的障碍也使开源社区能够专注于科学进步而不是利润。开源生态系统的去中心化性质也减轻了对任何单一支持者的持续兴趣的依赖。
最终,每种方法都带来了资源和激励的权衡。闭源LLM享有更大的资金保障,但集中了影响力。开源生态系统促进了多样性,但面临着更大的不确定性。
导航开源与闭源LLM的格局
在开源和闭源LLM之间做出决定,需要将组织的优先事项(如可定制性、可访问性和可扩展性)与模型的能力相匹配。
对于研究人员和初创企业,开源提供了更多的控制权来调整模型以适应特定任务。许可也促进了跨合作伙伴的洞察共享。然而,获取训练数据和基础设施的负担可能会损害现实世界的可行性。
相反,闭源LLM承诺通过大量资金和数据带来显著的质量改进。然而,围绕访问和修改的限制限制了科学透明度,同时将部署绑定到供应商的路线图。
在实践中,围绕架构规范、模型检查点和评估数据的开放标准可以帮助抵消两种方法的缺点。共享的基础,如Google的Transformer或牛津的REALTO基准,提高了可复制性。像ONNX这样的互操作性标准允许混合开源和闭源组件。
最终,选择合适的工具——开源或闭源——来完成手头的任务至关重要。支持闭源LLM的商业实体拥有不可否认的影响力。但开源科学社区的热情和原则将继续在推动AI进步中发挥至关重要的作用。












