Connect with us

人工智能

开源与闭源语言模型之战:技术分析

mm
open source vs close source LLM

近年来,大型语言模型(LLMs)在自然语言处理领域引发了广泛的关注,推动了这一领域的突破。然而,在这一热潮背后,却存在着一个复杂的争论——这些强大的模型应该是开源还是闭源?

在这篇文章中,我们将分析开源和闭源方法之间的技术差异,以了解每种方法的机会和局限性。我们将涵盖以下关键方面:

  • 定义开源与闭源LLMs
  • 架构透明度和可定制性
  • 性能基准测试
  • 计算要求
  • 应用多样性
  • 可访问性和许可
  • 数据隐私和保密
  • 商业支持和维护

通过这篇文章,您将对开源和闭源LLMs之间的技术权衡有一个明智的看法,以指导您自己的AI策略。让我们开始吧!

定义开源与闭源LLMs

开源LLMs的模型架构、源代码和权重参数都是公开可访问的。这使得研究人员可以检查内部结构、评估质量、复制结果和构建自定义变体。著名的例子包括Anthropic的ConstitutionalAI、Meta的LLaMA和EleutherAI的GPT-NeoX。

相比之下,闭源LLMs将模型架构和权重视为专有资产。像Anthropic、DeepMind和OpenAI这样的商业实体在内部开发它们。由于无法访问代码或设计细节,复制和定制面临限制。

架构透明度和可定制性

访问开源LLMs的内部结构可以解锁定制机会,这些机会在闭源替代品中是不可能的。

通过调整模型架构,研究人员可以探索诸如引入层之间的稀疏连接或添加专用分类令牌来增强性能的技术,以处理特定任务。此外,访问权重参数可以实现现有表示的迁移学习或使用预训练的构建块(如T5和BERT嵌入)初始化变体。

这种可定制性使得开源LLMs更好地服务于专门的领域,如生物医学研究、代码生成和教育。然而,需要的专业知识可能会提高生产质量实现的门槛。

闭源LLMs提供有限的定制,因为它们的技术细节仍然是专有的。然而,它们的支持者投入了大量的资源用于内部研究和开发。所产生的系统推动了通用LLM架构的可能性边界。

因此,虽然灵活性较低,但闭源LLMs在广泛适用的自然语言任务中表现出色。它们还通过遵循既定的接口标准(如OpenAPI标准)简化了集成。

性能基准测试

尽管架构透明,但衡量开源LLMs的性能引入了挑战。它们的灵活性使得可能的配置和调优策略数不胜数。同时,也允许模型以“开源”为前缀,但实际上包含专有技术,这会扭曲比较。

闭源LLMs则拥有更明确的性能目标,因为它们的支持者会基准测试和宣传特定的指标阈值。例如,Anthropic公开了ConstitutionalAI在精心策划的NLU问题集上的准确性。Microsoft强调了GPT-4在SuperGLUE语言理解工具包上超过人类基线的表现。

然而,这些狭义的基准测试面临批评,认为它们夸大了在真实任务中的性能,并低估了失败。真正的无偏见LLM评估仍然是一个开放的研究问题——对于开源和闭源方法都是如此。

计算要求

训练大型语言模型需要大量的计算资源。OpenAI在云基础设施上花费数百万美元训练GPT-3,而Anthropic则为ConstitutionalAI消耗了价值超过1000万美元的GPU。

对于开源社区来说,这样的模型费用排除了大多数个人和小团队。事实上,EleutherAI不得不从公共访问中删除GPT-J模型,因为托管成本激增。

没有深厚的钱袋,开源LLMs的成功故事依赖于捐赠的计算资源。LAION利用众包数据策划了其技术专注的LAION-5B模型。非营利组织Anthropic ConstitutionalAI项目利用志愿者计算。

像Google、Meta和Baidu这样的大型科技公司为闭源努力提供了必要的财务支持,以实现LLM开发的工业化。这使得它们可以扩展到开源草根计划难以想象的规模——看看DeepMind的280亿参数Gopher模型。

应用多样性

开源LLMs的可定制性赋予了它们处理高度专业化用例的能力。研究人员可以大胆地修改模型内部以提高性能,处理诸如蛋白质结构预测、代码文档生成和数学证明验证等特定任务。

然而,能够访问和编辑代码并不保证没有合适的数据就能得到有效的领域特定解决方案。为狭窄的应用程序策划和更新综合的训练数据集需要大量的努力。

在这里,闭源LLMs从内部仓库和商业伙伴那里获取训练数据的资源中受益。例如,DeepMind许可ChEMBL和UniProt等数据库,以扩展其应用范围。工业规模的数据访问使得像Gopher这样的模型能够实现令人惊叹的多样性,尽管其架构不透明。

可访问性和许可

开源LLMs的宽松许可促进了免费访问和协作。像GPT-NeoX、LLaMA和Jurassic-1 Jumbo这样的模型使用Creative Commons和Apache 2.0等协议,允许非商业研究和公平的商业化。

相比之下,闭源LLMs带有限制性许可,限制了模型的可用性。商业实体严格控制访问,以保护潜在的收入来源,例如预测API和企业合作伙伴关系。

可以理解,像Anthropic和Cohere这样的组织会为ConstitutionalAI和Cohere-512接口收费。然而,这可能会使重要的研究领域因价格而排除在外,并将开发倾向于资金充足的行业。

开源许可也带来了挑战,特别是在归属和责任方面。对于研究用例来说,开源的可访问性提供了明显的优势。

数据隐私和保密

训练LLMs的数据集通常聚合来自各种在线来源的内容,如网页、科学文章和讨论论坛。这可能会在模型输出中泄露个人可识别或其他敏感信息。

对于开源LLMs,检查数据集的组成提供了最好的防护措施,来防止保密问题。评估数据来源、过滤程序和在测试期间发现的令人担忧的示例,可以帮助识别漏洞。

不幸的是,闭源LLMs不允许进行这样的公开审计。相反,消费者必须依赖内部审查过程的严谨性,这些过程基于宣布的政策。例如,Azure Cognitive Services承诺过滤个人数据,而Google指定了正式的隐私审查和数据标记。

总体而言,开源LLMs使得在AI系统中更积极地识别保密风险成为可能,在这些风险在大规模上表现之前。闭源对应物提供了相对有限的透明度,来了解数据处理实践。

商业支持和维护

闭源LLMs的商业化潜力激励了大量的商业投资,用于开发和维护。例如,预计其Azure AI产品组合将获得可观的回报,Microsoft同意与OpenAI就GPT模型达成数十亿美元的合作伙伴关系。

相比之下,开源LLMs依赖于志愿者分配个人时间用于维护,或依赖于有限期的资助。这种资源不对称可能会危及开源项目的连续性和长期性。

然而,商业化的障碍也使得开源社区能够专注于科学进步,而不是利润。开源生态系统的去中心化性质也减轻了对任何单个支持者的持续兴趣的依赖。

最终,每种方法都带来了资源和激励的权衡。闭源LLMs享有更大的资金保障,但集中了影响力。开源生态系统促进了多样性,但面临更大的不确定性。

在开源与闭源LLM景观中导航

决定使用开源或闭源LLMs需要将组织的优先事项(如可定制性、可访问性和可扩展性)与模型的能力相匹配。

对于研究人员和初创企业来说,开源提供了更多的控制权,以便将模型调整到特定的任务。许可还促进了跨合作伙伴的洞察共享。然而,获取训练数据和基础设施的负担可能会损害现实世界的可行性。

相反,闭源LLMs承诺通过大量资金和数据带来显著的质量改进。然而,围绕访问和修改的限制限制了科学透明度,并将部署绑定到供应商的路线图。

在实践中,围绕架构规范、模型检查点和评估数据的开源标准可以帮助抵消两种方法的缺点。共享的基础,如Google的Transformer或牛津的REALTO基准,提高了可复制性。像ONNX这样的互操作性标准允许混合开源和闭源组件。

最终,选择合适的工具(开源或闭源)来完成任务至关重要。支持闭源LLMs的商业实体拥有不可否认的影响力。但开源科学社区的热情和原则将继续在推动AI进步中发挥至关重要的作用。

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献,特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。