在生成式 AI 时代重新思考开源

Published July 31, 2025

Updated April 26, 2026

Dr. Yair Adato, CEO and Founder of Bria

开源模型是一种软件开发理念，即源代码可以免费公开用于修改或再分发，长期以来一直是创新发展的催化剂。这个理念诞生于 1983 年，当时软件开发者理查德·斯托曼对他的封闭源代码打印机感到沮丧。

他的愿景激发了自由软件运动，为今天的互联网和软件创新奠定了基础。

但那已经是 40 多年前的事情了。

如今，具有独特技术和伦理挑战的生成式 AI 正在重新定义“开放”的含义，要求我们重新审视和调整开源范式 —— 不是为了放弃它，而是为了使其适应新时代。

AI 和开源自由

开源软件的四项基本自由 —— 运行、学习、修改和再分发任何软件代码 —— 在几个方面与生成式 AI 的性质相矛盾：

这些核心原则的侵蚀并非出于恶意，而是现代 AI 系统的复杂性和成本所致。事实上，训练最先进的 AI 模型的财务需求在近年来大幅增加 —— 据报道，OpenAI 的 GPT-4 的训练成本高达 7800 万美元，不包括员工工资，总支出超过 1 亿美元。

真正的开源 AI 模型需要推理源代码、训练源代码、模型权重和训练数据的完全透明度。然而，许多被标记为“开源”的模型只会发布推理代码或部分权重，而其他模型则提供有限的许可或完全限制商业使用。

这种不完全的开放性制造了开源原则的幻觉，但在实践中却有所欠缺。

考虑到开源倡议（OSI）的一项分析发现，几种流行的大型语言模型 —— 包括 Llama2 和 Llama 3.x（由 Meta 开发）、Grok（X）、Phi-2（Microsoft）和 Mixtral（Mistral AI）—— 声称是开源的，但在结构上与开源原则不相容。

大多数开源软件都是基于志愿者驱动或资助的努力，而不是计算密集型、高成本的基础设施。另一方面，AI 模型的训练和维护成本很高，预计这些成本只会继续上升。Anthropic 的 CEO Dario Amodei 预测，训练一款尖端模型的成本可能高达 100 亿美元。

没有可持续的资金模型或激励结构，开发者面临着限制访问或面临财务崩溃的选择。

AI 模型的可访问性变得越来越混乱，许多平台将自己标记为“开源”，同时施加限制，这些限制从根本上违背了真正的开源原则。这种“手法”以多种方式体现：

在这些情况下，“仅用于研究”的说法只是“关闭商业”的委婉语。结果是虚假的供应商锁定，组织投入时间和资源到看似开放的平台，但当他们尝试扩大规模或商业化应用时，却发现了关键限制。

这种困惑不仅仅会让开发者感到沮丧，还会积极地破坏对 AI 生态系统的信任。它在利益相关者中制造了不切实际的期望，他们理所当然地认为“开源”AI 与开源软件社区相似，在那里，透明度、修改权和商业自由得到维护。

生成式 AI 的快速发展已经超过了适当的法律框架的发展，造成了复杂的知识产权挑战，增加了现有的担忧。

AI 生成的衍生作品的所有权代表了另一个法律模糊性。目前还不清楚如何对待 AI 生成的内容，除了美国版权局，它指出：“如果 AI 完全生成内容，则不能受到版权保护。”

围绕生成式 AI 的法律不确定性，特别是关于版权侵犯、AI 生成作品的所有权以及训练数据中的未经许可的内容，变得更加严重，因为基础 AI 模型作为地缘政治重要性的工具出现：各国争相开发更好的 AI 能力，可能不太倾向于限制数据访问，这将使具有更严格的知识产权保护的国家处于竞争劣势。

生成式 AI 的发展已经不可逆转，显示出没有减缓的迹象。我们希望建设一个未来，AI 能够促进创新，而不是扼杀创新。在这种情况下，科技领袖需要一个框架，以确保安全和透明的商业使用，促进负责任的创新，解决数据所有权和许可问题，并区分“开源”和“免费”。

一种新兴的概念，开源商业许可，可能提供了一条前进的道路，提出非商业使用的免费访问、商业使用的许可访问，以及对数据的起源和所有权的承认和尊重。

为了适应这种新现实，开源社区必须开发特定于 AI 的开源许可模型，建立公私合作伙伴关系来资助这些模型，并建立透明度、安全性和伦理的可信标准。

开源曾经改变了世界。生成式 AI 正在再次改变世界。为了保持开放的精神，我们必须进化开放的法律，承认 AI 的独特需求，同时直接解决挑战，以创建一个包容性和可持续的生态系统。