思想领袖
在生成式 AI 时代重新思考开源

开源模型是一种软件开发理念,即源代码可以免费公开用于修改或再分发,长期以来一直是创新发展的催化剂。这个理念诞生于 1983 年,当时软件开发者理查德·斯托曼对他的封闭源代码打印机感到沮丧。
他的愿景激发了自由软件运动,为今天的互联网和软件创新奠定了基础。
但那已经是 40 多年前的事情了。
如今,具有独特技术和伦理挑战的生成式 AI 正在重新定义“开放”的含义,要求我们重新审视和调整开源范式 —— 不是为了放弃它,而是为了使其适应新时代。
AI 和开源自由
开源软件的四项基本自由 —— 运行、学习、修改和再分发任何软件代码 —— 在几个方面与生成式 AI 的性质相矛盾:
- 运行:AI 模型通常需要非常高的基础设施和计算成本,这限制了访问权限,因为资源受限。
- 学习和修改:AI 模型非常复杂,理解和修改它们而不需要访问代码和数据是一个重大的挑战。
- 再分发:许多 AI 模型通过设计限制再分发,特别是那些具有训练权重和平台提供商拥有的专有数据集的模型。
这些核心原则的侵蚀并非出于恶意,而是现代 AI 系统的复杂性和成本所致。事实上,训练最先进的 AI 模型的财务需求在近年来大幅增加 —— 据报道,OpenAI 的 GPT-4 的训练成本高达 7800 万美元, 不包括员工工资,总支出超过 1 亿美元。
“开源”AI 的复杂性
真正的开源 AI 模型需要推理源代码、训练源代码、模型权重和训练数据的完全透明度。然而,许多被标记为“开源”的模型只会发布推理代码或部分权重,而其他模型则提供有限的许可或完全限制商业使用。
这种不完全的开放性制造了开源原则的幻觉,但在实践中却有所欠缺。
考虑到开源倡议(OSI)的一项分析发现,几种流行的大型语言模型 —— 包括 Llama2 和 Llama 3.x(由 Meta 开发)、Grok(X)、Phi-2(Microsoft)和 Mixtral(Mistral AI)—— 声称是开源的,但在结构上与开源原则不相容。
可持续性和激励挑战
大多数开源软件都是基于志愿者驱动或资助的努力,而不是计算密集型、高成本的基础设施。另一方面,AI 模型的训练和维护成本很高,预计这些成本只会继续上升。Anthropic 的 CEO Dario Amodei 预测,训练一款尖端模型的成本可能高达 100 亿美元。
没有可持续的资金模型或激励结构,开发者面临着限制访问或面临财务崩溃的选择。
围绕“开源权重”和许可的误解
AI 模型的可访问性变得越来越混乱,许多平台将自己标记为“开源”,同时施加限制,这些限制从根本上违背了真正的开源原则。这种“手法”以多种方式体现:
- 被标记为“开源权重”的模型可能完全禁止商业用途,将其保留为学术好奇心而不是公众可以探索和开发的实用商业工具。
- 一些提供者提供预训练模型的访问权限,但他们严格保护自己的训练数据集和方法,使得无法以有意义的方式复制或验证他们的发现。
- 许多平台施加再分发限制,阻止开发者为自己的社区构建或改进模型,即使他们可以完全“访问”代码。
在这些情况下,“仅用于研究”的说法只是“关闭商业”的委婉语。结果是虚假的供应商锁定,组织投入时间和资源到看似开放的平台,但当他们尝试扩大规模或商业化应用时,却发现了关键限制。
这种困惑不仅仅会让开发者感到沮丧,还会积极地破坏对 AI 生态系统的信任。它在利益相关者中制造了不切实际的期望,他们理所当然地认为“开源”AI 与开源软件社区相似,在那里,透明度、修改权和商业自由得到维护。
法律滞后
生成式 AI 的快速发展已经超过了适当的法律框架的发展,造成了复杂的知识产权挑战,增加了现有的担忧。
第一个主要的法律战场集中在训练数据的使用上。深度学习模型从互联网上获取大量数据集,例如公开可用的图像和网页文本。这种大规模的数据收集引发了激烈的关于知识产权的辩论。科技公司认为,他们的 AI 系统学习和研究受版权保护的材料,以创建新的、具有变革性的内容。版权所有者反驳说,这些 AI 公司非法复制了他们的作品,产生了竞争内容,威胁到他们的生计。
AI 生成的衍生作品的所有权代表了另一个法律模糊性。目前还不清楚如何对待 AI 生成的内容,除了美国版权局,它指出:“如果 AI 完全生成内容,则不能受到版权保护。”
围绕生成式 AI 的法律不确定性,特别是关于版权侵犯、AI 生成作品的所有权以及训练数据中的未经许可的内容,变得更加严重,因为基础 AI 模型作为地缘政治重要性的工具出现:各国争相开发更好的 AI 能力,可能不太倾向于限制数据访问,这将使具有更严格的知识产权保护的国家处于竞争劣势。
开源在 AI 时代的演变
生成式 AI 的发展已经不可逆转,显示出没有减缓的迹象。我们希望建设一个未来,AI 能够促进创新,而不是扼杀创新。在这种情况下,科技领袖需要一个框架,以确保安全和透明的商业使用,促进负责任的创新,解决数据所有权和许可问题,并区分“开源”和“免费”。
一种新兴的概念,开源商业许可,可能提供了一条前进的道路,提出非商业使用的免费访问、商业使用的许可访问,以及对数据的起源和所有权的承认和尊重。
为了适应这种新现实,开源社区必须开发特定于 AI 的开源许可模型,建立公私合作伙伴关系来资助这些模型,并建立透明度、安全性和伦理的可信标准。
开源曾经改变了世界。生成式 AI 正在再次改变世界。为了保持开放的精神,我们必须进化开放的法律,承认 AI 的独特需求,同时直接解决挑战,以创建一个包容性和可持续的生态系统。












