Connect with us

思想领袖

在生成式 AI 时代重新思考开源

mm

开源模型是一种软件开发理念,即源代码可以免费公开用于修改或再分发,长期以来一直是创新发展的催化剂。这个理念诞生于 1983 年,当时软件开发者理查德·斯托曼对他的封闭源代码打印机感到沮丧。

他的愿景激发了自由软件运动,为今天的互联网和软件创新奠定了基础。

但那已经是 40 多年前的事情了。

如今,具有独特技术和伦理挑战的生成式 AI 正在重新定义“开放”的含义,要求我们重新审视和调整开源范式 —— 不是为了放弃它,而是为了使其适应新时代。

AI 和开源自由

开源软件的四项基本自由 —— 运行、学习、修改和再分发任何软件代码 —— 在几个方面与生成式 AI 的性质相矛盾:

  • 运行:AI 模型通常需要非常高的基础设施和计算成本,这限制了访问权限,因为资源受限。
  • 学习和修改:AI 模型非常复杂,理解和修改它们而不需要访问代码和数据是一个重大的挑战。
  • 再分发:许多 AI 模型通过设计限制再分发,特别是那些具有训练权重和平台提供商拥有的专有数据集的模型。

这些核心原则的侵蚀并非出于恶意,而是现代 AI 系统的复杂性和成本所致。事实上,训练最先进的 AI 模型的财务需求在近年来大幅增加 —— 据报道,OpenAI 的 GPT-4 的训练成本高达 7800 万美元 不包括员工工资,总支出超过 1 亿美元

“开源”AI 的复杂性

真正的开源 AI 模型需要推理源代码、训练源代码、模型权重和训练数据的完全透明度。然而,许多被标记为“开源”的模型只会发布推理代码或部分权重,而其他模型则提供有限的许可或完全限制商业使用。

这种不完全的开放性制造了开源原则的幻觉,但在实践中却有所欠缺。

考虑到开源倡议(OSI)的一项分析发现,几种流行的大型语言模型 —— 包括 Llama2 和 Llama 3.x(由 Meta 开发)、Grok(X)、Phi-2(Microsoft)和 Mixtral(Mistral AI)—— 声称是开源的,但在结构上与开源原则不相容。

可持续性和激励挑战

大多数开源软件都是基于志愿者驱动或资助的努力,而不是计算密集型、高成本的基础设施。另一方面,AI 模型的训练和维护成本很高,预计这些成本只会继续上升。Anthropic 的 CEO Dario Amodei 预测,训练一款尖端模型的成本可能高达 100 亿美元

没有可持续的资金模型或激励结构,开发者面临着限制访问或面临财务崩溃的选择。

围绕“开源权重”和许可的误解

AI 模型的可访问性变得越来越混乱,许多平台将自己标记为“开源”,同时施加限制,这些限制从根本上违背了真正的开源原则。这种“手法”以多种方式体现:

  • 被标记为“开源权重”的模型可能完全禁止商业用途,将其保留为学术好奇心而不是公众可以探索和开发的实用商业工具。
  • 一些提供者提供预训练模型的访问权限,但他们严格保护自己的训练数据集和方法,使得无法以有意义的方式复制或验证他们的发现。
  • 许多平台施加再分发限制,阻止开发者为自己的社区构建或改进模型,即使他们可以完全“访问”代码。

在这些情况下,“仅用于研究”的说法只是“关闭商业”的委婉语。结果是虚假的供应商锁定,组织投入时间和资源到看似开放的平台,但当他们尝试扩大规模或商业化应用时,却发现了关键限制。

这种困惑不仅仅会让开发者感到沮丧,还会积极地破坏对 AI 生态系统的信任。它在利益相关者中制造了不切实际的期望,他们理所当然地认为“开源”AI 与开源软件社区相似,在那里,透明度、修改权和商业自由得到维护。

法律滞后

生成式 AI 的快速发展已经超过了适当的法律框架的发展,造成了复杂的知识产权挑战,增加了现有的担忧。

第一个主要的法律战场集中在训练数据的使用上。深度学习模型从互联网上获取大量数据集,例如公开可用的图像和网页文本。这种大规模的数据收集引发了激烈的关于知识产权的辩论。科技公司认为,他们的 AI 系统学习和研究受版权保护的材料,以创建新的、具有变革性的内容。版权所有者反驳说,这些 AI 公司非法复制了他们的作品,产生了竞争内容,威胁到他们的生计。

AI 生成的衍生作品的所有权代表了另一个法律模糊性。目前还不清楚如何对待 AI 生成的内容,除了美国版权局,它指出:“如果 AI 完全生成内容,则不能受到版权保护。”

围绕生成式 AI 的法律不确定性,特别是关于版权侵犯、AI 生成作品的所有权以及训练数据中的未经许可的内容,变得更加严重,因为基础 AI 模型作为地缘政治重要性的工具出现:各国争相开发更好的 AI 能力,可能不太倾向于限制数据访问,这将使具有更严格的知识产权保护的国家处于竞争劣势。

开源在 AI 时代的演变

生成式 AI 的发展已经不可逆转,显示出没有减缓的迹象。我们希望建设一个未来,AI 能够促进创新,而不是扼杀创新。在这种情况下,科技领袖需要一个框架,以确保安全和透明的商业使用,促进负责任的创新,解决数据所有权和许可问题,并区分“开源”和“免费”。

一种新兴的概念,开源商业许可,可能提供了一条前进的道路,提出非商业使用的免费访问、商业使用的许可访问,以及对数据的起源和所有权的承认和尊重。

为了适应这种新现实,开源社区必须开发特定于 AI 的开源许可模型,建立公私合作伙伴关系来资助这些模型,并建立透明度、安全性和伦理的可信标准。

开源曾经改变了世界。生成式 AI 正在再次改变世界。为了保持开放的精神,我们必须进化开放的法律,承认 AI 的独特需求,同时直接解决挑战,以创建一个包容性和可持续的生态系统。

Yair Adato 博士是 Bria 的创始人兼首席执行官,该公司旨在建立一个无风险的生成式 AI 开放平台。他的愿景是创建一个遵循负责任的 AI 原则并重新定义版权和知识产权概念的生成式 AI 平台,以便数据所有权和生成式 AI 可以共存。

作为该领域的先驱,Adato 博士拥有来自 Ben-Gurion 大学与哈佛大学合作的计算机科学博士学位,专业为计算机视觉。凭借超过 50 项将 AI 和商业用途连接起来的专利,Adato 博士拥有推动 AI 创新发展的卓越记录。在领导 Bria 之前,Adato 博士曾担任 Trax Retail 的首席技术官,使 Trax 从拥有 20 名员工的初创公司迅速发展成为拥有近 1000 名员工的独角兽公司。他曾或正在为包括 Sparx、Vicomi、Tasq、DataGen 和 Anima 在内的几家公司担任顾问委员会成员。