关注我们.

思想领袖

重新思考生成人工智能时代的开源

mm

发布时间

 on

开源模式——一种软件开发理念,其源代码免费开放,可供公众重新发布或修改——长期以来一直是创新的催化剂。这一理念诞生于1983年,当时软件开发人员理查德·斯托曼(Richard Stallman)对他那台出现故障的闭源打印机的黑盒特性感到沮丧。

他的远见激发了自由软件运动,为当今互联网和软件创新的开源生态系统铺平了道路。

但那已经是40多年前的事了。

如今,生成性人工智能以其独特的技术和伦理挑战,正在重塑“开放”的含义,要求我们重新审视和思考开源范式——不是放弃它,而是适应它。

人工智能与开源自由

开源软件的四项基本自由—— 运行、研究、修改和重新分发 任何软件代码——在几个方面与生成人工智能的本质相悖:

  • 跑: 人工智能模型通常需要非常高的基础设施和计算成本,这 限制 ACCESS 由于资源限制。
  • 学习并修改: 人工智能模型极其复杂,因此 理解并改变它们 无法访问代码和数据是一项重大挑战。
  • 再分配:许多 AI 模型 限制重新分配 通过设计,特别是那些具有训练权重和平台提供商拥有的专有数据集的。

这些核心原则的侵蚀并非源于恶意,而在于现代人工智能系统的复杂性和成本。事实上,近年来,训练最先进人工智能模型的财务需求急剧上升——据报道,OpenAI 的 GPT-4 的训练成本高达 高达$ 78百万, 不包括员工工资,总支出 超额 100 百万美元

“开源”人工智能的复杂性

真正开放的 AI 模型需要推理源代码、训练源代码、模型权重和训练数据完全透明。然而,许多标有“开放”标签的模型只会发布推理代码或部分权重,而其他一些模型则提供有限的许可,甚至完全限制商业使用。

这种公正的开放性创造了开源原则的假象,但在实践中却未能实现。

考虑到开放源代码促进会 (OSI) 的一项分析发现,几种流行的大型语言模型 声称是开源的 – 包括 Llama2 和 Llama 3.x(由 Meta 开发)、Grok(X)、Phi-2(微软)和 Mixtral(Mistral AI)– 在结构上与开源原则不兼容。

可持续性和激励挑战

大多数开源软件都是基于志愿者驱动或拨款资助的努力,而非计算密集型、高成本的基础设施。另一方面,人工智能模型的训练和维护成本高昂,而且预计成本只会上升。Anthropic 首席执行官 Dario Amodei 预测,最终其成本可能高达 的美元100亿元 训练一个尖端模型。

如果没有可持续的融资模式或激励机制,开发商就面临着通过闭源或非商业许可限制访问或面临财务崩溃的风险的选择。

关于“开放重量”和许可的误解

AI 模型的可访问性变得越来越混乱,许多平台标榜自己“开放”,但实际上却施加了与真正的开源原则根本相悖的限制。这种“花招”体现在多个方面:

  • 被贴上“开放权重”标签的模型可能完全禁止商业使用,它们更多的是作为学术好奇心,而不是供公众探索和开发的实用商业工具。
  • 一些提供商提供预先训练的模型,但却热心保护他们的训练数据集和方法,使得无法有意义地重现或验证他们的发现。
  • 许多平台施加了重新分发限制,阻止开发人员为其社区构建或改进模型,即使他们可以完全“访问”代码。

在这些情况下,“开放研究”其实就是“停止商业运营”的双关语。其结果是一种不诚实的供应商锁定形式:企业将时间和资源投入到看似开放的平台上,却在尝试扩展或商业化应用时发现存在严重的局限性。

由此产生的混乱不仅让开发者感到沮丧,还严重损害了人们对人工智能生态系统的信任。它给利益相关者设定了不切实际的期望,他们理所当然地认为“开放”人工智能与开源软件社区相当,后者维护透明度、修改权和商业自由。

法律滞后

GenAI 的快速发展已经超过了相应法律框架的发展速度,从而产生了复杂的知识产权挑战网络,加剧了先前存在的担忧。

第一个主要的法律战场集中在训练数据的使用上。深度学习模型从互联网获取大量数据集,例如公开可用的图像和网页文本。这种海量数据收集引发了关于知识产权的激烈争论。科技公司辩称,他们的人工智能系统研究和学习受版权保护的材料,以创造新的、具有变革性的内容。然而,版权所有者认为,这些人工智能公司非法复制他们的作品,并生成威胁其生计的竞争内容。

人工智能衍生作品的所有权问题又一次引发了法律上的模糊性。除了美国版权局之外,没有人确切知道如何对人工智能生成的内容进行分类。美国版权局规定:“如果内容完全由人工智能生成,则不受版权保护。”

随着基础人工智能模型成为具有地缘政治重要性的工具,围绕 GenAI 的法律不确定性(特别是关于版权侵权、人工智能生成作品的所有权以及训练数据中未经授权的内容)变得更加紧张:竞相开发卓越人工智能能力的国家可能不太倾向于限制数据访问,这使得对知识产权保护更为严格的国家处于竞争劣势。

人工智能时代的开源必须变成什么样

GenAI 列车已驶离车站,且丝毫没有放缓的迹象。我们希望构建一个 AI 鼓励而非扼杀创新的未来。为此,科技领袖需要一个框架,确保商业使用安全透明,促进负责任的创新,解决数据所有权和许可问题,并区分“开放”与“免费”。

一个新兴的概念, 开放商业源代码许可证,可以通过提议非商业用途的免费访问、商业用途的许可访问以及对数据来源和所有权的承认和尊重来提供前进的道路。​​

为了适应这一新现实,开源社区必须开发特定于人工智能的开放许可模式,建立公私合作伙伴关系来资助这些模式,并为透明度、安全性和道德建立可信的标准。

开源曾经改变过世界。生成式人工智能正在再次改变世界。为了秉持开放精神,我们必须不断完善其法律条文,承认人工智能的独特需求,同时直面挑战,创建一个包容且可持续的生态系统。

Yair Adato 博士是 布里亚该公司旨在建立一个无风险的生成式人工智能开放平台。他的愿景是创建一个遵循负责任的人工智能原则的生成式人工智能平台,并重新定义版权和知识产权的概念,使数据所有权和生成式人工智能能够共存。

Adato 博士是其领域的远见卓识者,拥有本·古里安大学与哈佛大学合作的计算机视觉领域计算机科学博士学位。Adato 博士拥有 50 多项专利,这些专利架起了人工智能与商业应用之间的桥梁,在推动人工智能创新方面拥有卓越的成就。在领导 Bria 之前,Adato 博士曾担任 Trax Retail 的首席技术官,帮助 Trax 从一家拥有 20 名员工的早期初创公司快速发展成为拥有近 1000 名员工的独角兽企业。他曾担任或现任多家公司的顾问委员会成员,包括 Sparx、Vicomi、Tasq、DataGen 和 Anima。