Anderson 视角

当前的人工智能实践可能正在促进新的版权流氓时代

发布于 2021年11月5日

更新于 2026年5月24日

作者

Martin Anderson

华为和学术界之间的一项新研究合作表明，当前人工智能和机器学习领域中最重要的研究可能会因使用的数据集而面临诉讼，因为这些数据集的许可证不尊重原始数据来源的公共领域条款。

这意味着两个几乎不可避免的结果：一方面，使用了这些数据集的商业化人工智能算法可能会成为未来版权流氓的目标，因为他们的数据来源没有得到尊重；另一方面，组织和个人可能会利用这些法律漏洞来抗议他们认为不可接受的机器学习技术的部署或传播。

这篇题为《我可以使用这个公开可用的数据集来构建商业人工智能软件吗？大概不》的论文是一项合作研究，由华为加拿大和华为中国联合约克大学和加拿大维多利亚大学共同完成。

六个流行的开源数据集中有五个不具有法律上的可用性

研究人员要求华为的各个部门选择他们希望在商业项目中利用的最理想的开源数据集，并从回复中选出六个最受欢迎的数据集：CIFAR-10（80 million tiny images数据集的一个子集，现已因“贬损性术语”和“冒犯性图像”而被撤回，尽管其衍生品仍在传播）；ImageNet；Cityscapes（其中包含专属原始材料）；FFHQ；VGGFace2；以及MSCOCO。

为了分析所选数据集是否适合在商业项目中使用，研究人员开发了一种新型管道来追踪每个数据集的许可证链，尽管他们经常需要使用网络存档来定位已过期域名的许可证，并且在某些情况下不得不根据最近可用的信息“猜测”许可证状态。

研究人员开发的溯源系统架构。来源：https://arxiv.org/pdf/2111.02374.pdf

研究人员发现，六个数据集中的五个许可证“包含至少一个商业使用背景的风险”：

‘[我们]观察到，除了MS COCO外，其他研究的许可证都不允许从业者将在这些数据集上训练的AI模型或模型的输出用于商业化。这种结果也有效地阻止从业者使用预训练模型，这些模型是在这些数据集上训练的。公开可用的数据集和在这些数据集上预训练的AI模型正在被广泛用于商业目的。’ *

研究人员进一步指出，六个研究的数据集中有三个可能会在商业产品中修改数据集时导致许可证违规，只有MS-COCO允许此类修改。然而，数据增强、子集和超集是数据集的常见做法。

在CIFAR-10的情况下，原始编译者没有创建任何传统的许可证，只要求使用该数据集的项目引用原始论文，这为确定数据的法律状态增加了障碍。

此外，只有CityScapes数据集包含专属原始材料，而不是从网络来源“策划”（抓取）的内容，CIFAR-10和ImageNet使用多个来源，每个来源都需要调查和追溯以建立任何版权机制（或有意义的免责声明）。

无路可出

商业人工智能公司似乎依赖于三个因素来保护自己免受使用版权内容训练人工智能算法的诉讼：

1：无为国家法律
尽管世界各国政府被迫放松数据抓取的法律，以免在人工智能竞赛中落后（人工智能依赖大量真实世界数据，而这些数据的常规版权合规和许可将是不切实际的），但只有美国在《合理使用法令》下提供完全的豁免——2015年通过的《作者公会诉谷歌公司案》裁决确认，谷歌可以自由地为其谷歌图书项目抓取版权材料而不被指控侵权。

如果《合理使用法令》政策有所改变（例如，由于涉及高权势组织或公司的另一个具有里程碑意义的案件），它可能被视为一种先验状态，用于利用当前侵犯版权的数据库，保护过去的使用；但不保护正在进行的使用和开发，这些使用和开发是通过未经许可的版权材料实现的。

这使得当前的《合理使用法令》保护处于非常临时的基础上，如果这种情况发生，可能需要已经建立并商业化的机器学习算法停止运行，如果它们的起源是通过未经许可的版权材料实现的，即使模型的权重现在仅处理允许的内容，但是在训练中受益于未经许可的复制内容。

在美国以外，正如作者在新论文中指出的，政策通常不那么宽松。英国和加拿大只为非商业目的豁免使用版权数据，而欧盟的文本和数据挖掘法（尚未被最近的正式人工智能监管提议完全取代）也排除了不符合原始数据版权要求的AI系统的商业利用。

这些安排意味着一个组织可以在不盈利的情况下取得伟大的成就，但是一旦他们开始从中获利，产品要么会面临法律风险，要么需要与数千名版权持有人达成协议，其中许多人现在由于互联网的变化性质而无法追踪——这是一个不可能且不切实际的前景。

2：买方谨慎
在那些侵权组织试图推卸责任的情况下，新论文还观察到，许多流行的开源数据集的许可证自动为自己免除任何版权滥用索赔：

‘例如，ImageNet的许可证要求从业者对使用数据集产生的任何索赔进行赔偿。FFHQ、VGGFace2和MS COCO数据集要求，如果数据集被分发或修改，必须在同一许可证下呈现。’

这有效地迫使使用FOSS数据集的从业者在面临诉讼时承担使用版权材料的责任（尽管这并不一定能保护原始编译者，如果当前的“安全港”气候受到损害）。

3：通过模糊性进行赔偿
机器学习社区的协作性质使得使用企业神秘主义来掩盖受益于侵犯版权的数据集的算法的存在变得相当困难。长期的商业项目通常从开源环境开始，在这些环境中，数据集的使用是公开记录的，或者项目的起源已经在预印本或同行评审论文中发表。

即使在这种情况下，模型逆转也越来越能够揭示数据集的典型特征（甚至可以明确输出一些源材料），从而提供证据或足够的怀疑以启用法庭命令访问算法开发历史和使用的数据集的详细信息。

结论

这篇论文描绘了一幅混乱和临时的版权材料使用图景，这些材料是未经许可获得的，许可证链也存在问题，需要与成千上万的版权持有人进行谈判，他们的工作是在具有各种许可条款的网站上发布的，许多条款排除了派生商业作品。

研究人员得出结论：

‘公开可用的数据集正在被广泛用于构建商业人工智能软件。只有当与公开可用的数据集相关的许可证提供此类使用的权利时，才能这样做。然而，验证许可证中提供的权利和义务并不容易，因为有时许可证不清楚或可能无效。’

另一项新研究，题为构建法律数据集</a》，于11月2日由新加坡管理大学计算法中心发布，也强调了数据科学家需要认识到“狂野西部”时代的数据收集即将结束，并呼吁采取更严格的习惯和方法论，以确保数据集的使用不会使项目面临法律后果，因为文化正在变化，全球机器学习领域的学术活动正在寻求对多年投资的商业回报。作者观察到*：

‘[立法]影响机器学习数据集的法规库即将增长，人们担心当前的法律提供的保障不足。欧盟人工智能法案草案，如果通过，将会显著改变人工智能和数据治理的格局；其他司法管辖区可能会跟进自己的法案。’ *

* 我将内联引用转换为超链接

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

当前的人工智能实践可能正在促进新的版权流氓时代

六个流行的开源数据集中有五个不具有法律上的可用性

无路可出

结论

发现更多