伦理
当前的人工智能实践可能正在促成新的版权流氓时代

一项由华为和学术界合作的新研究表明,人工智能和机器学习领域中最重要的当前研究可能会因使用无效许可的数据集而面临诉讼,这些数据集的原始条款不被尊重。这种情况可能会导致两个结果:一是成功的商业化人工智能算法可能会成为未来版权流氓的目标;二是组织和个人可以利用这些法律漏洞来抗议他们认为不可接受的机器学习技术的部署或传播。
该论文《我可以使用这个公开可用的数据集来构建商业人工智能软件吗?可能不行》,是华为加拿大、华为中国、英国约克大学和加拿大维多利亚大学之间的合作成果。
六个流行的开源数据集中有五个不可以合法使用
研究人员要求华为的各个部门选择他们希望在商业项目中使用的最理想的开源数据集,并从响应中选择了六个最受欢迎的数据集:CIFAR-10(8000万个小图像数据集的一个子集,现已因“贬损性术语”和“冒犯性图像”而被撤回,尽管其衍生品仍在传播);ImageNet;Cityscapes(包含仅由数据集原创者生成的原始材料);FFHQ;VGGFace2和MSCOCO。
为了分析所选数据集是否适合用于商业项目,研究人员开发了一种新型管道来追踪每个数据集的许可链,尽管他们经常需要使用网络存档捕获来定位现在已过期的域的许可证,在某些情况下,他们不得不根据最近可用的信息“猜测”许可状态。

作者开发的源追踪系统的架构。 来源:https://arxiv.org/pdf/2111.02374.pdf
研究人员发现,六个数据集中的五个“包含至少一个商业使用场景的风险”:
‘我们观察到,除了MS COCO外,其他研究的许可证都不允许从业者将在数据上训练的AI模型或模型的输出用于商业化。这样的结果也有效地阻止从业者使用预训练模型,即使这些模型是在这些数据集上训练的。公开可用的数据集和在其上预训练的AI模型正在被广泛用于商业目的。’*
研究人员进一步指出,六个研究的数据集中的三个可能会在商业产品中修改数据集时导致许可违规,因为只有MS-COCO允许这样做。然而,数据增强和数据集的子集和超集是常见的做法。
在CIFAR-10的情况下,原始编译者没有创建任何传统的许可形式,只要求使用数据集的项目引用原始论文,这为建立数据的法律状态增加了障碍。
此外,仅CityScapes数据集包含仅由数据集原创者生成的原始材料,而不是从网络来源“策划”(抓取)而来,CIFAR-10和ImageNet使用了多个来源,每个来源都需要调查和追踪以建立任何形式的版权机制(或有意义的免责声明)。
无路可出
商业人工智能公司似乎依赖于三种因素来保护自己免受使用版权内容的数据集训练AI算法的诉讼:没有一个能提供可靠的长期保护:
1:国家法律的放任自流
尽管世界各国政府被迫放松数据抓取的法律,以免在人工智能竞争中落后(人工智能需要大量的现实世界数据,而正常的版权合规和许可将是不切实际的),但只有美国在这一方面提供了完全的豁免权,根据合理使用原则——2015年通过判决,确认谷歌可以免费使用版权材料进行谷歌图书项目,而不被指控侵犯版权。
如果合理使用原则政策有所改变(例如,由于涉及高权势组织或公司的里程碑式案件),它可能会被认为是模型逆转的先验状态,以利用当前侵犯版权的数据库;但这不会保护以前的使用和开发通过版权材料启用的系统,即使模型的权重现在仅处理允许的内容,但被训练在(并通过)非法复制的内容上。
在美国以外,正如作者在新论文中所指出的,政策一般不那么宽松。英国和加拿大仅为非商业目的豁免使用版权数据,而欧盟的文本和数据挖掘法(尚未被最近的人工智能监管提案完全取代)也排除了不符合原始数据版权要求的AI系统的商业开发。
这些安排意味着一个组织可以在不包括赚钱的阶段之前取得伟大的成就,但是在那一刻,产品要么会变得法律上容易受到攻击,要么需要与成千上万的版权持有者达成协议,其中许多人现在由于互联网的性质而无法追踪——这是一个不可能和无法承受的前景。
2:买方谨慎
在希望推卸责任的侵权组织中,新论文还观察到,许多最流行的开源数据集的许可证会自动为自己免除任何版权滥用索赔:
‘例如,ImageNet的许可证要求从业者在使用数据集时对ImageNet团队进行赔偿,FFHQ、VGGFace2和MS COCO数据集要求,如果数据集被分发或修改,必须在相同的许可下呈现。’
这实际上强迫使用FOSS数据集的人承担使用版权材料的责任,当最终发生诉讼时(尽管它可能不一定保护原始编译器在当前的“安全港”气候中)。
3:通过模糊性进行赔偿
机器学习社区的协作性质使得使用企业神秘主义来遮蔽受益于侵犯版权的数据集的算法的存在变得相当困难。长期的商业项目通常以开放的FOSS环境开始,在GitHub和其他公开可访问的论坛中,数据集的使用是公开记录的;或者项目的起源已经在预印本或同行评审论文中发表。
即使这不是这种情况,模型逆转也越来越能够揭示数据集的典型特征(甚至明确输出一些源材料),这本身就提供了侵权的证据,或者足以引起怀疑并允许法院命令访问算法开发的历史记录和使用的数据集的详细信息。
结论
该论文描绘了对版权材料的混乱和临时使用,没有许可,以及一系列许可链,如果逻辑上追溯到数据的原始来源,将需要与成千上万的版权持有者进行谈判,他们的工作以各种许可条款呈现,许多条款排除了派生商业作品的可能性。
作者得出结论:
‘公开可用的数据集正在被广泛用于构建商业人工智能软件。一个人可以这样做,如果并且仅当与公开可用的数据集相关联的许可证授予这样做的权利。然而,验证与公开可用的数据集相关联的许可证中提供的权利和义务并不容易。因为有时许可证不清楚或可能无效。’
另一项新作品,题为构建合法数据集,于11月2日由新加坡管理大学计算法中心发布,也强调了数据科学家需要认识到“狂野西部”时代的临时数据收集即将结束,并反映了华为论文的建议,采用更严格的习惯和方法,以确保数据集的使用不会使项目在文化转变时和当前机器学习领域的全球学术活动寻求对多年投资的商业回报时暴露于法律风险之中。作者观察到*:
‘影响机器学习数据集的立法体系即将增长,人们担心当前的法律提供的保障不足。欧盟人工智能法案(如果通过)将会显著改变人工智能和数据治理的格局;其他司法管辖区可能会跟进自己的法案。 ‘












