伦理

当前的人工智能实践可能会促成新一代的版权巨魔

发布时间 2021 年 11 月 5 日

马丁安德森

华为与学术界的一项新研究合作表明，当前人工智能和机器学习领域最重要的大量研究一旦在商业上变得突出，就可能面临诉讼，因为使突破成为可能的数据集正在以无效的方式分发。不尊重从中获取数据的面向公众的域的原始条款的许可证。

实际上，这有两个几乎不可避免的可能结果：已知使用此类数据集的非常成功的商业化人工智能算法将成为机会主义专利流氓的未来目标，当他们的数据被抓取时，他们的版权得不到尊重；组织和个人将能够利用这些相同的法律漏洞来抗议他们认为令人反感的机器学习技术的部署或传播。

这个纸标题为 我可以使用这个公开可用的数据集来构建商业人工智能软件吗？很可能不会，是华为加拿大公司、华为中国公司、英国约克大学和加拿大维多利亚大学的合作项目。

六分之五（流行）开源数据集不合法使用

在这项研究中，作者要求华为各部门选择他们希望在商业项目中利用的最理想的开源数据集，并从回复中选择了六个最需要的数据集： CIFAR-10 （的一个子集 80 万张小图像 数据集，因为撤回 “贬义词”和“冒犯性图像”，尽管其衍生词激增）；影像网; 风情（仅包含原创材料）； FF总部; VGGFace2及莫斯科可可.

为了分析所选数据集是否适合在商业项目中合法使用，作者开发了一种新颖的管道来尽可能追溯每个数据集的许可链，尽管他们经常不得不诉诸网络存档捕获来从现已过期的域中查找许可证，并且在某些情况下必须从最近的可用信息“猜测”许可证状态。

作者开发的来源追踪系统的架构。 资料来源：https://arxiv.org/pdf/2111.02374.pdf

作者发现六个数据集中有五个数据集的许可证 “包含与至少一种商业使用环境相关的风险”:

“[我们]观察到，除了 MS COCO 之外，所研究的许可证均不允许从业者有权将基于数据训练的人工智能模型甚至训练后的人工智能模型的输出商业化。这样的结果还有效地阻止了从业者甚至使用在这些数据集上训练的预训练模型。公开可用的数据集和对其进行预训练的人工智能模型是广泛应用于商业.' *

作者进一步指出，如果数据集被修改，六个研究数据集中的三个可能还会导致商业产品中的许可违规，因为只有 MS-COCO 允许这样做。然而，数据增强以及有影响力的数据集的子集和超集是常见的做法。

就 CIFAR-10 而言，原始编译者根本没有创建任何传统形式的许可证，只要求使用该数据集的项目包含对随数据集发布而发布的原始论文的引用，这进一步阻碍了建立数据的法律地位。

此外，只有 CityScapes 数据集包含由数据集发起者专门生成的材料，而不是从网络源“策划”（抓取）的材料，CIFAR-10 和 ImageNet 使用多个源，每个源都需要进行调查并追溯以建立任何类型的版权机制（甚至是有意义的免责声明）。

没有出路

商业人工智能公司似乎依靠三个因素来保护自己免受围绕未经许可自由使用数据集中受版权保护的内容来训练人工智能算法的产品的诉讼。这些都不能提供太多（或任何）可靠的长期保护：

1：自由放任的国家法律
尽管世界各国政府被迫放宽有关数据抓取的法律，以免在高性能人工智能的竞争中落后（高性能人工智能依赖于大量的现实世界数据，而常规的版权合规和许可是不现实的），但美国在这方面提供充分的豁免权，根据合理使用原则 – 2015 年批准的一项政策结论作者协会诉谷歌公司一案，该案确认这家搜索巨头可以为其谷歌图书项目自由获取受版权保护的材料，而不会被指控侵权。

如果公平使用原则政策发生变化（即，针对涉及足够高权力的组织或公司的另一个具有里程碑意义的案件），它可能会被视为先验说明如何利用当前侵犯版权的数据库，保护以前的使用；但不是 正在进行 未经同意使用和开发通过受版权保护的材料启用的系统。

这使得当前对合理使用原则的保护处于非常临时的基础上，并且在这种情况下，可能会要求已建立的商业化机器学习算法在其起源由受版权保护的材料启用的情况下停止运行 - 即使在楷模权重现在专门处理允许的内容，但接受过非法复制内容的培训（并通过非法复制的内容发挥作用）。

正如作者在新论文中指出的那样，在美国以外的地区，政策普遍不那么宽松。英国和加拿大仅对出于非商业目的使用受版权保护的数据进行赔偿，而欧盟的《文本和数据挖掘法》（尚未被欧盟的《文本和数据挖掘法》完全推翻）最近的提案对于更正式的人工智能监管）也排除了对不符合原始数据版权要求的人工智能系统的商业利用。

2：买者自负
在侵权组织希望推迟承担责任的情况下，新论文还指出，许多最受欢迎的开源数据集的许可证会自动赔偿自己免受任何版权滥用索赔的影响：

例如，ImageNet 的许可证明确要求从业者赔偿 ImageNet 团队因使用该数据集而产生的任何索赔。 FFHQ、VGGFace2 和 MS COCO 数据集要求数据集（如果分发或修改）在同一许可证下呈现。

实际上，这迫使那些使用自由和开源软件数据集的人在面对最终的诉讼时承担使用受版权保护的材料的罪责（尽管在当前“安全港”气氛所构成的情况下，它不一定会保护原始编译者）。

3：默默无闻的赔偿
机器学习社区的协作性质使得利用企业神秘主义来掩盖从侵犯版权的数据集中受益的算法的存在相当困难。长期商业项目通常始于开放的 FOSS 环境，其中数据集的使用在 GitHub 和其他可公开访问的论坛上有记录，或者项目的起源已在预印本或同行评审的论文中发布。

即使情况并非如此，模型反演 is 能力越来越强揭示数据集的典型特征（甚至显式输出一些源材料），要么提供证据本身，要么提供足够的侵权嫌疑，以便法院下令访问算法开发的历史以及该开发中使用的数据集的详细信息。

结语

作者总结：

“公开数据集被广泛用于构建商业人工智能软件。当且仅当与公开可用数据集相关的许可证提供这样做的权利时，人们才可以这样做。然而，验证与公开数据集相关的许可证中提供的权利和义务并不容易。因为，有时许可证要么不清楚，要么可能无效。

另一部新作，名为 构建法律数据集新加坡管理大学计算法中心于 2 月 XNUMX 日发布的报告还强调，数据科学家需要认识到临时数据收集的“狂野西部”时代即将结束，并反映了华为的建议论文采取更严格的习惯和方法，以确保数据集的使用不会使项目因文化的及时变化而面临法律后果，并且当前机器学习领域的全球学术活动寻求多年投资的商业回报。作者观察*：

“出于对当前法律提供的担忧，影响机器学习数据集的立法语料库将会增长不足保障。 AIA 草案 [欧盟人工智能法案]如果通过，将显着改变人工智能和数据治理格局；其他司法管辖区可能会效仿自己的法案。 '

* 我将内联引用转换为超链接

相关话题：人工智能伦理版权伦理研究

下一步

研究人员希望神经科学家能够克服数据集偏差

不要错过

研究人员挑战长期以来的机器学习假设

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [电子邮件保护]
推特：@manders_ai

联合人工智能

当前的人工智能实践可能会促成新一代的版权巨魔

六分之五（流行）开源数据集不合法使用

没有出路

结语

你可能会喜欢