关注我们.

伦理

当前的人工智能实践可能会促成新一代的版权巨魔

mm

华为与学术界的一项新研究合作表明,当前人工智能和机器学习领域最重要的大量研究一旦在商业上变得突出,就可能面临诉讼,因为使突破成为可能的数据集正在以无效的方式分发。不尊重从中获取数据的面向公众的域的原始条款的许可证。

实际上,这有两个几乎不可避免的可能结果:已知使用此类数据集的非常成功的商业化人工智能算法将成为机会主义专利流氓的未来目标,当他们的数据被抓取时,他们的版权得不到尊重; 组织和个人将能够利用这些相同的法律漏洞来抗议他们认为令人反感的机器学习技术的部署或传播。

这个 标题为 我可以使用这个公开可用的数据集来构建商业人工智能软件吗? 很可能不会,是华为加拿大公司、华为中国公司、英国约克大学和加拿大维多利亚大学的合作项目。

六分之五(流行)开源数据集不合法使用

在这项研究中,作者要求华为各部门选择他们希望在商业项目中利用的最理想的开源数据集,并从回复中选择了六个最需要的数据集: CIFAR-10 (的一个子集 80 万张小图像 数据集,因为 撤回 用于“贬义词”和“冒犯性图像”,尽管其衍生词激增); 影像网; 风情 (仅包含原创材料); FF总部; VGGFace2莫斯科可可.

为了分析所选数据集是否适合在商业项目中合法使用,作者开发了一种新颖的流程来尽可能地追溯每组许可证的链,尽管他们经常不得不借助网络档案捕获来定位现已过期的域名的许可证,并且在某些情况下不得不根据最近的可用信息“猜测”许可证状态。

作者开发的来源追踪系统的架构。 资料来源:https://arxiv.org/pdf/2111.02374.pdf

作者开发的来源追踪系统的架构。 资料来源:https://arxiv.org/pdf/2111.02374.pdf

作者发现六个数据集中有五个数据集的许可证 “包含与至少一个商业使用环境相关的风险”:

“[我们]观察到,除了 MS COCO 之外,所研究的许可证均不允许从业者有权将基于数据训练的人工智能模型甚至训练后的人工智能模型的输出商业化。 这样的结果还有效地阻止了从业者甚至使用在这些数据集上训练的预训练模型。 公开可用的数据集和对其进行预训练的人工智能模型是 广泛应用于商业。*

作者进一步指出,如果数据集被修改,六个研究数据集中的三个可能还会导致商业产品中的许可违规,因为只有 MS-COCO 允许这样做。 然而,数据增强以及有影响力的数据集的子集和超集是常见的做法。

就 CIFAR-10 而言,原始编译者根本没有创建任何传统形式的许可证,只要求使用该数据集的项目包含对随数据集发布而发布的原始论文的引用,这进一步阻碍了建立数据的法律地位。

此外,只有 CityScapes 数据集包含由数据集创建者独家生成的材料,而不是从网络源“策划”(抓取)的材料,而 CIFAR-10 和 ImageNet 使用多个来源,每个来源都需要进行调查和追溯,以建立任何类型的版权机制(甚至是有意义的免责声明)。

没有出路

商业人工智能公司似乎依靠三个因素来保护自己免受围绕未经许可自由使用数据集中受版权保护的内容来训练人工智能算法的产品的诉讼。 这些都不能提供太多(或任何)可靠的长期保护:

1:自由放任的国家法律
尽管世界各国政府被迫放宽有关数据抓取的法律,以免在高性能人工智能的竞争中落后(高性能人工智能依赖于大量的现实世界数据,而常规的版权合规和许可是不现实的),但美国在这方面提供充分的豁免权,根据 合理使用原则 – 2015 年批准的一项政策 结论 作者协会诉谷歌公司一案,该案确认这家搜索巨头可以为其谷歌图书项目自由获取受版权保护的材料,而不会被指控侵权。

如果公平使用原则政策发生变化(即,针对涉及足够高权力的组织或公司的另一个具有里程碑意义的案件),它可能会被视为 先验 说明如何利用当前侵犯版权的数据库,保护以前的使用; 但不是 正在进行 未经同意使用和开发通过受版权保护的材料启用的系统。

这使得现行的合理使用原则的保护处于非常临时的基础上,并且在这种情况下,可能会要求成熟的、商业化的机器学习算法在其来源受到版权保护的情况下停止运行——即使在模型的 权重 现在专门处理允许的内容,但接受过非法复制内容的培训(并通过非法复制的内容发挥作用)。

正如作者在新论文中指出的那样,在美国以外,相关政策通常不那么宽松。英国和加拿大仅对非商业用途的版权数据使用提供赔偿,而欧盟的《文本和数据挖掘法》(该法尚未被欧盟完全推翻) 最近的提案 对于更正式的人工智能监管)也排除了对不符合原始数据版权要求的人工智能系统的商业利用。

后一种安排意味着,一个组织可以利用他人的数据做大事,甚至(但不包括)从中牟利。到了那个阶段,该产品要么会被法律曝光,要么需要与数百万版权所有者达成协议,而由于互联网的瞬息万变,其中许多版权所有者如今已无法追踪——这是一个不可能实现且代价高昂的前景。

2:买者自负
在侵权组织希望推迟承担责任的情况下,新论文还指出,许多最受欢迎的开源数据集的许可证会自动赔偿自己免受任何版权滥用索赔的影响:

例如,ImageNet 的许可证明确要求从业者赔偿 ImageNet 团队因使用该数据集而产生的任何索赔。FFHQ、VGGFace2 和 MS COCO 数据集要求,如果分发或修改数据集,必须遵循相同的许可证。

实际上,这迫使那些使用 FOSS 数据集的人在最终面临诉讼时承担使用受版权保护材料的责任(尽管在当前“安全港”氛围受到威胁的情况下,它不一定能保护原始编译者)。

3:默默无闻的赔偿
机器学习社区的协作性质使得利用企业神秘主义来掩盖从侵犯版权的数据集中受益的算法的存在相当困难。 长期商业项目通常始于开放的 FOSS 环境,其中数据集的使用在 GitHub 和其他可公开访问的论坛上有记录,或者项目的起源已在预印本或同行评审的论文中发布。

即使情况并非如此, 模型反演 is 能力越来越强 揭示数据集的典型特征(甚至 显式输出 法院可以通过提供一些原始资料(包括一些源材料)来获取算法开发历史以及开发过程中使用的数据集的详细信息。

结语

该论文描述了对未经许可获得的受版权保护的材料以及一系列许可链的混乱和临时使用,这些许可链从逻辑上可以追溯到数据的原始来源,需要与数千名其作品被展示的版权所有者进行谈判在具有各种许可条款的网站的支持下,许多都排除衍生商业作品。

作者总结:

公开可用的数据集正被广泛用于构建商业人工智能软件。当且仅当与公开可用的数据集相关的许可证赋予了人们这样做的权利时,人们才可以这样做。然而,核实与公开可用的数据集相关的许可证中规定的权利和义务并不容易。因为有时许可证要么不明确,要么可能无效。

另一部新作,名为 构建法律数据集新加坡管理大学计算法中心于2月XNUMX日发布的报告也强调,数据科学家需要认识到,临时数据收集的“狂野西部”时代即将结束,并呼应了华为论文中的建议,即采用更严格的习惯和方法,以确保随着文化的变迁,以及当前机器学习领域的全球学术活动寻求多年投资的商业回报,数据集的使用不会使项目面临法律后果。作者观察到*:

“出于对当前法律提供的担忧,影响机器学习数据集的立法语料库将会增长 不足 保障。 AIA 草案 [欧盟人工智能法案]如果通过,将显着改变人工智能和数据治理格局;其他司法管辖区可能会效仿自己的法案。 '

 

* 我将内联引用转换为超链接

 

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai