Anderson 视角

近80%的训练数据集可能是企业AI的法律隐患

Published March 7, 2025

Updated May 19, 2026

Martin Anderson

最近的一篇来自LG AI Research的论文表明，用于训练AI模型的所谓“开放”数据集可能带来虚假的安全感——发现几乎四分之三的标记为“商业可用”的AI数据集实际上包含隐藏的法律风险。

这些风险范围从包含未披露的版权材料到深藏在数据集依赖关系中的限制性许可条款。如果论文的发现是准确的，依赖公共数据集的公司可能需要重新考虑他们当前的AI管道，否则可能面临法律风险。

研究人员提出了一个激进且可能存在争议的解决方案：基于AI的合规代理，可以比人类律师更快、更准确地扫描和审计数据集历史。

论文指出：

‘本文主张，AI训练数据集的法律风险不能仅通过审查表面层面的许可条款来确定；对数据集再分配进行彻底的、端到端的分析对于确保合规性是必不可少的。

‘由于这种分析超出了人类的能力范围，AI代理可以弥补这一差距，通过更快、更准确的方式进行分析。在没有自动化的情况下，关键的法律风险大多未被检查，危及道德AI开发和监管遵守。 ‘

‘我们敦促AI研究社区认识到端到端的法律分析是基本要求，并采纳AI驱动的方法作为可扩展的数据集合规性的可行途径。’

通过检查2,852个流行的数据集，这些数据集根据其个别许可证似乎是商业可用的，研究人员的自动化系统发现，只有605个（约21%）在所有组件和依赖关系被追踪后实际上是合法安全的。

新论文的标题为不要相信您看到的许可证 — 数据集合规性需要大规模AI驱动的生命周期跟踪，由八位LG AI Research的研究人员撰写。

权利和错误

作者强调了公司在日益不确定的法律环境中推进AI开发所面临的挑战——随着以前的学术“合理使用”思维方式让位给一个分裂的环境，法律保护不明确，安全港不再得到保证。

正如一篇文章最近指出的，公司越来越多地对其训练数据来源变得防御性。作者亚当·布伊克（Adam Buick）评论道*：

‘[虽然] OpenAI披露了GPT-3的主要数据来源，但GPT-4的介绍论文仅透露该模型训练的数据是‘公开可用数据（如互联网数据）和第三方提供商的许可数据’的混合。

‘AI开发者转向不透明的动机并没有被详细说明，许多情况下根本没有解释。 ‘

‘就OpenAI而言，他们以担心‘大型模型的竞争格局和安全影响’为由，拒绝发布更多关于GPT-4的详细信息，并在报告中没有进一步解释。 ‘

透明度可以是一个虚假的术语——或者只是一个错误的术语；例如，Adobe的旗舰Firefly生成模型是在Adobe有权利用的库存数据上训练的，据称为客户提供了关于使用该系统的合法性的保证。后来，一些证据表明，Firefly数据集已经被其他平台的潜在版权数据“丰富化”。

正如我们之前讨论的，有一些日益增长的倡议旨在确保数据集的许可合规，包括一个只会抓取具有灵活的Creative Commons许可证的YouTube视频的项目。

问题在于许可证本身可能是错误的，或者被错误授予，就像新的研究似乎表明的那样。

检查开放源数据集

开发一个像作者的Nexus这样的评估系统是困难的，因为背景不断变化。因此，论文指出NEXUS数据合规框架系统基于“当前时点的各种先例和法律依据”。

NEXUS利用一个名为AutoCompliance的AI驱动代理进行自动数据合规性检查。AutoCompliance由三个关键模块组成：一个用于网络探索的导航模块；一个用于信息提取的问答模块；以及一个用于法律风险评估的评分模块。

AutoCompliance从用户提供的网页开始。AI提取关键详细信息，搜索相关资源，识别许可条款和依赖关系，并分配法律风险评分. 来源：https://arxiv.org/pdf/2503.02784

这些模块由经过微调的AI模型提供支持，包括在合成和人工标记数据上训练的EXAONE-3.5-32B-Instruct模型。AutoCompliance还使用数据库缓存结果以提高效率。

AutoCompliance从用户提供的数据集URL开始，将其视为根实体，搜索其许可条款和依赖关系，并递归地跟踪链接的数据集以构建许可依赖图。一旦所有连接都被映射，它就会计算合规性评分并分配风险分类。

论文中概述的数据合规框架确定了数据生命周期中涉及的各种实体类型，包括数据集，它们构成了AI训练的核心输入；数据处理软件和AI模型，它们用于转换和利用数据；以及平台服务提供商，它们促进数据处理。

该系统通过考虑这些各种实体及其相互依赖关系来全面评估法律风险，超越了对数据集许可证的机械评估，包括参与AI开发的组件的更广泛的生态系统。

数据合规性评估整个数据生命周期的法律风险。它根据数据集详细信息和14个标准分配评分，分类个别实体，并在依赖关系中聚合风险。

训练和指标

作者从Hugging Face中提取了前1,000个最常下载的数据集的URL，随机抽取216个项目作为测试集。

EXAONE模型在作者的自定义数据集上进行了微调，导航模块和问答模块使用合成数据，评分模块使用人工标记的数据。

五位法律专家创建了基准标签，他们至少接受了31小时的类似任务的培训。这些人类专家手动识别了216个测试案例中的依赖关系和许可条款，然后通过讨论聚合和完善了他们的发现。

使用训练好的、人工校准的AutoCompliance系统测试了ChatGPT-4o和Perplexity Pro，显著发现了更多的依赖关系在许可条款中：

216个评估数据集的依赖关系和许可条款的准确性。

论文指出：

‘AutoCompliance显著优于所有其他代理和人类专家，实现了81.04%和95.83%的准确率。相比之下，ChatGPT-4o和Perplexity Pro在源和许可任务中分别显示出相对较低的准确率。 ‘

‘这些结果突出了AutoCompliance的卓越性能，证明了它在处理这两个任务时的准确性，同时也表明了AI驱动模型和人类专家在这些领域之间的显著性能差距。 ‘

在效率方面，AutoCompliance方法只需53.1秒即可运行，而人类评估在相同任务上需要2,418秒。

此外，评估运行的成本为0.29美元，而人类专家的成本为207美元。然而，这是基于每月14,225美元的价格租用GCP a2-megagpu-16gpu节点——这意味着这种成本效率主要与大规模运营有关。

数据集调查

为了进行分析，研究人员选择了3,612个数据集，结合了Hugging Face的3,000个最常下载的数据集和2023年数据来源计划中的612个数据集。

论文指出：

‘从3,612个目标实体开始，我们找到了17,429个唯一实体，其中13,817个实体出现在目标实体的直接或间接依赖关系中。 ‘

‘对于我们的实证分析，我们认为一个实体及其许可依赖图具有单层结构，如果该实体没有任何依赖关系；如果它有一个或多个依赖关系，则具有多层结构。 ‘

‘在3,612个目标数据集中，2,086个（57.8%）具有多层结构，而其他1,526个（42.2%）具有单层结构，没有任何依赖关系。 ‘

版权数据集只能在获得法律授权的情况下进行再分配，这可能来自许可证、版权法例外或合同条款。未经授权的再分配可能导致法律后果，包括版权侵权或合同违约。因此，明确识别非合规性是至关重要的。

根据论文引用的数据合规性标准4.4发现的分配违规。

研究发现，9,905个数据集的非合规再分配案例，可以分为两类：83.5%在许可条款中被明确禁止，使得再分配成为明显的法律违法；16.5%涉及具有相互冲突的许可条件的数据集，在理论上允许再分配，但未能满足所需的条款，从而产生下游法律风险。

作者承认，NEXUS中提出的风险标准可能不是普遍适用的，可能会因管辖权和AI应用而异，并且未来的改进应该专注于适应不断变化的全球法规，同时完善AI驱动的法律审查。

结论

这是一篇冗长且不友好的论文，但它解决了当前行业采用AI的最大障碍——即看似“开放”的数据可能后来会被各种实体、个人和组织所主张。

根据DMCA，违规行为可能会导致每案件巨额罚款。在违规行为可能达到数百万美元的案例中，研究人员发现的潜在法律责任确实显著。

此外，能够证明从上游数据受益的公司不能（像往常一样）以不知道为借口，至少在美国市场如此。他们目前也没有任何切实的工具来揭开所谓的开源数据集许可协议中隐藏的复杂含义。

制定一个像NEXUS这样的系统的难点在于，它将是基于每个州、每个国家或全球范围内的复杂法律体系；在美国内部或欧盟内部创建一个适用的框架已经很具有挑战性，而创建一个真正的全球性框架（一种“数据来源的国际刑警组织”）的前景不仅因多元政府的不同动机而受到阻碍，而且因政府和法律的不断变化而变得更加复杂。

*我用超链接替换了作者的引用。
†论文中规定了六种类型，但最后两种没有定义。

首次发表于2025年3月7日

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

近80%的训练数据集可能是企业AI的法律隐患

权利和错误

检查开放源数据集

训练和指标

数据集调查

结论

You may like