Anderson 视角
IP-Washing 方法在 AI 中

如果对在训练 AI 中使用知识产权有法律后果,那么也有几种方法可以掩盖这种使用。
观点 当前迅速发展的生成性 AI 革命正在发生在最具法律风险的环境中,这种环境伴随着任何变革性的技术发展 自 19 世纪以来。
在 3-4 年前,机器学习研究社区享有一个默示的(通常是明确的)许可,允许他们在开发新系统时使用受知识产权保护的材料;由于这些系统还没有成功,既没有成熟也没有商业可行性,结果在每个方面都是学术性的。
在那段时间里,新一代基于扩散的大型语言模型(LLMs,如 ChatGPT 和 Claude)和视觉语言模型(VLMs,如 Sora)的突然成功表明,这些抽象和以前“无害”的研究线已经发展到商业可行性,并超出了他们的“免费通行证”,就使用他人的知识产权而言。
从现在开始,权利持有者将寻求在 AI 系统中使用他们的受版权保护或其他保护的数据所带来的利益,导致 持续的法律案件 需要 一些努力 来跟踪。

这里仅限于在美国提起的案件,新案件在美国和其他地方以惊人的速度涌现。 来源
强制“免费午餐”
目前在 AI 服务基础设施方面发生的财务承诺 目前正在发生,有人认为这是为了将“侵犯版权”的 AI 深深地嵌入社会经济中,使其不仅“太大而不倒”,而且“太强大而无法起诉”——或者至少太强大了,以至于成功的诉讼不会被允许破坏这场革命。
朝着这种一般情绪,美国当前总统正在 将他的观点 纳入政策 中,即 “你不能指望在每篇文章、每本书或其他任何你读过或研究过的东西上都付费时拥有一个成功的 AI 程序”。
真的吗?西方工业时代没有类似或可比的情况发生,这代表着一个运动,它严重地与传统的美国诉讼和赔偿文化相冲突;也许最接近的类似立场是药品专利在 20 年后强制到期(这本身 经常受到攻击),以及 限制 在公共场所对隐私的期望。
然而,时代变了;在没有任何保证当前趋势不会逆转或被后来逆转的情况下,AI 系统开发和处理备受争议的训练数据的次要方法正在成为标准实践。
代理数据集
其中一种方法与(不总是成功的)防御类似,例如,torrent 列表网站声称他们不实际托管任何有争议的材料——或任何材料。
除了避免存储和提供大量几乎无法压缩的图像或视频数据的需要外,这些集合还允许快速更新——例如,根据版权持有者的请求删除材料——和版本控制。
就像 torrent 只是指向可以找到 IP 保护材料的标志一样,许多有影响力的数据集本身只是“指针”样式的列表,指向现有数据;如果最终用户希望使用这些列表作为自己的数据集的下载列表,那么这取决于他们自己,至于策展人的责任似乎是如此。
其中包括 Google Research 的 Conceptual 12M 数据集,它为图像提供了字幕,但只指向 图像存在的网络位置(或在策展时存在):

Google Research 的 Conceptual 12M 策展的两个示例。 来源
另一个著名的例子,是 LAION 数据集,它促进了 2022 年 稳定扩散生成系统 的出现——这是第一个为最终用户提供强大的开源生成图像的框架,就像专有系统似乎要确立此类服务为纯粹的商业领域一样:

LAION 项目的一个变体,展示现代和受版权保护的艺术作品。 来源
在许多情况下,这些“指针”集合的高文件大小表明图像内容包含在可下载和托管的文件中;然而,非平凡的下载大小通常是由于文本内容的高体积,有时还包括提取的嵌入或 特征 —— 在训练过程中从源数据中提取的摘要或节点。
视频溢价
视频数据集呈现了一个更强的“代理”或指针方法的案例,因为聚合有意义和有用的视频集合所需的高存储数据量是禁止的,一个“分布式”方法是理想的。
然而,在两种情况下 —— 但尤其是视频 —— 可下载的源 URL 表示需要在训练过程中使用之前需要大量关注的数据。图像和视频需要调整大小,或者 裁剪决策,以创建适合 可用 GPU 空间 的样本。即使是严重下采样的视频也需要剪辑到非常短的长度,例如 3-5 秒。
值得注意的视频数据集使用对在线视频的引用(而不是视频的策展和直接打包)包括 Google 的 Kinetics 人类动作视频数据集,以及搜索巨头的 YouTube-8M 集合,它使用 段注释 来指示如何处理每个视频 —— 但同样留给最终用户从提供的 URL 下载视频。
开源和闭源
最后,在这个类别中,“开源”VFX 数据可能是使用闭源平台生成的,然后发布和提供生成的数据集。可以合理地怀疑为什么会发生这种情况,并考虑为什么可能是因为原始公司希望为自己的使用而清洗 IP 不友好的上游模型;或者“清洗”数据集是从外部请求的。
一个这样的“生成清洗”案例是,Omni-VFX 数据集,它包含了 Open-VFX 数据集 的许多数据点(这本身引用了许多闭源和半闭源平台,例如 Pika 和 PixVerse)。
说实话,Omni-VFX 根本没试图隐瞒:

在开源 Omni-VFX 数据集中,一个熟悉的面孔。 来源
祖先责任
IP 清洗的第二种主要方法是通过使用版权材料,间接或多次间接。这种方法的一种是使用 合成数据,它在某个上游点上经过版权数据的训练。在这种情况下,特别是当合成数据能够获得真实外观的结果时,版权作品提供了无法合理地猜测或通过一般世界模型或非专业模型近似的转换。
这在生成性视频系统需要生成“不可能”的事件和通常属于“视觉效果”(VFX)类别的事件时尤其如此。
实际上,引起我注意这个话题的是最新一系列研究论文中提供的能力,即“抽象”各种类型的视觉效果,例如从身体的不可能部分产生激光束,方法是训练自定义委托或“开源”VFX 剪辑(而不是更明显的来源,例如漫威电影宇宙中的非常昂贵的 VFX 射击):
来自 EffectMaker 网站的示例,其中源片段(最左边)的“动作”应用于源图像(中心)。 来源
上面的示例来自 项目页面 的 EffectMaker 项目。EffectMaker 并不是今年首个提供此类服务的项目,事实上,这已经成为 AI 视觉效果研究中一个离散的子任务*。
意识到媒体巨头如漫威在知识产权方面有很高的胜诉率(即使在上述“强制宽容”的气候下),视觉效果公司和初创公司目前正在极力确保他们的生成性视觉效果框架不包含其他公司的企业知识产权。
其中最重要的是 Meta,它被报道 在 r/vfx subreddit 上在 2026 年冬季招聘了大量的视觉效果艺术家,培训 AI 模型以输出好莱坞级别的视觉效果。虽然各个帖子中没有指定薪水,但有人 将其描述为“退休金”。
跟随资金
然而,人们不得不想知道,即使像 Meta 这样的公司也会为真正多样化和丰富的自定义 VFX 射击支付多少钱,考虑到单个 VFX 射击的平均成本为 42,000 美元 —— 而且很多都更贵。
此外,很合理地认为,定制的 VFX 生成 AI 模型将满足流行需求,包括来自最受欢迎和最昂贵的电影类别的各种标准效果套路。
除了“残余”的 VFX 专业人员可能最终会重现他们为现有电影目录工作过的镜头(这本身就使得“自定义”数据集工作成为模仿)——还有一个问题,即这些昂贵的新样本是否最终会在新的架构中“从零开始”训练。
事实上,如果这些重现被转移到像 LoRAs 这样的附加模块中,这些模块依赖于基础模型,那么这个过程就像基础模型一样具有防御性——而且没有多少是这样。
同样,如果“新”过程使用其他“混合”技术,例如 微调,其中视觉效果的价值依赖于来自旧集合或模型的模型、先验 或嵌入,其完整性没有得到证明,那么工作的原创性是可疑的,并且容易受到挑战。
不可能的任务
视觉效果输出的领域是关于 AI 数据集中的潜在 IP 清洗的一个特别有趣的案例研究,因为视觉效果镜头通常描绘“不可能”的事情,对于这些事情来说,没有开源替代品可用。
例如,如果你想训练一个模型来产生人类激光束,你将需要训练在视觉效果片段上,偷来的或委托的;这样的东西在其他地方是不存在的。
即使在其他类型的自然灾害的情况下,例如戏剧性的洪水,现实世界中的可用源材料不太可能能够重现对灾难性事件的戏剧性视角,因为(有一些例外)人们通常不会从灾难性位置直播。因此,AI 模型能够生成“酷”视角的灾难的可能性很小,很可能是从其他地方获得的信息。
结论:纠缠的网络
只有那些广泛和长期使用生成性 AI 的人才能本能地理解,这样的系统在没有可比例的训练数据的情况下,很难组合多个概念。
这种限制被称为 纠缠,其中训练概念的各个方面倾向于与相关元素聚集在一起,而不是分解成方便的、乐高风格的积木,可以按照用户的意愿排列成任何新的配置。
纠缠是一个几乎无法逃脱的建筑引力坑,至少对于以扩散为基础的方法来说,这些方法是当前主要的 genAI 框架的特征。然而,可能会在未来几年内出现新的方法,这些方法更擅长将训练概念离散化,以便更灵活地将它们粘合在一起,并提供更少的迹象关于它们的来源。
* 我对 EffectMaker 不作任何指控,但在这里评论的是 AI 视频研究中出现的一种普遍做法。
† 因为这些镜头,在这种类型的电影中,已经产生并继续产生了钱。
首次发布于 2026 年 3 月 16 日










