Anderson 视角
AI中的IP清洗方法

如果对在AI训练中使用知识产权的法律清算即将到来,那么也有几种方法可以掩盖这种使用。
观点 当前迅速发展的生成式AI革命正在发生在最具法律风险的环境中,这种环境自19世纪以来就伴随着任何变革性的技术发展。
直到3-4年前,机器学习研究社区享有一个默默的(通常是明确的)许可,允许他们在开发新系统的过程中利用知识产权保护的材料;由于这些系统还没有成功,既没有成熟,也没有商业可行性,结果在每个方面都是学术性的。
在此期间,新一代基于扩散的Large Language Models(LLMs,例如ChatGPT和Claude)和Vision-Language Models(VLMs,例如Sora)的突然成功,表明这些抽象和以前“无害”的研究线已经发展成为商业可行的,并超出了他们的“免费通行证”,就知识产权保护而言。
从现在开始,权利持有者将寻求分享AI系统的成果,这些系统主要或部分是在他们的受版权保护或其他保护的数据上训练的,从而导致了一场持续的法律诉讼,需要一些努力来跟踪。

这里仅限于在美国提起的案件,新的案件在美国和其他国家以惊人的速度涌现。 来源
强制“免费午餐”
目前正在发生的AI基础设施投资被一些人认为是试图将“侵犯版权”的AI深深地嵌入社会经济中,以至于它不仅“太大而不倒”,而且“太强大而无法起诉”——或者至少太强大了,以至于成功的诉讼不被允许破坏这场革命。
朝着这种普遍情绪,美国当前总统正在将他的观点纳入政策中,即“你不能指望拥有一个成功的AI计划,当每一篇文章、书籍或其他东西你读过或研究过,你都必须为之付费”。
真的吗?西方工业时代中没有类似或可比的事件发生过,这代表着一个运动,它严重地与传统的美国诉讼和赔偿文化相冲突;也许最接近的类似立场是药品专利在20年后强制到期(这本身经常受到攻击),以及在公共场所对隐私期望的限制。
然而,时代正在变化;在没有任何保证当前趋势不会失败或被逆转的情况下,AI系统开发中出现了几种次要方法,这些方法正在成为标准做法,并且这些方法处理的是训练AI的有争议的数据。
代理数据集
这些方法之一采用了与torrent列表网站的辩护类似的方法,torrent列表网站声称他们不托管任何有争议的材料——或者任何材料。
除了避免存储和提供大量难以压缩的图像或视频数据的需要外,这些集合还允许快速更新——例如,在版权持有者要求下删除材料——以及版本控制。
就像torrents只是指向可以找到知识产权保护材料的指针一样,许多有影响力的数据集本身只是指向现有数据的“指针”列表;如果最终用户希望使用这些列表作为自己的数据集的下载列表,那就是他们自己的责任,就像策展人的责任似乎是这样认为的。
其中包括Google Research的Conceptual 12M数据集,它为图像提供了字幕,但只指向网络上的位置,这些图像存在(或在策展时存在):

Google Research的Conceptual 12M策展中的两个例子。 来源
另一个著名的例子,也是AI历史上值得尊敬的例子,是LAION数据集,它促进了2022年稳定扩散生成系统的出现——第一个为最终用户提供强大的开源生成图像的框架,就像专有系统似乎要将这些服务作为纯粹的商业领域一样:

LAION项目的一个变体,展示现代和受版权保护的艺术作品。 来源
在许多情况下,这些“指针”集合的高文件大小表明包含图像内容在可下载和托管的文件中;然而,非平凡的下载大小通常是由于高容量的文本内容,有时还包括从源数据在训练过程中提取的嵌入或特征——从其他地方应用的内容的派生摘要或节点。
视频高级版
视频数据集呈现了对“代理数据集”或指针方法的更强有力的案例,因为将大量视频聚合成一个可下载的集合所需的存储数据量是禁止的,一个“分布式”方法是理想的。
然而,在两种情况下——尤其是视频——可下载的源URL代表需要在训练过程中使用之前进行大量关注的数据。图像和视频都需要调整大小,或者做出裁剪决策,以创建适合可用GPU空间的样本。即使严重下采样的视频也需要剪辑到非常短的长度,例如3-5秒。
值得注意的使用在线视频引用(而不是视频的策划和直接打包)的视频数据集包括Google的Kinetics Human Action Video Dataset,以及搜索巨头的YouTube-8M集合,它使用片段注释来指示如何处理每个视频一旦下载——但同样,它让最终用户从提供的URL获取视频。
开启和关闭
最后,在这个类别中,“开源”VFX数据可能是使用封闭平台生成的,然后发布和提供给最终用户。可以合理地怀疑为什么会发生这种情况,并考虑这是否是因为原始公司希望为自己的使用而清洗IP不友好的上游模型;或者是因为“清洗”数据集是从外部请求的。
这种“世代清洗”的一个例子是Omni-VFX数据集,它包含了许多来自Open-VFX数据集的数据点(它本身引用了许多封闭和半封闭平台,例如Pika和PixVerse)。
说实话,Omni-VFX甚至不算是认真尝试:

在开源Omni-VFX数据集中,一个熟悉的面孔。 来源
祖先责任
IP清洗的第二种主要方法是通过使用版权材料,间接或多次间接使用。
这种方法之一是使用合成数据,它在某个上游点上经过版权数据的训练。在这种情况下,特别是当合成数据能够获得真实外观的结果时,版权作品提供无法合理地猜测或用世界模型或非专业模型近似的转换,这些转换在其他地方是不可用的。
事实上,这正是需要生成“不可能”事件的生成视频系统的情况,例如属于视觉特效(VFX)类别的事件。
实际上,最近一系列研究论文提供了“抽象”各种视觉特效的能力,例如从身体的不可能部分产生激光束,通过训练在自定义委托或“开源”VFX剪辑上(而不是更明显的来源,例如漫威电影宇宙中的非常昂贵的VFX镜头):
来自EffectMaker网站的示例,其中源剪辑(左)中的“动作”应用于源图像(中)。 来源
上述示例来自EffectMaker项目的项目页面。EffectMaker甚至不是今年首次尝试从一个视频剪辑中提取VFX动态并将其转移到一个新剪辑中;事实上,这已经成为AI VFX研究中一个独立的子任务*。
意识到媒体巨头,如漫威,有更高的胜诉率的法律案件的机会,视觉特效公司和初创公司目前正在努力确保他们的生成视觉特效框架不包含其他公司的企业IP。
首先,Meta据报道在r/vfx subreddit上进行了冬季招聘,向视觉特效艺术家提供工作机会,以训练AI模型输出好莱坞级别的视觉特效镜头。虽然各个帖子中没有指定薪水,但一个帖子将其描述为“退休金”。
跟随钱
然而,人们不得不想知道,即使是像Meta这样的公司,也会为真正多样化和丰富的定制VFX镜头支付多少钱,考虑到单个VFX镜头的平均成本为42,000美元,而且很多镜头的成本远远高于此。
此外,很合理地认为,定制VFX生成AI模型将满足流行需求,包括最受欢迎和最昂贵的电影类别中的各种标准特效套路。
除了“剩余”VFX专业人员可能会重现他们曾经为现有电影目录工作过的镜头这一事实之外——这本身就将“自定义”数据集工作置于模仿之中——还有一个问题,即这些昂贵的新样本是否最终会在品牌新架构中“从零开始”进行训练。
事实上,如果这些重现被转移到像LoRAs这样的辅助模块中,这些模块依赖于基础模型,那么这个过程的合理性仅限于基础模型是“IP干净”的——而且没有多少模型是干净的。
同样,如果“新”过程使用诸如微调之类的“混合”技术,那么视觉特效的价值依赖于模型、先验概率或来自较旧集合或模型的嵌入,这些模型的完整性没有得到证实,那么这项工作的原创性可以说是表面上的,并且容易受到质疑。
不可能的任务
视觉特效输出的领域是对AI数据集中潜在IP清洗的一个特别有趣的案例研究,因为视觉特效镜头通常描绘“不可能”的事情,对于这些事情来说,没有开源替代品可用。
例如,虽然可以从各种公共领域或其他可负担的库存剪辑中训练一个生成模型来拆除一栋建筑,但如果您想训练一个模型来生成人类激光束,您将需要训练在视觉特效剪辑上——偷来的或委托的;没有其他地方会发生这样的事情。
即使对于其他类型的自然灾害,例如戏剧性的洪水,也不太可能有现实世界的源材料能够在灾难性事件上复制戏剧性的观点,因为(有例外)人们通常不会从灾难性位置直播。因此,AI模型能够生成“酷炫的视角”在灾难上是很可能从其他地方获得信息的。
大多数理想的AI任务流程没有这种特定性,在这种情况下,IP保护数据的好处的模糊可能不需要太多努力。
结论:纠缠的网络
只有那些广泛和长期使用过生成式AI的人才能本能地理解,这些系统在训练数据中没有可比例的情况下,很难组合多个概念。
这种限制被称为纠缠,其中训练概念的各个方面倾向于与相关元素聚集在一起,而不是分解成可以以任何新配置排列的Lego风格的构建块。
纠缠是一个几乎不可能逃避的架构重力井,至少对于以扩散为基础的方法,这些方法是当前所有主要的genAI框架的特征。然而,可能会在接下来的几年中出现新的方法,它们更擅长离散训练的概念,以便它们可以更灵活地组合在一起,并且提供更少关于它们的起源的线索。
* 我对EffectMaker不作任何指控,但这里评论的是AI视频研究中出现的一种普遍做法。
† 因为这些镜头,在这些类型的电影中,已经产生并继续产生了钱。
首次发布于2026年3月16日星期一












