安德森的角度
实现人工智能生成图像版权保护自动化

如上所述 上星期即使是流行的生成式人工智能系统背后的核心基础模型也可能产生侵犯版权的内容,原因是 策展不充分或不一致以及训练数据中存在同一图像的多个版本,导致 过度拟合,并增加了可识别复制品的可能性。
尽管各方努力主宰生成式人工智能领域,并面临着越来越大的遏制知识产权侵权的压力,但 MidJourney 和 OpenAI 的 DALL-E 等主要平台仍在 面临挑战 在防止无意复制受版权保护的内容方面:

生成系统重现受版权保护数据的能力经常出现在媒体上。
随着新模式的出现,以及中国模式的出现, 获得统治地位,基础模型中版权材料的压制是一个繁重的前景;事实上,市场领导者 open.ai 去年宣布, '不可能的' 创建没有版权数据的有效且有用的模型。
现有技术
对于无意中生成受版权保护的材料,研究界面临着与在源数据中包含色情和其他 NSFW 材料类似的挑战:人们想要获得知识的利益(即, 正确的人体解剖学历史上一直如此 基于裸体研究),且无权滥用。
同样,模型制作者也希望从大量受版权保护的材料中获益,这些材料可以进入超大规模的场景,例如 莱翁,而该模型并未具备实际侵犯知识产权的能力。
不考虑试图隐瞒使用受版权保护的材料的道德和法律风险,后一种情况的过滤要困难得多。NSFW 内容通常包含明显的低级潜在 功能 这使得过滤越来越有效,而不需要与现实世界的材料直接比较。相比之下, 潜在嵌入 定义数百万版权作品的符号并不能简化为一组易于识别的标记,这使得自动检测变得更加复杂。
复制法官
人类判断力是一种稀缺且昂贵的商品,无论是在数据集的管理中,还是在创建后处理过滤器和基于“安全”的系统时,这些系统旨在确保 IP 锁定的材料不会传递给基于 API 的门户网站(如 MidJourney)的用户和 ChatGPT 的图像生成能力。
因此,瑞士、索尼人工智能和中国之间的新学术合作将提供 复制法官 – 一种自动化方法,可以协调连续串通的基于 ChatGPT 的“法官”,以检查输入中是否存在可能侵犯版权的迹象。

CopyJudge 对各种 IP 边缘 AI 生成进行评估。 来源:https://arxiv.org/pdf/2502.15278
CopyJudge 有效地提供了一个自动化框架,利用大型视觉语言模型 (LVLM) 来确定受版权保护的图像与文本到图像传播模型生成的图像之间的实质性相似性。

CopyJudge 方法使用强化学习和其他方法来优化侵犯版权的提示,然后使用来自这些提示的信息来创建不太可能调用版权图像的新提示。
尽管许多基于人工智能的在线图像生成器会过滤用户对 NSFW、版权材料、真实人物的再现以及其他各种被禁域名的提示,但 CopyJudge 却使用精炼的“侵权”提示来创建“净化”提示,这些提示最不可能唤起不允许的图像,而无意直接阻止用户提交。
虽然这不是一种新方法,但它在某种程度上使基于 API 的生成系统不再简单地拒绝用户输入(尤其是因为这允许用户开发 后门访问 通过实验,将基因改造的后代转化为不允许的后代)。
近期的此类漏洞(已被开发人员关闭)允许用户在 Kling 生成 AI 平台上生成色情材料,只需在图像到视频的工作流程中上传的图像中添加一个显眼的十字架或耶稣受难像即可。

在 2024 年底 Kling 开发人员修补的一个漏洞中,用户只需在 I2V 种子图像中添加一个十字架或十字架,即可强制系统生成禁止的 NSFW 输出。目前尚未解释这种现已过期的黑客攻击背后的逻辑。 资料来源:Discord
此类事例强调了在线生成系统需要及时清理,尤其是因为机器学习(即修改基础模型以删除禁用概念)可能会产生 不受欢迎的影响 最终模型的可用性。
为了寻求不那么激进的解决方案,CopyJudge 系统模仿人类的法律判断,利用人工智能将图像分解为构图和颜色等关键元素,过滤掉不受版权保护的部分,并比较剩余部分。它还包括一种由人工智能驱动的方法来调整提示和修改图像生成,帮助避免版权问题,同时保留创意内容。
作者认为,实验结果证明了 CopyJudge 与这一追求中最先进的方法相当,并表明该系统表现出优越的 概括 和可解释性,与之前的作品相比。
这个 新文 标题为 CopyJudge:文本到图像传播模型中的自动版权侵权识别和缓解,由来自洛桑联邦理工学院、索尼人工智能和中国西湖大学的五位研究人员共同完成。
付款方式
尽管 CopyJudge 使用 GPT 创建自动法官滚动法庭,但作者强调该系统并未针对 OpenAI 的产品进行优化,可以使用任意数量的替代大型视觉语言模型 (LVLM)。
首先,需要作者的抽象-过滤-比较框架将源图像分解为组成部分,如下图左侧所示:

CopyJudge 工作流程初始阶段的概念架构。
在左下角,我们看到一个过滤代理正在分解图像的各个部分,试图识别可能与版权作品相关的特征,但这些特征本身太过笼统,不足以构成侵权。
随后使用多个 LVLM 来评估过滤后的元素——这种方法已被证明在 2023 CSAIL 等论文中有效 提供 通过多主体辩论提高语言模型的事实性和推理能力和 聊天评估,以及新论文中承认的其他各种观点。
作者指出:
“[我们] 采用完全连接的同步通信辩论方法,其中每个 LVLM 在做出下一个判断之前都会收到来自 [其他] LVLM 的 [响应]。这创建了一个动态反馈循环,可增强分析的可靠性和深度,因为模型会根据同行提出的新见解调整其评估。
“每个 LVLM 可以根据其他 LVLM 的回应调整其分数或保持不变。”
通过少量上下文学习,人类评分的多对图像也纳入了该过程。
一旦循环中的“法庭”达成可接受范围内的共识分数,结果就会被传递给“元法官”LVLM,后者将结果综合成最终分数。
减轻
接下来,作者集中讨论了前面描述的迅速缓解过程。

CopyJudge 通过优化提示和潜在噪声来减轻版权侵权的方案。该系统会迭代调整提示,并利用强化学习随着提示的演变修改潜在变量,希望能够降低侵权风险。
用于缓解提示的两种方法分别是基于 LVLM 的提示控制,其中有效的非侵权提示在 GPT 集群中迭代开发——这是一种完全“黑箱”的方法,不需要内部访问模型架构;以及 强化学习(基于 RL)的方法,其中奖励旨在惩罚侵犯版权的输出。
数据与测试
为了测试 CopyJudge,我们使用了各种数据集,包括 D-Rep,其中包含人类以 0-5 评分的真实和虚假图像对。

探索 Hugging Face 上的 D-Rep 数据集。此集合将真实图像与生成的图像配对。 资料来源:https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
CopyJudge 模式将得分为 4 或以上的 D-Rep 图像视为侵权示例,其余图像则视为与知识产权无关。数据集中的 4000 张官方图像被用作测试图像。此外,研究人员还从维基百科中挑选并整理了 10 个著名卡通人物的图像。
用于生成潜在侵权图像的三种基于扩散的架构是 稳定扩散 V2; 康定斯基2-2;和 稳定扩散 XL。作者从每个模型中手动选择了一张侵权图像和一张非侵权图像,得出了 60 个正样本和 60 个负样本。
选择用于比较的基线方法是: L2 规范; 学习感知图像块相似性 (低密度聚乙烯保护系统); 固态光盘; 链路控制协议;和 PDF嵌入. 对于指标,准确率和 F1分数 被用作侵权的标准。
GPT-4o 被用来填充 CopyJudge 的内部辩论团队,使用三个代理对任何特定的提交图像进行最多五次迭代。D-Rep 中每次评分随机选取三张图像作为人类 先验 供代理商考虑。

第一轮CopyJudge侵权结果。
对于这些结果,作者评论道:
“显然,传统的图像复制检测方法在版权侵权识别任务中存在局限性。我们的方法明显优于大多数方法。对于最先进的方法 PDF-Emb,它是在来自 D-Rep 的 36,000 个样本上进行训练的,我们在 D-Rep 上的表现略逊一筹。
“然而,它在卡通 IP 和艺术品数据集上的糟糕表现凸显了其缺乏泛化能力,而我们的方法在各个数据集上都表现出同样出色的结果。”
作者还指出,CopyJudge 在有效案件和侵权案件之间提供了“相对”更清晰的界限:

新论文的补充材料中提供了来自测试轮次的更多示例。
研究人员将他们的方法与索尼 AI 参与的 合作 从 2024 年开始 检测、解释和减轻扩散模型中的记忆.这项工作使用了经过微调的稳定扩散模型,该模型具有 200 个记忆(即过度拟合)图像,以在推理时引出受版权保护的数据。
新研究的作者发现,与 2024 年的方法相比,他们自己的快速缓解方法能够生成不太可能造成侵权的图像。

使用 CopyJudge 进行记忆缓解的结果与 2024 年的作品进行了对比。
作者在此评论:
“[我们的]方法可以生成不太可能造成侵权的图像,同时保持相当的、略微降低的匹配准确率。如下图所示,我们的方法有效地避免了[之前]方法的缺点,包括无法减轻记忆力或生成高度偏差的图像。”

减轻记忆之前和之后生成的图像和提示的比较。
作者对侵权缓解进行了进一步的测试,研究 明确的 和 含蓄 侵权。
明显侵权 当提示直接引用受版权保护的材料时,例如 “生成米老鼠的图像”为了测试这一点,研究人员使用了 20 个卡通和艺术品样本,在 Stable Diffusion v2 中生成侵权图像,并带有明确包含姓名或作者归属的提示。

作者的潜在控制 (LC) 方法与之前研究的即时控制 (PC) 方法之间的比较,采用不同的变化,使用稳定扩散来创建描绘明确侵权的图像。
隐性侵权 当提示缺乏明确的版权引用但由于某些描述元素仍然导致侵权图像时,就会发生这种情况 - 这种情况与商业文本到图像模型特别相关,该模型通常结合内容检测系统来识别和阻止与版权相关的提示。
为了探索这一点,作者使用了与明确侵权测试中相同的 IP 锁定样本,但使用 DALL-E 3 生成了没有直接版权引用的侵权图像(尽管论文指出,观察到该模型的内置安全检测模块会拒绝触发其过滤器的某些提示)。

使用 DALLE-3 进行隐性侵权,并给出侵权和 CLIP 分数。
作者指出:
“可以看出,我们的方法显著降低了侵权的可能性,无论是显性侵权还是隐性侵权,而 CLIP 分数仅略有下降。仅潜在控制后的侵权分数相对高于提示控制后的侵权分数,因为在不更改提示的情况下检索非侵权潜在信息非常困难。然而,我们仍然可以有效地降低侵权分数,同时保持更高的图像文本匹配质量。
“[下图]展示了可视化结果,从中可以看出,我们在满足用户需求的同时避免了知识产权侵权。”

在减轻 IP 侵权之前和之后生成的图像。
结语
尽管该研究为人工智能生成的图像的版权保护提供了一种有前景的方法,但依赖大型视觉语言模型 (LVLM) 进行侵权检测可能会引发对偏见和一致性的担忧,因为人工智能驱动的判断可能并不总是符合法律标准。
或许最重要的是,该项目还假设版权执行可以实现自动化,尽管现实世界的法律决策往往涉及人工智能可能难以解释的主观和背景因素。
在现实世界中,法律共识的自动化,尤其是围绕人工智能的输出,似乎将在很长一段时间内仍然是一个有争议的问题,并且远远超出了本文所涉及的领域的范围。
首次发布于 24 年 2025 月 XNUMX 日星期一