安德森的角度

研究显示，审查人工智能模型效果不佳

发布时间 2025 年 8 月 22 日

马丁安德森

ChatGPT-4o、Krita（Flux/Flux Koncept Dev）、Firefly。

通过从训练模型中删除被禁内容（如色情、暴力或受版权保护的风格）来审查人工智能图像生成器的尝试是失败的：一项新的研究发现，当前的概念擦除方法允许“被禁”的属性蔓延到不相关的图像中，也无法阻止所谓的“被擦除”内容的密切相关版本的出现。

如果生产基础人工智能模型的公司无法阻止其被滥用于制作令人反感或非法的内容，它们就有可能被起诉和/或被关闭。相反，那些只提供自身模型的供应商通过 API就像 Adobe 的萤火虫生成引擎，不必担心他们的模型会创建什么，因为用户的提示和结果输出都经过检查和清理：

Adobe 的 Firefly 系统（用于 Photoshop 等工具）有时会立即拒绝生成请求，在生成任何内容之前阻止该请求。有时，它会生成图像，但在审核后阻止结果。这种中途拒绝的情况也可能发生在 ChatGPT 中，当模型开始响应时，在识别到违反政策后会将其终止。

Adobe 的 Firefly 系统（用于 Photoshop 等工具）有时会立即拒绝生成请求，并在生成任何内容之前阻止该请求。有时，它会生成图像，但在审核后阻止结果。这种中途拒绝的情况也可能发生在 ChatGPT 中，当模型开始响应时，但在识别到违反政策后将其切断——在此过程中，偶尔会短暂地看到被中止的图像。

然而，这种 API 风格的过滤器通常可以被用户在本地安装的模型上中和，包括用户可能希望通过对自定义数据进行本地训练来定制的视觉语言模型 (VLM)。

在大多数情况下，禁用此类操作很简单，只需在 Python 中注释掉一个函数调用即可（尽管在框架更新后通常必须重复或重新发明这种类型的黑客攻击）。

从商业角度来看，很难理解这怎么会成为问题，因为 API 方法可以最大限度地增强企业对用户工作流程的控制。然而，从用户的角度来看，纯 API 模型的成本以及错误或过度审查的风险，很可能迫使他们下载并定制开源替代方案的本地安装——至少在 FOSS 许可证有利的情况下是这样。

最后一个在不试图根深蒂固自我审查的情况下发布的重要的模型是 Stable Diffusion V1.5，大约三年前后来，其训练语料库被披露包括 CSAM 数据导致越来越多的人呼吁禁止其使用，并且切除来自 2024 年的 Hugging Face 存储库。

停止！

愤世嫉俗者认为，一家公司对审查本地可安装的生成式人工智能模型的兴趣完全是基于担忧关于法律风险，如果其框架因助长非法或令人反感的内容而被公开。

事实上，一些“本地友好型”开源模式并不难解除审查（例如稳定扩散1.5 和 DeepSeek R1).

相比之下，Black Forest Lab 最近发布的 Flux Kontext 型号系列以公司的显著的承诺删改整个 Kontext 系列。这是通过仔细的数据整理和有针对性的微调经过培训，旨在消除对 NSFW 或禁止内容的任何残留倾向。

过去两三年来，研究领域的行动重点一直集中在此：重点在于事后修复缺乏整理的数据模型。这类服务包括 扩散模型中的统一概念编辑 (联合大学); 文本到图像扩散模型的可靠高效概念擦除 (祈祷); 扩散模型中的大众概念抹除 (锤）; 和 概念-半透性结构注入膜 (SPM):

2024 年的论文《扩散模型中的统一概念编辑》提出了对注意力权重的闭式编辑，从而能够在文本转图像模型中高效地编辑多个概念。但这种方法经得起推敲吗？来源：https://arxiv.org/pdf/2308.14761

虽然这是一种有效的方法（超大规模集合，例如莱翁由于数据量太大，无法手动管理，这种方法并不一定是有效的：根据美国的一项新研究，上述编辑程序——代表了训练后人工智能模型修改的最新水平——实际上都没有发挥很好的作用。

作者发现，这些概念擦除技术（CET）通常很容易被规避，即使它们有效，也会产生相当大的副作用：

概念擦除对文本转图像模型的影响。每列显示一个提示和标记为擦除的概念，以及编辑前后生成的输出。层级结构表明概念之间的父子关系。示例重点介绍了常见的副作用，包括无法擦除子概念、抑制相邻概念、通过改写规避以及将已擦除的属性转移到不相关的对象。来源：https://arxiv.org/pdf/2508.15124

概念擦除对文本转图像模型的影响。每列显示一个提示和标记为擦除的概念，以及编辑前后生成的输出。层次结构表明概念之间的父子关系。示例重点介绍了常见的副作用，包括无法擦除子概念、抑制相邻概念、通过改写规避以及将已擦除的属性转移到不相关的对象。来源：https://arxiv.org/pdf/2508.15124

作者发现，目前领先的概念擦除技术无法阻止 作文提示 （例如， 红色的车 or 小木椅）；即使在删除父类别后，也经常会让子类别漏掉（例如汽车 or 总线删除后继续出现汽车）；并引入了新的问题，例如属性泄漏（例如，删除 蓝色沙发 可能导致模型生成不相关的对象，例如 蓝色椅子).

在超过 80% 的测试案例中，删除诸如汽车并没有阻止模型生成更具体的汽车例如汽车或公共汽车。

论文指出，编辑也会导致注意图（模型中决定图像聚焦位置的部分）分散，从而削弱输出质量。

有趣的是，该论文发现，逐个删除相关的训练概念比尝试一次性删除所有概念效果更好——尽管它并不能消除所研究的编辑方法的所有缺点：

渐进式擦除策略与一次性擦除策略的比较。当“泰迪熊”的所有变体被同时擦除时，模型会继续生成类似熊的物体。逐步擦除变体更有效，能够使模型更可靠地抑制目标概念。

尽管研究人员目前无法对论文中概述的问题提供解决方案，但他们已经开发出新的数据集和基准，这可能有助于后续研究项目了解他们自己的“审查”模型是否按预期运行。

该文件指出：

之前的评估仅仅依赖于一小部分目标和保留类别；例如，在擦除“汽车”时，只测试了模型生成汽车的能力。我们证明，这种方法从根本上来说是不充分的，概念擦除评估应该更加全面，涵盖所有相关的子概念，例如“红色汽车”。

“通过引入具有组成变化的多样化数据集并系统地分析对邻近概念的影响、概念回避和属性泄漏等效应，我们发现了现有 CET 的显著局限性和副作用。

“我们的基准与模型无关且易于集成，非常适合帮助开发新的概念擦除技术 (CET)。 ”

尽管连续性测试方法 (CET) 删除了目标概念“鸟”，但它们在构图变体“红鸟”（上图）上却失败了。删除“蓝色沙发”后，所有方法也失去了生成蓝色椅子的能力（下图）。成功的结果以绿色勾号标记，失败的结果以红色叉号标记。

尽管连续性词汇测试 (CET) 删除了目标概念“鸟”，但它们在构图变体“红鸟”（上图）上却失败了。删除“蓝色沙发”后，所有方法也失去了生成蓝色椅子的能力（下图）。成功的结果以绿色勾号标记，失败的结果以红色“X”标记。

这项研究提供了一个有趣的见解，让我们了解训练的概念在模型中的交织程度潜在空间以及纠葛不会轻易允许任何形式的明确和真正离散的概念抹去。

这个新文标题为 从扩散模型中删除概念的副作用，来自马里兰大学的四位研究人员。

方法与数据

作者认为，先前声称从扩散模型中抹去概念的研究并不能充分证明这一说法，并指出*：

“删除声明需要更稳健、更全面的评估。例如，如果要删除的概念是“车辆”，那么诸如“汽车”之类的子概念以及诸如“红色汽车”或“小型汽车”之类的组合概念也应该被删除。”

然而，现有的评估协议并未考虑概念层次结构和组合性的这一方面，因为它们只关注单个被擦除概念的准确性。[ EraseBench] 评估 CET 如何影响视觉上相似和释义的概念（例如“猫”和“小猫”）[；] 但是它们并没有详尽地探究概念的层次结构和组合性。'

为了给未来的项目提供基准数据，作者创建了 副作用评估 （SEE）数据集——大量的文本提示，旨在测试概念擦除方法的效果。

提示遵循一个简单的模板，其中用大小、颜色和材质的属性来描述一个物体——例如， 一辆红色小木车的图片.

物体是从麦可可数据集，并组织成超类的层次结构，例如汽车以及子类，例如汽车 or 总线，其属性组合构成叶节点（层次结构中最具体的级别）。这种结构使得在不同的语义层面（从广泛的类别到具体的变体）测试擦除成为可能。

为了支持自动评估，每个提示都与一个是非题配对，例如 图片中有汽车吗？ 并用作图像分类模型的类标签：

SEE 数据集中通过改变尺寸、颜色和材料属性生成的提示组合。

为了衡量每种概念擦除方法的效果，作者设计了两种评分方法： 目标准确度，追踪已删除概念在生成的图像中仍然出现的频率； 保持准确性，它跟踪模型是否继续生成不应该被擦除的材料。

两个分数之间的平衡旨在揭示该方法是否成功地消除了被禁止的概念，而不会损害模型的更广泛的输出。

作者评估了三种失败模式下概念擦除的效果：首先，衡量是否删除了诸如汽车根据语义和属性的相似性，破坏附近或不相关的概念；其次，测试是否可以通过提示子概念来绕过擦除，例如 红色的车 删除后汽车.

最后，检查属性泄漏，即与已删除概念相关的特征出现在不相关的对象中（例如，删除长椅可能会导致另一个物体，例如 盆栽植物，以继承其颜色或材质）。最终数据集包含 5056 个构图提示

检测

之前测试的框架是之前列出的 UCE、RECE、MACE 和 SPM。研究人员采用了原始项目的默认设置，并在配备 6000GB VRAM 的 NVIDIA RTX 48 GPU 上对所有模型进行了微调。

稳定扩散 1.4 是文献中最常用的模型之一，用于所有测试 - 可能主要是因为最早的 SD 模型几乎没有或根本没有概念限制，因此在这一特定的研究背景下提供了一张白纸。

SEE 数据集中的 5056 个提示均通过模型的未编辑和编辑版本运行，每个提示使用固定随机种子，用于测试擦除效果在多个输出中是否保持一致。每个编辑模型共生成 20,224 张图像。

根据先前的文本到图像擦除程序方法，使用 VQA 模型来评估保留概念的存在哔哩哔哩, QWEN 2.5 VL及佛罗伦萨-2base.

对邻近概念的影响

第一个测试测量的是删除一个概念是否会无意中影响到附近的概念。例如，删除后汽车，模型应该停止生成 红色的车 or 大型车.但仍然能够生成相关概念，例如总线 or 卡车以及不相关的，例如叉.

使用的分析 CLIP 嵌入相似性和基于属性的编辑距离来估计每个概念与被抹去的目标的接近程度，从而使研究能够量化中断蔓延的范围：

目标准确率（左）和保留准确率（右）的综合结果与语义相似度（上）和组合距离（下）的关系图。理想的概念擦除方法应该在所有距离上都表现出较低的目标准确率和较高的保留准确率，但结果表明，当前的技术无法实现清晰的泛化，较近的概念要么擦除不充分，要么被不成比例地破坏。

目标准确率（左）和保留准确率（右）的综合结果与语义相似度（上）和组合距离（下）的关系图。理想的概念擦除方法在所有距离上都表现出较低的目标准确率和较高的保留准确率；但结果表明，当前的技术无法实现清晰的泛化，较近的概念要么擦除不充分，要么被不成比例地破坏。

针对这些结果，作者评论道：

尽管进行了擦除操作，但所有 CET 仍会继续生成与目标在结构或语义上相差甚远的变体，而理想情况下这种情况不应该发生。显然，UCE 在 [保留集] 上始终比其他 CET 方法获得更高的准确率，这表明对语义相关概念的意外影响极小。

“相比之下，SPM 的准确率最低，这表明其编辑策略更容易受到概念相似性的影响。”

在测试的四种方法中，RECE 在阻止目标概念方面最有效。然而，如上图左侧所示，所有方法都未能抑制构图变体。在擦除鸟，该模型仍然产生了一只红鸟的图像，表明该概念仍然部分完好无损。

删除 蓝色沙发 也阻止了模型生成 蓝色椅子，表明对附近概念的损害。

RECE 比其他方法更好地处理了组合变体，而 UCE 在保留相关概念方面做得更好。

抹除入侵

擦除规避测试评估了模型在超类被擦除后是否仍能生成子类概念。例如，如果汽车被移除后，测试检查模型是否仍能产生如下输出： 自行车 or 红色的车.

提示针对直接子类和组合变体，以确定概念擦除操作是否真正删除了整个层次结构，或者是否可以通过更具体的描述来绕过：

在 Stable Diffusion v1.4 中，通过子类和组合变体来规避已擦除的超类，准确度越高，规避效果越好。

未经编辑的模型在所有超类中都保持了较高的准确率，证实了它 而不去 删除了所有目标概念。在 CET 中，MACE 的回避率最低，在超过一半的测试类别中达到了最低的子类准确率。RECE 也表现良好，尤其是在附件, 运动鞋及电子组。

相比之下，UCE 和 SPM 表现出更高的子类准确度，这表明被抹去的概念更容易通过相关或嵌套的提示来绕过。

作者指出：

[所有] CET 成功抑制了目标超类概念（“食物”）。然而，当提示食物层次结构中基于属性的子项（例如“大披萨”）时，所有方法都会生成食物项目。

“同样在 汽车 类别中，尽管抹去了“车辆”一词，但所有模型都生成自行车。'

属性泄漏

第三个测试，属性泄漏，检查与被擦除概念相关的特征是否出现在图像的其他部分。

例如，擦除后长椅，模型既不应该生成沙发，也不应该将其典型属性（例如颜色或材质）应用于同一提示中的不相关对象。这是通过向模型输入配对对象并检查被擦除的属性是否错误地出现在保留的概念中来衡量的：

概念擦除后属性标记的注意力图。左图：当“长凳”被擦除时，“木制”标记会移至鸟，从而生成木制鸟。右图：擦除“沙发”未能抑制沙发的生成，而“大”标记则被错误地分配给了甜甜圈。

RECE 在擦除目标属性方面最为有效，但也导致保留提示中属性泄漏最多，甚至超过了未编辑模型。UCE 的泄漏程度低于其他方法。

作者认为，结果表明了内在权衡的必要性，更强的擦除会增加错误属性转移的风险。

结语

模型的潜在空间在训练过程中不会以有序的方式填满，衍生的概念不会整齐地存放在架子或文件柜中；相反，经过训练的嵌入既是内容，也是容器：不被任何明显的界限分隔，而是以一种难以移除的方式相互融合——就像试图在不失血的情况下提取一磅肉一样。

在智能和不断发展的系统中，基础事件（例如烧伤手指以及此后尊重地对待火）与它们后来形成的行为和关联紧密相关，这使得建立一个模型变得具有挑战性，该模型可能留下了核心的、可能“被禁止”的概念的推论，但本身却缺乏该概念。

* 我将作者的内联引用转换为超链接。

首次发布于 22 年 2025 月 XNUMX 日星期五

相关话题：人工智能图像人工智能图像生成人工智能图像生成器人工智能越狱审查黑客 LVLM 视觉语言模型

不要错过

为什么竞赛正在成为测试人工智能的新标准

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [电子邮件保护]
推特：@manders_ai

联合人工智能

研究显示，审查人工智能模型效果不佳

停止！

方法与数据

检测

对邻近概念的影响

抹除入侵

属性泄漏

结语

你可能会喜欢