Anderson 视角
AI 模型审查不够有效,研究揭示

尝试通过从训练模型中删除禁止内容(例如色情、暴力或版权风格)来审查 AI 图像生成器的尝试效果不佳:一项新研究发现,当前的概念删除方法允许“禁止”的属性渗透到无关的图像中,并且无法阻止密切相关的“删除”内容的版本出现在图像中。
如果生产基础 AI 模型的公司无法防止它们被滥用来生成令人反感或违法的材料,他们将面临被起诉和/或关闭的风险。相反,仅通过 API 提供模型的供应商(如 Adobe 的 Firefly 生成引擎)不必担心其模型可能会创建什么内容,因为用户的提示和生成的输出都经过检查和过滤:

Adobe 的 Firefly 系统,有时会直接拒绝生成请求,阻止提示在创建任何内容之前。其他时候,它会生成图像,但在审查后阻止结果。这种中间拒绝过程也可以在 ChatGPT 中发生,当模型开始响应但在识别出政策违规后将其截断 – 并且有时可以在此过程中暂时看到中止的图像。
然而,这种 API 风格的过滤器通常可以通过用户在本地安装的模型进行中和,包括视觉语言模型(VLMs),用户可能希望通过在自定义数据上进行本地训练来自定义它们。
在大多数情况下,禁用此类操作是微不足道的,涉及在 Python 中注释掉一个函数调用(尽管这种黑客攻击通常需要在框架更新后重复或重新发明)。
从商业角度来看,很难理解这如何成为一个问题,因为 API 方法最大化了公司对用户工作流的控制。然而,从用户的角度来看,API 仅模型的成本和错误或过度审查的风险可能会迫使他们下载和自定义开源替代品的本地安装 – 至少,在 FOSS 许可证有利的情况下。
最后一个没有尝试内置自我审查的重要模型是 Stable Diffusion V1.5,几乎三年前。后来,发现其训练数据集包括 CSAM 数据,导致人们对其可用性的禁令呼声日益增长,并在 2024 年从 Hugging Face 存储库中删除。
切除它!
愤世嫉俗者认为,公司对本地可安装的生成性 AI 模型感兴趣的原因仅仅是出于对法律责任的担忧,如果他们的框架被公众宣传为促进了非法或令人反感的内容。
确实,一些“本地友好”的开源模型不难去审查(例如 Stable Diffusion 1.5 和 DeepSeek R1)。
相比之下,Black Forest Lab 的 Flux Kontext 模型系列 的最近发布以公司致力于审查整个 Kontext 范围为标志,这是通过仔细的数据策划和针对性微调实现的,旨在删除任何残留的倾向于 NSFW 或禁止内容。
这是过去 2-3 年来研究场景中的行动焦点:强调在事后修复具有欠缺数据策划的模型。这种类型的产品包括 扩散模型中的统一概念编辑 (UCE);文本到图像扩散模型的可靠高效概念删除 (RECE);扩散模型中的大规模概念删除 (MACE);以及 概念半渗透结构被注入为膜 (SPM):

2024 年的论文“扩散模型中的统一概念编辑”提供了对注意力权重的封闭形式编辑,实现了文本到图像模型中多个概念的高效编辑。但是,该方法能否经受住审查?来源:https://arxiv.org/pdf/2308.14761
虽然这种方法很高效(超大规模集合,如 LAION,太大了,无法手动策划),但它不一定有效:根据一项新的美国研究,这些概念删除技术(CETs)实际上并不能很好地工作。
作者发现,这些 CETs 通常可以轻松绕过,而且即使它们有效,也会产生相当大的副作用:

对文本到图像模型的概念删除的影响。每列显示一个提示和要删除的概念,以及编辑前后的生成输出。层次结构表示概念之间的父子关系。示例突出了常见的副作用,包括未能删除子概念、压制邻近概念、通过改述规避以及将删除的属性转移到无关对象上。来源:https://arxiv.org/pdf/2508.15124
作者发现,当前的主要概念删除技术都无法阻止 组合提示(例如 红色汽车 或 小型木制椅子);经常让子类即使在删除父类别后仍然出现(例如 汽车 或 公交车 在删除 车辆 后仍然出现);并引入了新的问题,例如属性泄漏(例如,删除 蓝色沙发 可能会导致模型生成无关对象,例如 蓝色椅子)。
在超过 80% 的测试用例中,删除一个广泛的概念,例如 车辆,并没有阻止模型生成更具体的 车辆 实例,例如汽车或公交车。
编辑,论文观察到,还会导致 注意力图(决定模型在图像中关注哪里的一部分)分散,削弱输出质量。
有趣的是,论文发现,逐一删除相关训练概念比尝试一次性删除所有概念更有效;尽管它并不能消除所研究的编辑方法的所有缺点:

进步式和一次性删除策略的比较。当所有“泰迪熊”变体同时被删除时,模型继续生成熊类对象。逐步删除变体更有效,导致模型更可靠地抑制目标概念。
虽然研究人员目前无法提供解决论文中提出的问题的解决方案,但他们已经开发了一个新数据集和基准,这可能有助于后续研究项目了解其“审查”的模型是否按预期运行。
论文指出:
以前的评估仅依赖于一个小的目标和保留类;例如,当删除“汽车”时,只测试了模型生成汽车的能力。我们证明,这种方法从根本上是不充分的,概念删除的评估应该更全面,以涵盖所有相关的子概念,例如“红色汽车”。
通过引入一个具有组合变体的多样化数据集,并系统地分析诸如对邻近概念的影响、概念规避和属性泄漏等效果,我们揭示了现有 CETs 的显著局限性和副作用。
我们的基准是模型无关的,易于集成,非常适合帮助开发新的概念删除技术(CETs)。

虽然 CETs 删除了目标概念“鸟”,但它们在组合变体“红鸟”(上)上失败了。在删除“蓝色沙发”后,所有方法也失去了生成蓝色椅子的能力(下)。成功的结果用绿色勾选标记,失败的结果用红色叉号标记。
研究提供了对训练到模型的 潜在空间 中概念的交织程度以及 纠缠 将如何轻松允许任何明确和真正离散的概念删除的洞察。
论文 新论文 的标题为 从扩散模型中删除概念的副作用,来自马里兰大学的四位研究人员。
方法和数据
作者认为,声称从扩散模型中删除概念的前期工作并没有充分证明其主张,指出*:
删除的主张需要更强大、更全面的评估。例如,如果要删除的概念是“车辆”,则子概念(如“汽车”)和组合概念(如“红色汽车”或“小汽车”)也应被删除。
然而,现有的评估协议并未考虑概念层次和组合性的这一方面,因为它们仅关注单个删除概念的准确性。[EraseBench 的作者] 评估了 CETs 对视觉相似和改述概念的影响(例如“猫”和“小猫”);然而,它们并未彻底检查概念的层次和组合性。
为了为未来的项目提供基准数据,作者创建了 副作用评估 (SEE) 数据集 – 一个大型文本提示集合,旨在测试概念删除方法的有效性。
提示遵循一个简单的模板,其中对象用大小、颜色和材料等属性描述 – 例如,一个小型红色木制汽车的图像。
对象来自 MS-COCO 数据集,并组织成一个超类的层次结构,例如 车辆,和子类,例如 汽车 或 公交车,其属性组合形成层次结构的叶节点(层次结构中最具体的级别)。这种结构使得可以在不同语义级别测试删除,从广泛的类别到特定的变体。
为了支持自动评估,每个提示都与一个是/否问题配对,例如 图像中是否有汽车?,并用作图像分类模型的类标签:

SEE 数据集中通过改变大小、颜色和材料属性生成的提示组合。
为了衡量每种概念删除方法的性能,作者设计了两种评分方法:目标准确性,跟踪删除的概念在生成的图像中仍然出现的频率;以及 保留准确性,跟踪模型是否继续生成不应被删除的材料。
两项评分之间的平衡旨在揭示方法是否成功地删除了禁止的概念而不损害模型的更广泛输出。
作者在三个故障模式下评估了概念删除:首先,衡量删除一个概念(如 汽车)是否会破坏附近或无关的概念,基于语义和属性相似性;其次,测试删除是否可以通过子概念(如 红色汽车)在删除 车辆 后进行提示来规避。
最后,进行了属性泄漏检查,即与删除概念相关的特征出现在其他对象中(例如,删除 沙发 可能会导致另一个对象,如 盆栽植物,继承其颜色或材料)。最终数据集包含 5056 个组合提示。
测试
以前的框架测试是之前列出的 – UCE、RECE、MACE 和 SPM。研究人员采用了原始项目的默认设置,并在具有 48GB VRAM 的 NVIDIA RTX 6000 GPU 上对所有模型进行了微调。
Stable Diffusion 1.4,这是文献中最常见的模型之一,被用于所有测试 – 也许是因为早期的 SD 模型几乎没有概念约束,因此在这个特定的研究背景下提供了一个空白的画布。
SEE 数据集中的每个提示都通过未编辑和编辑后的模型运行,使用固定 随机种子 生成每个提示的四个图像,从而可以测试删除效果是否在多个输出中保持一致。每个编辑后的模型生成了总共 20,224 张图像。
使用先前的文本到图像删除程序的方法来评估保留概念的存在,使用 VQA 模型 BLIP、QWEN 2.5 VL 和 Florence-2base。
对邻近概念的影响
第一个测试衡量了删除一个概念是否会无意中影响附近的概念。例如,在删除 汽车 后,模型应该停止生成 红色汽车 或 大型汽车,但仍应能够生成相关概念,例如 公交车 或 卡车,以及无关概念,例如 叉子。
分析使用 CLIP 嵌入相似性和属性基于编辑距离来估计每个概念与删除的目标概念的接近程度,从而使研究能够量化破坏的范围:

目标准确性(左)和保留准确性(右)与语义相似性(上)和组合距离(下)相结合的结果。理想的概念删除方法应该在所有距离上显示低目标准确性和高保留准确性,但结果显示当前技术在更接近的概念上不能很好地概括,或者不成比例地破坏了它们。
作者评论道:
所有 CETs 都继续生成目标的组合或语义上遥远的变体,尽管进行了删除,这在理想情况下不应该发生。很明显,UCE 一致地比其他 CET 方法在 [保留集] 上获得更高的准确率,表明对语义相关概念的意外影响最小。
相比之下,SPM 获得了最低的准确率,表明其编辑策略更容易受到概念相似性的影响。
在测试的四种方法中,RECE 是最有效的,阻止了目标概念。然而,如上图左侧所示,所有方法都未能抑制组合变体。删除 鸟 后,模型仍然生成了红鸟的图像,表明概念仍然部分保持完整。
删除 蓝色沙发 也阻止了模型生成 蓝色椅子,表明对附近的概念造成了损害。
RECE 处理组合变体的效果比其他方法好,而 UCE 在保留相关概念方面做得更好。
删除入侵
删除入侵测试评估了模型在其超类被删除后是否仍然可以生成子类概念。例如,如果 车辆 被删除,则测试检查模型是否仍然可以生成输出,例如 自行车 或 红色汽车。
提示针对直接子类和组合变体,以确定概念删除操作是否真正删除了整个层次结构,或者可以通过更具体的描述来规避:

在 Stable Diffusion v1.4 上,通过子类和组合变体规避删除的超类,准确率越高,表示规避程度越大。
未编辑的模型在所有超类中保持了高准确率,确认它没有删除任何目标概念。在 CETs 中,MACE 显示出最少的规避,获得了超过一半测试类别中最低的子类准确率。RECE 也表现良好,特别是在 配饰、体育 和 电子 组中。
相比之下,UCE 和 SPM 显示出更高的子类准确率,表明删除的概念可以通过相关或嵌套的提示来规避。
作者指出:
所有 CETs 成功地抑制了目标超类概念(“食物”)。然而,当提示与食物层次结构相关的属性子类(例如“大披萨”)时,所有方法都会生成食物项目。
同样,在“车辆”类别中,所有模型都会生成自行车,尽管“车辆”被删除。
属性泄漏
第三个测试,属性泄漏,检查了与删除概念相关的特征是否出现在图像的其他部分。
例如,在删除 沙发 后,模型既不应该生成沙发,也不应该将其典型属性(如颜色或材料)应用于同一提示中的无关对象。这是通过提示模型使用成对对象并检查删除的属性是否错误地出现在保留的概念中来衡量的:

概念删除后属性令牌的注意力图。左:当“长椅”被删除时,令牌“木制”转移到鸟上,导致生成木制鸟。右:删除“沙发”未能抑制沙发的生成,同时令牌“大”被错误地分配给了甜甜圈。
RECE 是删除目标属性最有效的方法,但也引入了最多的属性泄漏到保留的提示中,甚至超过了未编辑的模型。UCE 泄漏的属性较少。
结果,作者认为,表明需要在删除和属性转移风险之间进行内在的权衡,强烈的删除会增加误导性属性转移的风险。
结论
模型的潜在空间并不是在训练过程中以整齐的方式填充的,派生的概念被整齐地存放在架子上或文件柜中;而是训练的嵌入既是内容又是容器:它们之间没有明显的界限,而是以一种方式融合在一起,使得删除变得困难 – 就像试图在不流血的情况下取出一磅肉一样。
在智能和不断演化的系统中,基础事件(例如烧伤手指并因此对火有了敬畏之情)与它们后来形成的行为和关联密切相关,使得创建一个可能保留了中心、潜在“禁止”的概念的关联,但本身却没有该概念的模型变得具有挑战性。
* 我将作者的内联引用转换为超链接。
首次发布于 2025 年 8 月 22 日
