关注我们.

安德森的角度

基于“Vibe”的图像注释的风险

mm
禁品博物馆的一位顾客。SDXL;Flux;Flux.1 Kontext;Firefly。

即使他们只得到几美元(甚至一无所获),这些评估图片“有害”内容的不知名人士的选择,也能改变你的生活。现在,谷歌发表的一篇重要新论文似乎表明,这些注释者会制定自己的规则,来判断哪些内容是“有害的”或不具有冒犯性——无论他们对任何一张图片的反应多么怪异或个人化。这会有什么问题呢?

 

检讨 本周,Google Research 与 Google Mind 展开了新的合作,汇集了不少于 13 位贡献者 新的纸张 该研究探讨了当人们为算法评级图像时是否应该考虑图像注释者的“本能感受”,即使他们的反应不符合既定的评级标准。

这对你来说很重要,因为评级者和注释者根据共识规则认为具有冒犯性的内容往往会被纳入自动审查和审核系统,并被纳入“淫秽”或“不可接受”材料的标准,在诸如 新的NSFW防火墙* 英国(其版本为 来澳大利亚 它将很快应用于社交媒体平台的内容评估系统等环境中。

因此,违法标准越宽泛,潜在的审查程度就越广。

氛围审查

这并不是新论文提供的唯一观点;它还发现,对图像进行评级的人往往对他们认为会冒犯的内容更加挑剔 other 除了他们自己之外的人;尽管图像质量与图像内容无关,但低质量的图像经常引发安全问题。

在论文的结论部分,它强调了这两项发现,就好像论文的中心地位已经失败,但研究人员无论如何都有义务发表论文。

虽然这种情况并不罕见,但仔细阅读这篇论文,你会发现一个更险恶的暗流:注释实践可以考虑采用我只能描述为 氛围注释:

我们的研究结果表明,现有框架需要考虑主观和情境维度,例如情绪反应、内隐判断以及对伤害的文化解读。注释者频繁使用情感语言,以及他们与预设伤害标签的差异,凸显了当前评估实践中的缺陷。

“扩大注释指南以包括不同文化和情感解释的说明性示例可以帮助解决这些差距。”

这篇新论文图文并茂,开头列举的例子清晰易懂,容易引起普通读者共鸣,但其核心内容却更加模糊,引发了更多疑问。在每张图片下方,我们可以看到注释者对相应图片的情绪反应。来源:https://arxiv.org/pdf/2507.16033

这篇新论文插图不多,但开头列举的例子清晰易懂,能够引起普通读者的共鸣,尽管其核心内容却引发了更多疑问。在每张图片下方,我们可以看到注释者对相应图片的情绪反应。 来源:https://arxiv.org/pdf/2507.16033

乍一听,这听起来像是一项扩展和更好地量化图像中“伤害”构成的提议——一项值得称赞的追求;但该论文多次重申,这既不可取,也(不一定)可行:

我们的研究结果表明,现有框架需要考虑主观和情境维度,例如情绪反应、内隐判断以及对伤害的文化解读。注释者频繁使用情感语言,以及他们与预设伤害标签的差异,凸显了当前评估实践中的缺陷。

“扩大注释指南的范围,纳入不同文化和情感解释的说明性例子,有助于解决这些差距[...]

“[…] 注释者对模糊图像进行推理的过程通常反映了他们的个人、文化和情感观点,这些观点很难建立或标准化。”

很难看出如何 “扩展注释指南,以纳入不同文化和情感解释的说明性示例” 能够融入理性的评级体系;作者们努力阐明这一点,或构建一个独特的理论,多次攻击其内容,却始终未能取胜。从这一点来看,他们的中心主题本身似乎由“氛围”所驱动,尽管它探讨的是无形的心理。

简单地说,在我看来,扩展注释管道以包含此类标准可能会允许“取消”或混淆注释者可能强烈反应的任何材料(或主题类别)。

二元判断

图像和文字造成伤害的程度确实很难量化,尤其是因为高雅文化经常与“低俗”文化相交叉(例如 艺术小说),这导致了最早的基于“氛围”的审查标准:即使淫秽内容没有得到确切的定义,你也会 当你看到它时就知道了.

在新论文对同理心和定性细微差别进行广泛而探索性的讨论背后,这项研究似乎在悄悄地攻击集中式标准化分类法(“暴力”、“裸体”、“仇恨”等)的权威,这些分类法让平台能够在可容忍的误差范围内实施和扩大审核范围(平时).

出现的论点是,只有分散的、主观的、情境感知的人类反馈才能正确判断 GenAI 的输出。

然而,这显然不可扩展,因为你不可能在“氛围”和生活体验上运行一个包含万亿图像的过滤流程。我们必须将伤害量化为各种属性;对最终过滤系统的范围设定限制;并等待“边缘”案件的新指令(就像受害方有时必须等待针对其自身特定情况的新法律的颁布一样)。

相反,新论文提出了一项默认授权,要求建立扩大其范围的自动化审核流程 自动,并且过于谨慎,以至于注释者即使做出最特殊、最不可复制的反应,也可能会惩罚一张没有冒犯任何人的图像。

道德扩展

尽管该论文倾向于探索而不是采取坚定的立场,但它融合了科学方法的元素:作者开发了一个框架来识别(虽然不是严格衡量)注释者对图像的更广泛的反应,并检查这些反应如何随着性别和其他人口因素而变化。

除了测试分析 伤害焦点该过程分析了测试参与者的辅助评论中的“道德推理”,测试参与者被要求注释包含图像和提示/相关文本的修改后的测试数据集。

这个“道德情感自动评分器”旨在捕捉道德价值观 关怀、平等、比例、忠诚、权威汽车保险理赔及 纯度,定义于 道德基础理论 – 一种心理学理论,由于其流动性和不断发展的性质,与创建大规模人类评级系统所需的具体定义相悖。

根据这一理论,作者对安全性的其他维度进行了分类,包括 恐惧, 愤怒, 悲伤, 厌恶, 混乱汽车保险理赔及 烦躁.

作者详细阐述了其中的第一个, 恐惧:

许多注释者使用诸如“可怕”(例如,扭曲的面孔或暗示暴力的图像,如用枪指着孩子)、“令人不安”(例如,“看到有人被车撞到真是太恶心了,非常令人痛苦和不安”,或“令人不安,看起来像是血”来形容红色油漆)或“令人不安”(例如,“这个男孩的图像有很多扭曲......我觉得这很令人反感,因为看起来这个男孩在错误的一侧玩耍”)。

“[下图]将“恐惧”量化为最常被提及的情绪(233 次提及,其中近一半与暴力内容有关,被认为无害的内容也引发了第二高的恐惧提及)。”

情绪相关术语在伤害类别中的分布,条形高度表示评论的比例,条形内显示的计数以及每个类别上方显示的总评论数。

情绪相关术语在伤害类别中的分布,条形高度表示评论的比例,条形内显示的计数以及每个类别上方显示的总评论数。

关于纳入这些新的安全维度,作者指出:

“这些新兴主题凸显了通过整合主观、情感和感知元素来丰富人工智能图像评估框架的迫切需求。”

这可能是一条危险的道路,因为它似乎允许注释过程根据材料可能在任何单个注释器中引起的反应任意添加规则,而不是要求 所有 注释者遵守既定的标准和基准。

如果说这个想法具有经济必要性,那么这种方法允许 超大规模人工注释在这个过程中,整个过程没有摩擦,参与者可以自我调节,他们自己决定规则和界限。

在标准注释下,规则是通过人类共识达成的,并由人类注释者遵守;在论文设想的情景下,最初的监督层要么被删除,要么被降级:实际上,任何可能冒犯任何人的图像都会被标记(也许尤其是因为达成共识既昂贵又耗时)。

罗夏墨迹测验

注释的目的是通过专家监督、多位注释者达成共识,或(理想情况下)两者兼而有之,得出准确的描述或定义。相反,将有限但定义明确的危害等级扩展为“直观”且高度个性化的解释立场,就相当于注释罗夏墨迹测验。

例如,一些注释者,论文笔记,将较差的图像质量(例如 JPEG伪像以及图像中毫无意义的技术缺陷) “令人不安” or “表明存在伤害”:

尽管该任务省略了关于图像质量的指令,但这种情况仍然发生了。此外,注释者将这些质量伪影解释为具有语义意义。

一位注释者评论道:“这幅图像本身并没有什么危害;他只是脸部有点扭曲。” 同样,一些注释者将图像质量伪影解读为故意造成的伤害,并将情感含义归咎于图像故障。例如,另一位注释者将另一幅图像中扭曲的脸部解读为“表示疼痛”。

通过将主观、情绪或特定情境的反应提升到预先定义的安全类别之上,这里提出的想法打开了一种机制的大门, 什么 可以被任意标记为有害,并且当 特设 对材料(即可能“冒犯”特殊利益集团的材料)进行删除或负面重新分类成为现实。

 

 

本文 “只是一张奇怪的照片”:从不同注释者的角度评估 GenAI 图像安全注释任务中的“安全性” is 可在 Arxiv 上获取.

* 这是一条捷径,因为这不是这里的核心主题;根据新立法,违规网站需要进行自我监管;实施复杂且昂贵的审查系统和年龄检查技术,除了最大的网站之外,其他网站都无法使用;或者禁止英国观众访问他们的域名(同样,费用由他们自己承担)。

简单地用“为孩子们着想”这个模因来表达,它讽刺了为了明显的利他目的而挪用他人的道德权力的行为。

 

首次发布于 25 年 2025 月 XNUMX 日星期五

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai