Anderson 视角
《基于“氛围”的图像注释的风险》

尽管他们只获得了几美元的报酬(或甚至没有报酬),但评估图像内容的未知人员可以通过他们的选择改变你的生活。现在,一篇来自谷歌的大型新论文似乎表明,这些注释者根据自己的规则决定什么是或不是“有害”或令人反感的内容——无论他们对任何一张图像的反应多么奇怪或个人化。有什么可能出错的地方?
观点 这周,谷歌研究和谷歌Mind之间的新合作将13位贡献者聚集在一起,共同撰写了一篇新论文,探讨了在算法中评估图像时是否应该考虑注释者的“直觉感受”,即使他们的反应与既定的评级标准不一致。
这对你来说很重要,因为评估者和注释者根据共识规则认为是令人反感的内容往往会被自动审查和管理系统所采用,并被纳入“淫秽”或“不可接受”材料的标准中,例如新NSFW防火墙*,以及社交媒体平台上的内容评估系统等环境中。
因此,越宽泛的标准,就越可能导致审查。
基于氛围的审查
这篇论文的观点不仅仅是上述内容;它还发现,评估图像的人往往更倾向于认为会冒犯其他人,而不是自己;并且低质量的图像往往会引起安全问题,尽管图像质量与图像内容无关。
在论文的结论中,作者强调了这两个发现,就好像论文的中心论点已经失败,但研究人员仍然不得不发表它。
虽然这种情况并不少见,但在仔细阅读后,论文中存在一个更险恶的潜流:注释实践可能会采用一种可以描述为基于氛围的注释的方法:
‘我们的发现表明,现有的框架需要考虑主观和语境化的维度,例如情感反应、隐含判断和文化解读。注释者的情感语言和他们与预定义的有害标签的偏差突出了当前评估实践中的缺陷。 ‘
‘扩展注释指南以包含多样化的文化和情感解读的例子,可以帮助解决这些缺陷。’

这篇论文虽然没有详细的例子,但实际核心内容更为模糊,引发了更多的问题。这里,我们可以看到每张图像下面的注释者的情感反应。来源:https://arxiv.org/pdf/2507.16033
乍一看,这似乎是一个值得称赞的追求;但论文反复强调,这并不是理想的,也不一定是可行的:
‘我们的发现表明,现有的框架需要考虑主观和语境化的维度,例如情感反应、隐含判断和文化解读。注释者的情感语言和他们与预定义的有害标签的偏差突出了当前评估实践中的缺陷。 ‘
‘扩展注释指南以包含多样化的文化和情感解读的例子,可以帮助解决这些缺陷[…]’
‘[…] 注释者的推理过程往往反映了他们的个人、文化和情感观点,这些很难被标准化或量化。’
很难看出扩展注释指南以包含多样化的文化和情感解读的例子如何融入一个理性的评级系统;作者们很难阐明这一点,或者制定一个明确的理论,反复攻击这个问题,但从未真正解决它。在这方面,这篇论文的中心论点本身似乎是由“氛围”生成的,即使它处理的是无形的心理学。
简单来说,似乎扩展注释流程以包含这种标准可能会允许注释过程根据任何单个注释者的反应任意添加规则,而不是要求所有注释者遵守既定的标准和基准。
二元判断
图像和文本可能造成的伤害确实很难量化,部分原因是高文化往往与“低”文化相交(例如艺术和小说),导致了最早的“氛围”审查标准:即使淫秽材料难以定义,你也会知道它是什么时候你看到它。
在这篇论文的广泛讨论和探索性讨论下,似乎在攻击现有的集中式、标准化的分类体系(例如“暴力”、“裸露”、“仇恨”等)的权威,这些分类体系使平台能够以可接受的错误率实施和扩大管理。
出现的论点是,只有去中心化的、主观的、语境感知的人类反馈才能适当地判断GenAI输出。
然而,这显然是不可扩展的,因为你不能用“氛围”和生活经验来运行一个万亿图像的过滤流程。必须将伤害量化为多种属性;设置过滤系统的范围限制;并等待新的指令在“边缘”情况下(就像不满的当事人有时必须等待新的法律来解决他们的特殊情况一样)。
相反,这篇论文提出了一个自动管理流程的隐含命令,该流程可以自动扩大其范围,并过度谨慎地犯错,即使是最特殊和无法复制的反应也可能惩罚一张图像,这张图像没有冒犯任何其他人。
道德扩张
尽管这篇论文更倾向于探索而不是采取坚定的立场,但它融入了科学方法的元素:作者开发了一个框架来识别(尽管不能严格衡量)注释者对图像的更广泛的反应,并检查这些反应如何在性别和其他人口统计因素中变化。
除了分析伤害焦点†之外,过程还分析了测试参与者的辅助评论中的“道德推理”,这些参与者被要求注释一个包含图像和相关文本的修改测试数据集。
这个“道德情感自动评分器”旨在捕捉关怀、平等、比例、忠诚、权威和纯洁等道德价值观,如道德基础理论中定义的那样——一种由于其流动和不断演变的性质而与创建大规模人类评级系统所需的具体定义相反的理论。
受这一理论的启发,作者还对安全的其他维度进行了分类,包括恐惧、愤怒、悲伤、厌恶、困惑和不适感。
作者对这些维度中的第一个恐惧进行了阐述:
“许多注释者使用了诸如‘令人恐惧’(例如,对于扭曲的面部或暗示暴力的图像,如一把枪指向一个孩子)、‘令人不安’(例如,‘绝对令人憎恶,看到有人被撞,非常令人不安和不安’,或‘令人不安,似乎有血迹’,用于红色油漆)或‘令人不安’(例如,‘这张男孩的图像有很多扭曲… 我觉得它令人不快,因为它看起来像是在错误的一边’)。”
“[下面的图表]量化了‘恐惧’,作为最常被提及的情感(233次提及,其中几乎一半与暴力内容有关,虽然被认为没有害处的内容也引发了第二高的恐惧提及)。”

情感相关术语在伤害类别中的分布,条形高度表示评论的比例,条形内显示计数,类别上方显示总评论计数。
关于这些新维度的纳入,作者指出:
“这些新出现的主题强调了在AI图像评估框架中整合主观、情感和感知元素的迫切需要。”
这可能是一个危险的道路,因为它似乎允许注释过程根据任何单个注释者的反应任意添加规则,而不是要求所有注释者遵守既定的标准和基准。
如果可以为这个想法赋予经济意义,那就是这种方法可以实现超大规模的人类注释,其中流程是无摩擦的,参与者是自我调节的,他们自己决定规则和界限。
在标准注释中,规则是通过人类共识达成的,并由人类注释者遵守;在论文中描述的场景中,最初的监督层要么被移除,要么被降级:有效地,任何可能冒犯任何人的图像都会被标记(也许是因为共识既昂贵又耗时)。
罗夏测试判断
注释的目的是通过专家监督、多个注释者之间的共识,或者理想情况下两者兼而有之,来获得准确的描述或定义。相反,扩展有限但明确定义的伤害层次结构到一个“直觉”和高度个人化的解释立场,相当于注释罗夏测试。
例如,论文指出,一些注释者将图像质量差(例如JPEG伪影)解释为令人不安或表明有害:
“这发生在任务中没有提供图像质量说明的情况下。另外,注释者将这些质量伪影解释为语义上有意义的。”
“一位注释者评论道,‘图像根本没有害处;他只是脸部有点扭曲。’同样,一些注释者将图像质量伪影解释为故意造成的伤害,给故障赋予了情感意义。例如,另一位注释者将一张不同图像中的扭曲面部解释为‘表明痛苦’。”
通过将主观、情感或语境特定的反应置于预定义的安全类别之上,这里提出的想法为一个可能的政权打开了大门,在那里任何东西都可以被任意标记为有害,并且对某些特殊利益集团的“寒蝉效应”可能成为现实。
论文《只是一个奇怪的图片》:从多样化的注释者的角度评估GenAI图像安全注释任务可在Arxiv上找到。
* 一个捷径,因为它不是这里的中心主题;根据新立法,冒犯性网站预计要么自我管理;要么实施复杂且昂贵的审查系统和年龄验证技术,这些技术对于除了最大的网站之外的所有网站来说都是无法承受的;或者要么阻止他们的域名被英国受众访问(同样是在他们自己的费用下)。
† 简单来说,就是“为孩子们着想”的表情包,它讽刺了为明显的利他主义目的而挪用他人的道德代理权。
首次发表于2025年7月25日












