人工智能
CLIP基于图像合成系统的“种族分类”挑战

美国最新研究发现,DALL-E系列背后的流行计算机视觉模型,以及许多其他图像生成和分类模型,表现出明显的趋向于低估的特征——种族分类规则(也称为“一滴”规则),该规则将具有少量“混血”(即非白人)遗传血统的人完全归类为“少数民族”种族分类。由于低估曾经是人类历史上一些最丑陋的篇章的特征,因此新论文的作者建议,计算机视觉研究和实施中的这种趋势应该受到更大的关注,尤其是因为支持框架每月被下载近百万次,可能会进一步传播和宣扬种族偏见到下游框架。正在研究的架构是对比语言图像预训练(CLIP),一种多模态机器学习模型,通过在互联网上训练图像/字幕对来学习语义关联——一种半监督方法,可以减少标记的巨大成本,但可能会反映创建字幕的人的偏见。根据论文:
‘我们的结果为CLIP嵌入空间中的低估提供了证据,这种偏见对女性图像更为明显。结果进一步表明,CLIP根据图像与白人之间的偏差将图像与种族或民族标签关联起来,白人作为默认值。 ‘
该论文还发现,图像的 валент关联(即与“好”或“坏”事物相关的趋势)在“少数民族”种族标签中明显高于高加索标签,并且CLIP的偏见反映了训练框架的美国中心语料库(英语维基百科)。关于CLIP对低估的支持的影响,作者指出:
‘CLIP的首个用途之一是训练零次图像生成模型DALL-E。CLIP架构的一个更大、非公开版本被用于训练DALL-E 2。与本研究的发现一致,DALL-E 2模型卡中的风险和局限性描述注意到它“生成的图像往往过度代表白人”。 ‘
‘这种用途表明CLIP学习到的偏见可能会超出模型的嵌入空间,因为其特征被用于指导其他最先进的AI模型的语义形成。 ‘
‘此外,部分由于CLIP和类似模型在零次设置中将图像和文本关联起来的进步,多模态架构被描述为广泛使用的互联网应用程序(包括搜索引擎)的基础。 ‘
‘我们的结果表明,自然语言监督中学习的内容需要更多的关注。 ‘
该论文题为视觉语义AI中的低估证据,由华盛顿大学和哈佛大学的三位研究人员撰写。
CLIP和坏影响
虽然研究人员声称他们的工作是对CLIP的首次低估分析,但之前的工作已经证明了CLIP工作流程,在很大程度上依赖于来自互联网的未经审查的数据,低估了女性,可以产生令人反感的内容,并且可以在其图像编码器中表现出语义偏见(例如反穆斯林情绪)。最初提出CLIP的论文承认,在零次设置中,CLIP仅将58.3%的人与白人种族标签关联在一起FairFace数据集中。观察到FairFace是由亚马逊Mechanical Turk工人带有偏见标记的,新论文的作者指出,“一个相当大的少数被他人视为白人的人被CLIP关联到一个其他种族或民族标签。”他们继续指出:
‘逆命题似乎并非如此,因为FairFace数据集中被视为属于其他种族或民族标签的个体被CLIP关联到这些标签。该结果表明CLIP可能已经学习了社会科学家描述的“低估”规则:具有多种族血统的个体更有可能被视为和归类为属于少数或不利父母群体,而不是同样合法的多数或有利父母群体。 ‘
‘换句话说,一个黑人和一个白人的孩子被认为更黑而不是白;一个亚洲人和一个白人的孩子被认为更亚洲而不是白。 ‘
该论文有三个主要发现:CLIP表现出低估的特征,通过“驱赶”具有多种族身份的人到适用于他们的少数贡献种族类别;“白人是CLIP的默认种族”,并且竞争种族是通过它们与白人类别的偏差来定义的;以及偏见(与“坏”概念相关的关联)与个体被归类为种族少数的程度相关。
方法和数据
为了确定CLIP处理多种族主题的方式,研究人员使用了以前采用的形态学技术来改变图像中个人的种族。这些照片来自芝加哥面部数据库,这是为涉及种族的心理学研究而开发的数据集。

新论文的补充材料中呈现的种族变化CFD图像示例。来源:https://arxiv.org/pdf/2205.10764.pdf
研究人员仅选择了数据集中带有“中性表情”的图像,以便与之前的工作保持一致。他们使用StyleGAN2-ADA(在FFHQ上训练)来改变面部图像的种族,并创建了展示从一种种族到另一种种族的过渡过程的中间图像(见上面的示例图像)。与之前的工作一致,研究人员将自我认同为黑人、亚洲人和拉丁裔的人的面部图像变形为白人面部图像。在此过程中产生了19个中间阶段。总共使用此方法为该项目创建了21,000张1024x1024px图像。然后,研究人员为每个种族变形集中的每个图像从CLIP获得一个投影图像嵌入。之后,他们从CLIP获得每个图像的标签:“多种族”,“双种族”,“混合种族”,和“人”(最终标签省略了种族)。使用的CLIP版本是CLIP-ViT-Base-Patch32实现。作者指出,该模型在撰写研究报告的前一个月内被下载超过百万次,占Transformers库中任何CLIP模型的下载量的98%。
测试
为了测试CLIP对低估的潜在倾向,研究人员注意到CLIP为每个个体的渐变变形图像分配的种族标签。根据发现,CLIP倾向于在大约50%的过渡点将人们归类为“少数民族”类别。

在50%的混合比例下,CLIP将1000张女性变形图像中89.1%的亚洲人,75.8%的拉丁裔和69.7%的黑人关联到白人标签。
结果表明,女性受试者在CLIP下更容易表现出低估的特征,尽管作者假设这可能是因为女性图像的网络来源标签往往比男性图像更强调外貌,这可能会产生偏差的影响。CLIP在50%的种族过渡中没有表现出低估的特征,而CLIP在55%的混合比例下将67.5%的黑人标签关联到更高的余弦相似度。

多种族、双种族和混合种族标签的平均余弦相似度。结果表明CLIP在不同种族混合百分比下操作了一种“分水岭”分类,较少地将这种种族混合关联到白人(在实验的推理中为“人”),而是关联到图像中感知到的民族。
理想的目标是CLIP能够准确地将中间种族混合分类为“混合种族”,而不是定义一个“临界点”,在该点,主题经常被完全归类为非白人标签。CLIP在某种程度上确实将中间形态步骤分配给混合种族(见上图),但最终表现出中等程度的偏好,将主题归类为其贡献的少数种族。就 валент来说,作者指出CLIP的偏斜判断:
‘[平均] валент关联(与不愉快或坏的概念相关的关联)随着黑人-白人男性变形系列的混合比例而变化,使得CLIP对最类似于自我认同为黑人的CFD志愿者的面部图像关联到不愉快的编码。 ‘

валент结果——测试表明,少数群体在图像/对架构中比白人标签的主体更常与负面概念关联。作者断言,图像的不愉快关联增加了模型将图像关联到黑人标签的可能性。
该论文指出:
‘证据表明,图像的 валент与种族[关联]相关。更具体地说,我们的结果表明,图像的 валент与模型认为图像反映黑人个体的可能性相关。 ‘
然而,结果还表明亚洲面部存在负相关性。作者建议这可能是由于通过网络来源数据传递的美国文化对亚洲人的积极认知。作者指出:
‘观察到亚洲文本标签的愉快度与概率之间的相关性可能对应于“模范少数族裔”刻板印象,其中亚洲人的后代因其向上流动和融入美国文化而受到赞扬,甚至被关联到“良好行为”。 ‘
关于最终目标,即检查白人是否是CLIP的“默认身份”,结果表明嵌入了一种极性,表明在这种架构下,很难“有点白”。

21,000张创建的图像的余弦相似度。
作者指出:
‘证据表明CLIP将白人编码为默认种族。这得到了白人余弦相似度和人余弦相似度之间的更强相关性的支持,而不是其他任何种族或民族群体。 ‘
