Anderson 视角

使用机器学习改变图像搜索结果中的性别和种族

发布于 2022年1月5日

更新于 2026年5月24日

作者

Martin Anderson

加利福尼亚大学圣地亚哥分校和Adobe Research之间的研究合作提出了一个创新且积极的解决方案，以解决图像搜索结果中传统上由白人主导的职业中缺乏种族和性别多样性的问题：使用生成对抗网络（GAN）创建非真实图像，其中改变了主体的性别和/或种族。

在这篇新论文中，研究人员输入了期望的照片特征，该照片要么在典型的图像材料库中没有代表，要么以不适当的方式表示（例如性感化或其他不恰当的表示）。来源

在一篇新论文《生成和控制图像搜索中的多样性》中，作者建议，仅靠重新排名无法完全解决图像/特征类别中的偏见问题，例如水管工、机器操作员、软件工程师等，使用合成数据来增加种族和性别多样性可能是解决这一挑战的方法。

‘追求乌托邦世界的目标是为内容用户提供展示任何职业的机会，具有多样化的种族和性别特征。某些职业、种族和性别的现有内容选择有限，这对内容提供者来说是一个挑战。目前的研究主要关注重新排名算法。

‘然而，这些方法无法创建新内容或改变照片中受保护属性的整体分布。为了解决这些问题，我们提出了一个新的任务，即基于多个属性的高保真图像生成，从不平衡的数据集中进行条件生成。 ‘

为此，作者尝试了各种基于GAN的图像合成系统，最后选择了基于StyleGan2的架构。

从论文的补充材料中，可以看到两例“均衡”图像表示的偏见职业，在本例中为“木匠”和“机器操作员”。来源

不充分或不恰当的表示

研究人员将挑战定义为一个现实世界中的搜索结果，例如在Google图像搜索中搜索“水管工”，观察到图像结果主要由年轻的白人男性主导。

从论文中，可以看到2021年1月在Google图像搜索中搜索“水管工”的部分结果。

作者指出，类似的偏见迹象出现在其他职业中，例如“行政助理”、“清洁工”和“机器操作员”，这些职业也表现出年龄、性别和种族的偏见。

‘不幸的是，由于社会偏见，一些种族和性别的组合可能在内容库中很少或没有图像。例如，当我们搜索“黑人（或非裔美国人）女性机器操作员”或“亚洲男性行政助理”时，我们在Google图像搜索中没有找到相关图像。 ‘

‘此外，在某些情况下，特定的性别和种族组合可能导致个人被不恰当地描绘。我们观察到这种行为在搜索查询中，如“亚洲女性水管工”或“黑人（或非裔美国人）女性保安”。 ‘

论文引用了2014年另一项学术合作，研究人员收集了96个职业的前400个图像搜索结果。该研究发现，女性只占结果的37%，非刻板图像仅占22%。2019年耶鲁大学的一项研究发现，五年后，这些百分比仅增加到45%和30%。

此外，2014年的研究将某些职业中个人的性感化归类为“性感木匠问题”，这种不恰当的分类可能会偏斜职业识别的结果。

大局

作者面临的主要挑战是开发一个基于GAN的图像合成系统，能够输出1024×1024分辨率的图像，因为目前GAN和编码器/解码器基于图像合成系统的状态，512×512已经是相当奢侈的了。更高的分辨率通常需要通过对最终输出进行上采样来获得，这需要更多的时间和处理资源，并且可能会损害生成图像的真实性。

然而，作者指出，较低的分辨率不太可能在图像搜索中获得关注，因此他们尝试了各种GAN框架，以输出高分辨率图像，并在可接受的真实性水平上实现这一目标。

当决定采用StyleGan2时，很明显该项目需要对生成输出的子特征（如种族、职业和性别）进行更大的控制，而默认部署并不允许这样做。因此，作者使用多类条件来增强生成过程。

指定图像生成器的架构，作者指出这并不特定于StyleGAN2，可以应用于一系列生成器框架。

为了控制种族、性别和职业等因素，架构将这些特征的单次编码注入y向量中。之后，使用前馈网络来嵌入这些特征，以便在生成时不会被忽略。

作者观察到，使用这种方式操纵StyleGAN2存在硬性限制，尝试更细粒度地修改结果会导致图像质量下降，甚至出现模式崩溃。

然而，这些解决方案并不能解决架构中的隐式偏见问题，研究人员不得不通过对数据集中代表性不足的实体进行过采样来解决这个问题，但又要避免过拟合，这会影响生成图像流的灵活性。

因此，作者改进了StyleGAN2-ADA，它使用自适应判别器增强（ADA）来防止判别器过拟合。

数据生成和评估

由于项目的目标是生成新的合成数据，研究人员采用了2014年项目的方法，选择了一些表现出高种族和性别偏见的目标职业。所选择的职业包括“高管”，“行政助理”，“护士”，“农民”，“军人”，“保安”，“卡车司机”，“清洁工”，“木匠”，“水管工”，“机器操作员”，“技术支持人员”，“软件工程师”和“作家”。

作者选择这些职业不仅是因为图像搜索结果中存在的偏见，还因为这些职业中大多数都包含某种视觉组件，这些组件与职业相关联，例如制服、特定设备或环境。

数据集由Adobe Stock库中的10,000张图像提供，通常在尝试对职业进行分类时获得95%或更高的分数。

由于许多图像对于目标任务没有帮助（例如，它们不包含人），因此需要手动过滤。之后，使用在FairFace上预训练的ResNet32分类器来标记图像的性别和种族，平均准确率分别为95.7%和81.5%。因此，研究人员获得了图像的属性标签，包括性别：男性，女性，种族：白人，黑人，亚洲人和其他种族。

使用TensorFlow构建的模型，采用StyleGAN2和StyleGAN2-ADA作为核心网络。预训练使用StyleGAN2在NVIDIA的Flickr-Faces-HQ数据集（FFHQ）上的预训练权重进行，数据集还增加了34,000张职业特定图像，作者将其收集到一个名为Uncurated Stock-Occupation HQ（U-SOHQ）的单独数据集中。