Connect with us

人工智能

计算机科学家解决人工智能中的偏见

mm

普林斯顿和斯坦福大学的计算机科学家现在正在解决人工智能(AI)中的偏见问题。他们正在研究一种方法,以便产生更公平的数据集,包含人们的图像。研究人员与ImageNet密切合作,ImageNet是一个包含超过1300万张图像的数据库。在过去的十年中,ImageNet帮助推进了计算机视觉的发展。使用他们的方法,研究人员然后建议对数据库进行改进。

ImageNet包含对象、风景和人的图像。创建图像分类机器学习算法的研究人员使用ImageNet作为数据来源。由于数据库的庞大规模,需要自动图像收集和众包图像注释。现在,ImageNet团队致力于纠正偏见和其他问题。图像中经常包含人,这是ImageNet构建的无意中产生的后果。

奥尔加·鲁萨科夫斯基(Olga Russakovsky)是论文的共同作者,也是普林斯顿大学计算机科学系的助理教授。

“计算机视觉现在工作得非常好,这意味着它正在被广泛部署在各个背景下,”他说。“这意味着现在是讨论其对世界的影响和思考这些公平性问题的时机。”

在新论文中,ImageNet团队系统地识别了非视觉概念和冒犯性类别。这些类别包括种族和性格特征,团队提议从数据库中删除它们。团队还开发了一种工具,允许用户指定和检索人群图像集,并且可以按年龄、性别表达和皮肤颜色进行检索。目标是创建更公平地对人的面部和图像活动进行分类的算法。

研究人员的工作于1月30日在西班牙巴塞罗那举行的计算机机械学会的公平、问责和透明度会议上进行了介绍。

“对于研究人员和实验室来说,需要在这些对话中参与核心技术专业知识,”鲁萨科夫斯基说。“考虑到我们需要大规模收集数据的现实,考虑到它将通过众包进行,因为这是最有效和最成熟的管道,我们如何以更公平的方式做到这一点——如何避免以前的陷阱?本文的核心信息是关于构造性的解决方案。”

ImageNet于2009年由普林斯顿和斯坦福大学的一组计算机科学家推出。它旨在成为学术研究人员和教育者的资源。系统的创建由普林斯顿校友和教员费-菲·李(Fei-Fei Li)领导。

ImageNet能够成为如此庞大的标记图像数据库,是由于使用了众包。主要使用的平台之一是亚马逊机械土耳其(MTurk),工人被支付来验证候选图像。这引起了一些问题,并且有许多偏见和不适当的分类。

首位作者杨凯宇(Kaiyu Yang)是计算机科学的研究生。

“当你要求人们通过从大量候选中选择正确的图像来验证图像时,人们会感到压力去选择一些图像,这些图像往往具有独特或刻板的特征,”他说。

研究的第一部分涉及过滤掉ImageNet中可能冒犯或敏感的人类类别。冒犯性类别被定义为包含亵渎或种族或性别侮辱的类别。一个这样的敏感类别是基于性取向或宗教对人的分类。来自不同背景的12名研究生被带来注释类别,他们被指示如果他们不确定类别,则将其标记为敏感。约54%的类别被消除,即2,932个人类类别中的1,593个。

MTurk工人随后在1到5的范围内评估了剩余类别的“图像能力”。158个类别被归类为安全和图像能力,评分为4或更高。这些过滤后的类别集包含了超过133,000张图像,这对于训练计算机视觉算法非常有用。

研究人员研究了图像中的人的 демограф特征,并评估了ImageNet中的偏见水平。搜索引擎提供的内容通常会过度代表男性、浅肤色的人和18至40岁之间的成年人。

“人们发现图像搜索结果中的人口统计分布非常偏见,这就是为什么ImageNet中的分布也是偏见的,”杨说。“在这篇论文中,我们尝试了解偏见的程度,并提出了一种方法来平衡分布。”

研究人员考虑了三个也受到美国反歧视法保护的属性:皮肤颜色、性别表达和年龄。MTurk工人然后注释了每个图像中每个人的每个属性。

结果显示,ImageNet的内容具有相当大的偏见。最不代表的是深肤色、女性和40岁以上的成年人。

设计了一个网页接口工具,允许用户以用户选择的方式获得人口统计学上平衡的图像集。

“我们不想说什么是正确的方式来平衡人口统计,因为这不是一个很直接的问题,”杨说。“分布可能会根据世界的不同部分而有所不同——例如,美国的皮肤颜色分布与亚洲国家不同。所以,我们将这个问题留给我们的用户,我们只提供一个工具来检索图像的平衡子集。”

ImageNet团队现在正在对其硬件和数据库进行技术更新。他们还正在尝试实施在这项研究中开发的过滤人员类别和重新平衡工具。ImageNet将与更新和对计算机视觉研究社区的反馈请求一起重新发布。

该论文的共同作者还包括普林斯顿博士生Klint Qinami和计算机科学助理教授Jia Deng。该研究得到了国家科学基金会的支持。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。