伦理
研究人员开发新工具以对抗计算机视觉中的偏见

人工智能(AI)领域最近出现的一个问题是计算机视觉中的偏见。许多专家现在正在发现AI系统中的偏见,从而导致各种应用程序(如法庭判决程序)中的结果出现偏差。
目前正在进行大量的努力来解决这些问题,最新的发展来自普林斯顿大学。该机构的研究人员创建了一个新工具,可以标记用于训练AI系统的图像中的潜在偏见。
该工作于8月24日在虚拟的欧洲计算机视觉会议上发表。
AI系统中的偏见
当前AI系统中存在偏见的主要原因之一是它们通常是使用来自在线来源的大型图像集进行训练的。这些图像可能是刻板的,当它们用于开发计算机视觉时,结果可能会受到无意的影响。计算机视觉使计算机能够识别人、物体和动作。
由研究人员开发的工具是开源的,它可以自动揭示视觉数据集中的潜在偏见。它通过在图像集被用于训练计算机视觉模型之前采取行动来工作,并且可以在它们产生影响之前解决代表性不足和刻板印象等问题。
REVISE
该新工具称为REVISE,它依赖于统计方法来识别数据集中的潜在偏见。它关注对象、性别和地理位置三个方面。
REVISE是完全自动的,它建立在之前的方法之上,包括过滤和平衡数据集图像,以便用户可以更好地控制。
该新工具依赖于现有的图像注释和测量来分析数据集中的内容。其中一些现有的注释包括对象计数和图像的国家来源。
在工具工作的一个例子中,REVISE显示了人和花的图像在性别方面存在差异。男性更可能在仪式或会议中与花一起出现,而女性更可能在绘画或布景中与花一起出现。
奥尔加·鲁萨科夫斯基(Olga Russakovsky)是计算机科学助理教授和视觉AI实验室的首席研究员。该论文的共同作者是研究生安吉丽娜·王(Angelina Wang)和计算机科学副教授阿尔文德·纳拉亚南(Arvind Narayanan)。
在工具识别出差异之后,“然后就出现了一个问题,即这是否是一个完全无害的事实,还是更深层次的问题正在发生,这很难自动化,”鲁萨科夫斯基说。
代表性不足或误导性地区
世界各地的许多地区在计算机视觉数据集中代表性不足,这可能导致AI系统中的偏见。其中一个发现是来自美国和欧洲国家的图像数量远远大于其他地区。REVISE还显示,来自世界其他地区的图像通常没有本地语言的图像字幕,这意味着许多图像可能来自游客对一个国家的看法。
“…这种地理分析表明,对象识别仍然可能存在偏见和排他性,并且可能对不同地区和人群产生不均等的影响,”鲁萨科夫斯基继续说。
“计算机科学中的数据集收集实践直到最近才受到严格审查,”王说。当谈到图像收集时,他们“从互联网上爬取,并且人们并不总是意识到他们的图像正在被用于[数据集]。我们应该从更多样化的群体中收集图像,但当我们这样做时,我们应该小心地以尊重的方式获取这些图像。”
文森特·奥尔多涅斯-罗曼(Vicente Ordonez-Roman)是弗吉尼亚大学的计算机科学助理教授。
“工具和基准是一个重要的步骤…它们使我们能够在管道中更早地捕获这些偏见,并重新思考我们的问题设置和假设以及数据收集实践,”奥尔多涅斯-罗曼说。“在计算机视觉中,存在一些特定的挑战,例如表示和刻板印象的传播。普林斯顿视觉AI实验室的工作,如这些工作,帮助阐明和引起计算机视觉社区对这些问题的注意,并提供了缓解这些问题的策略。”
研究人员开发的新工具是帮助解决AI系统中的偏见的一个重要步骤。现在是解决这些问题的最佳时机,因为随着系统的进步和变得更加复杂,解决这些问题将变得更加困难。
