伦理

研究人员希望神经科学家能够克服数据集偏差

发布时间

2年前

2022 年 3 月 4 日

亚历克斯麦克法兰

麻省理工学院、哈佛大学和富士通有限公司的一组研究人员正在寻找机器学习模型如何克服数据集偏差。他们依靠神经科学方法来研究训练数据如何影响人工神经网络是否能够学会识别从未见过的物体。

该研究发表于 自然机器智能.

训练数据的多样性

研究结果表明，训练数据的多样性会影响神经网络是否能够克服偏差。然而，数据多样性也会对网络性能产生负面影响。研究人员还表明，神经网络的训练方式也会影响它是否能够克服有偏见的数据集。

Xavier Boix 是大脑和认知科学系 (BCS) 以及大脑、思维和机器中心 (CBMM) 的研究科学家。他也是该论文的资深作者。

“神经网络可以克服数据集偏差，这是令人鼓舞的。但这里的主要要点是我们需要考虑数据多样性。我们需要停止认为只要收集大量原始数据就能有所收获。我们首先需要非常小心地设计数据集，”Boix 说。

该团队采用了神经科学家的思维来开发新方法。 Boix 表示，在实验中使用受控数据集是很常见的，因此该团队构建了包含不同物体处于各种姿势的图像的数据集。然后他们控制组合，使一些数据集比其他数据集更加多样化。具有更多仅从一个视点显示对象的图像的数据集的多样性较低，而具有更多从多个视点显示对象的图像的数据集则更加多样化。

研究人员获取了这些数据集，并用它们来训练用于图像分类的神经网络。然后，他们研究了它从网络在训练期间没有看到的角度识别物体的能力。

他们发现，更多样化的数据集使网络能够更好地概括新图像或观点，这对于克服偏见至关重要。

“但这并不意味着数据多样性越多越好；这里存在紧张局势。当神经网络能够更好地识别它没有见过的新事物时，它就会变得更难识别它已经见过的事物，”博瓦说。