存根 研究人员希望神经科学家能够克服数据集偏差 - Unite.AI
关注我们.

伦理

研究人员希望神经科学家能够克服数据集偏差

发布时间

 on

麻省理工学院、哈佛大学和富士通有限公司的一组研究人员正在寻找机器学习模型如何克服数据集偏差。 他们依靠神经科学方法来研究训练数据如何影响人工神经网络是否能够学会识别从未见过的物体。 

该研究发表于 自然机器智能

训练数据的多样性

研究结果表明,训练数据的多样性会影响神经网络是否能够克服偏差。 然而,数据多样性也会对网络性能产生负面影响。 研究人员还表明,神经网络的训练方式也会影响它是否能够克服有偏见的数据集。 

Xavier Boix 是大脑和认知科学系 (BCS) 以及大脑、思维和机器中心 (CBMM) 的研究科学家。 他也是该论文的资深作者。 

“神经网络可以克服数据集偏差,这是令人鼓舞的。 但这里的主要要点是我们需要考虑数据多样性。 我们需要停止认为只要收集大量原始数据就能有所收获。 我们首先需要非常小心地设计数据集,”Boix 说。

该团队采用了神经科学家的思维来开发新方法。 Boix 表示,在实验中使用受控数据集是很常见的,因此该团队构建了包含不同物体处于各种姿势的图像的数据集。 然后他们控制组合,使一些数据集比其他数据集更加多样化。 具有更多仅从一个视点显示对象的图像的数据集的多样性较低,而具有更多从多个视点显示对象的图像的数据集则更加多样化。 

研究人员获取了这些数据集,并用它们来训练用于图像分类的神经网络。 然后,他们研究了它从网络在训练期间没有看到的角度识别物体的能力。 

他们发现,更多样化的数据集使网络能够更好地概括新图像或观点,这对于克服偏见至关重要。 

“但这并不意味着数据多样性越多越好; 这里存在紧张局势。 当神经网络能够更好地识别它没有见过的新事物时,它就会变得更难识别它已经见过的事物,”博瓦说。

训练神经网络的方法

该团队还发现,与同时针对两项任务进行训练的模型相比,针对每项任务单独训练的模型能够更好地克服偏差。 

“结果确实令人震惊。 事实上,我们第一次做这个实验时,我们认为这是一个错误。 我们花了几周时间才意识到这是一个真正的结果,因为它太出乎意料了,”博瓦继续说道。

更深入的分析表明,神经元特化参与了这一过程。 当神经网络被训练来识别图像中的物体时,会出现两种类型的神经元。 一个神经元专门识别物体类别,而另一个神经元专门识别视点。 

当网络被训练来单独执行任务时,专门的神经元变得更加突出。 然而,当训练网络同时完成这两项任务时,一些神经元就会被稀释。 这意味着他们不专注于一项任务,而且更有可能感到困惑。 

“但现在的下一个问题是,这些神经元是如何到达那里的? 你训练神经网络,它们就会从学习过程中产生。 没有人告诉网络在其架构中包含这些类型的神经元。 这就是令人着迷的事情,”博瓦说。

研究人员将在未来的工作中探索这个问题,并将新方法应用于更复杂的任务。 

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。