健康防护

经过性别偏见数据训练的人工智能模型在诊断疾病方面表现较差

发布时间

4年前

2020 年 5 月 29 日

近日，发表的一篇研究由阿根廷研究人员在《PNAS》杂志上进行的一项研究表明，在诊断疾病和其他医疗问题时，性别倾斜的训练数据的存在会导致模型性能较差。据统计新闻报道期间，研究人员团队对训练模型进行了实验，其中女性患者的代表性明显不足或完全被排除在外，结果发现该算法在诊断她们时表现要差得多。对于男性患者被排除或代表性不足的事件也是如此。

在过去的五年里，随着人工智能模型和机器学习变得越来越普遍，人们越来越关注有偏差的数据集以及由此产生的有偏差的机器学习模型的问题。机器学习中的数据偏差可能会导致尴尬的、具有社会破坏性的、排他性的人工智能应用，但当涉及到医疗应用时，生命可能会受到威胁。然而，尽管了解这个问题，但很少有研究试图量化有偏见的数据集的破坏性有多大。研究小组进行的研究发现，数据偏差可能产生比许多专家之前估计的更极端的影响。

过去几年，人工智能在医疗领域最流行的用途之一是使用人工智能模型根据医学图像诊断患者。研究小组分析了用于通过 X 射线检测肺炎、心脏肥大或疝气等各种医疗状况的模型。研究团队研究了三种开源模型架构：Inception-v3、ResNet 和 DenseNet-121。这些模型根据来自斯坦福大学和美国国立卫生研究院的两个开源数据集的胸部 X 射线进行训练。尽管数据集本身在性别代表性方面相当平衡，但研究人员通过将数据分成存在性别不平衡的子集，人为地扭曲了数据。

研究团队创建了五个不同的训练数据集，每个数据集由不同比例的男性/女性患者扫描组成。五个训练集细分如下：

所有图像均为男性患者
所有图像均为女性患者
25% 男性患者和 75% 女性患者
75% 女性患者和 25% 男性患者
男性患者各占一半，女性患者各占一半

在模型对其中一个子集进行训练后，它在男性和女性患者的扫描集合上进行了测试。在各种医疗条件下都存在一个显着的趋势，当训练数据明显存在性别偏差时，模型的准确性要差得多。值得注意的一件有趣的事情是，如果一种性别在训练数据中的代表性过高，那么该性别似乎并没有从这种过高的代表性中受益。无论模型是否根据偏向于一种性别或另一种性别的数据进行训练，与在包容性数据集上进行训练相比，它在该性别上的表现并不更好。

该研究的资深作者恩佐·费兰特 (Enzo Ferrante) Statnews 援引解释说，该研究强调了训练数据的多样性和对您打算测试模型的所有人群的代表性是多么重要。

目前还不完全清楚为什么在一种性别上训练的模型在另一种性别上训练时往往表现更差。一些差异可能是由于生理差异造成的，但各种社会和文化因素也可以解释一些差异。例如，与男性相比，女性可能倾向于在疾病进展的不同阶段接受 X 射线检查。如果这是真的，它可能会影响训练图像中发现的特征（以及模型学到的模式）。如果是这种情况，研究人员就更难消除数据集的偏差，因为偏差将通过数据收集机制融入到数据集中。

即使是密切关注数据多样性的研究人员有时也别无选择，只能使用扭曲或有偏见的数据。医疗状况诊断方式存在差异的情况通常会导致数据不平衡。例如，乳腺癌患者的数据几乎全部来自女性。同样，自闭症在女性和男性之间的表现也不同，因此，男孩的诊断率比女孩高得多。

尽管如此，对于研究人员来说，以任何可能的方式控制扭曲的数据和数据偏差是极其重要的。为此，未来的研究将帮助研究人员量化有偏见的数据的影响。