医疗健康
基于性别偏见数据训练的AI模型在疾病诊断方面表现更差

最近,一项研究发表在PNAS期刊上,由阿根廷的研究人员进行,表明训练数据中存在性别偏见会导致模型在诊断疾病和其他医疗问题时表现更差。如Statsnews报道,研究人员团队尝试训练模型,其中女性患者明显欠代表或完全排除,他们发现算法在诊断女性患者时表现明显更差。同样,当男性患者被排除或欠代表时,情况也是如此。
过去的五年中,随着AI模型和机器学习变得更加普遍,人们越来越关注偏见数据集和由此产生的偏见机器学习模型的问题。机器学习中的数据偏见可能导致尴尬、社会破坏性和排他性的AI应用,但是在医疗应用中,生命可能岌岌可危。然而,尽管人们意识到这个问题,但很少有研究尝试量化偏见数据集的危害。研究团队进行的研究发现,数据偏见可能比许多专家以前估计的更为极端。
最近几年,AI在医疗领域最流行的应用之一是使用AI模型根据医疗图像诊断患者。研究团队分析了用于检测各种医疗状况(如肺炎、心脏病或疝气)从X光片的模型。研究团队研究了三个开源模型架构:Inception-v3、ResNet和DenseNet-121。这些模型是在从斯坦福大学和国家卫生研究院(National Institutes of Health)获得的两个开源数据集的胸部X光片上训练的。虽然这些数据集在性别代表方面相对平衡,但研究人员通过将它们分成具有性别失衡的子集来人为地偏斜数据。
研究团队创建了五个不同的训练数据集,每个数据集由不同比例的男性/女性患者扫描组成。五个训练集如下:
- 所有图像都是男性患者
- 所有图像都是女性患者
- 25%男性患者和75%女性患者
- 75%女性患者和25%男性患者
- 半数男性患者和半数女性患者
在模型训练完成后,会在来自男性和女性患者的扫描集合上进行测试。各种医疗状况中存在一个显著的趋势,即当训练数据明显性别偏斜时,模型的准确性会明显降低。一个有趣的现象是,如果训练数据中一个性别过度代表,则该性别似乎不会从过度代表中受益。无论模型是否在一个性别或另一个性别的偏斜数据上进行训练,它在一个性别上的表现都不会比在一个包容性数据集上训练时更好。
该研究的首席作者恩佐·费兰特(Enzo Ferrante)被Statnews引用,解释说该研究强调了训练数据的多样性和代表性对于所有预期测试模型的人口的重要性。
并非完全清楚为什么在一个性别上训练的模型在另一个性别上表现更差。一些差异可能是由于生理差异,但社会和文化因素也可能导致一些差异。例如,女性可能会在疾病进展的不同阶段接受X光检查,而男性则不会。如果这是真的,它可能会影响训练图像中的特征(以及模型学习的模式)。如果是这样的话,研究人员很难去除数据集中的偏见,因为偏见会通过数据收集的机制融入数据集中。
即使是那些密切关注数据多样性的研究人员,有时也无法避免使用偏斜或有偏见的数据。医疗条件诊断存在差异的情况往往会导致数据不平衡。例如,乳腺癌患者的数据几乎全部来自女性。同样,自闭症在女性和男性中表现不同,因此该病症在男孩中被诊断的比例远高于女孩。
尽管如此,研究人员仍必须以任何方式控制偏斜数据和数据偏见。为此,未来的研究将帮助研究人员量化偏见数据的影响。












