医疗健康

流行的COVIDx数据集受到英国研究人员的批评

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

英国的一个研究联盟对用于计算机视觉分析COVID-19患者胸部X光片的开源数据集的科学信心程度提出了批评，集中在流行的开源数据集COVIDx上。

研究人员在测试了COVIDx在各种AI训练模型中的表现后，声称它“不代表真正的临床问题”，使用它获得的结果“夸大了”，并且模型“不能很好地推广到真实世界的数据”。

作者还指出，组成COVIDx的贡献数据的不一致性，其中原始图像以各种分辨率出现，深度学习工作流程会自动将其重新格式化为训练所需的一致大小，并观察到此过程可能会引入与图像缩放算法相关的欺骗性伪影，而不是数据的临床方面。

论文的标题是使用开源数据开发深度学习解决方案检测胸部X光片中的COVID-19的陷阱，这是英国利兹大学计算成像与生物医学模拟中心（CISTIB）与利兹市其他五个组织的研究人员之间的合作，包括利兹教学医院NHS信托基金。

研究详细介绍了COVIDx数据集中的“标签滥用”以及“高偏差和混杂风险”。研究人员自己对数据集进行的实验，使用三个可行的深度学习模型，导致他们得出结论：“在问题域中广泛报告的异常性能是夸大的，模型性能结果是误导性的，并且模型不能很好地推广到临床现实数据。”

五个对比数据集

报告*指出，当前领域中的大多数AI基于方法依赖于来自不同开源存储库的“异构”数据集合，观察到五个具有显著不同特征的数据集已被合并到COVIDx数据集中，尽管（在研究人员看来）数据质量和类型不够。

COVIDx数据集于2020年5月作为加拿大滑铁卢大学系统设计工程系领导的联合努力发布，数据作为COVID-Net开源计划的一部分在GitHub上提供。

组成COVIDx的五个集合是：COVID-19 图像数据集合（蒙特利尔研究人员的开源集合）；COVID-19胸部X光数据集计划；Actualmed COVID-19胸部X光数据集；COVID-19放射数据库；以及RSNA肺炎检测挑战数据集，这是许多在COVID-19疫情之前就已经存在的数据集之一。

(RICORD – 见下文 – 后来被添加到COVIDx中，但由于它是在研究中有趣的模型之后被添加的，因此它被排除在测试数据之外，而且无论如何，它都倾向于使COVIDx更加多样化，这是作者的主要抱怨。)

研究人员声称，COVIDx是与COVID研究相关的科学界中“最大的和最广泛使用”的此类数据集，并且从外部数据集导入到COVIDx中的数据不充分地符合COVIDx数据集的三元模式（即“正常”，“肺炎”和“COVID-19”）。

差不多…?

在检查COVIDx数据集的贡献数据集的来源和适用性时，研究人员发现“标签滥用”，其中一种数据被归入另一种类别：

‘RSNA存储库使用公开可用的胸部X光数据来自NIH Chestx-ray8 [**]，旨在进行分割任务，并包含三类图像，‘肺不透明度’，‘无肺不透明度/不正常’和‘正常’，并为‘肺不透明度’病例提供边界框。

‘在其编译到COVIDx中时，所有来自‘肺不透明度’类的胸部X光片都被包含在肺炎类中。’

实际上，论文声称，COVIDx方法扩大了“肺炎”的定义以包括“所有类似肺炎的肺不透明度”。因此，比较数据类型的可比性价值受到威胁。研究人员指出：

‘ […] COVIDx数据集中的肺炎类包含胸部X光片，具有许多其他病理，包括，胸腔积液，浸润，实变，肺气肿和肿瘤。实变是肺炎的放射学特征，而不是临床诊断。使用实变作为肺炎的替代品而不记录这一点可能具有误导性。’

与COVIDx相关的替代病理（除了COVID-19）。 来源：https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

报告发现，只有6.13%的4,305例肺炎病例来自RSNA，准确标记了265例真正的肺炎病例。

此外，许多COVIDx中包含的非肺炎病例代表了合并症 – 其他疾病的并发症，或其他与肺炎无关的疾病的次要医疗问题。

不“正常”

报告进一步表明，RSNA挑战数据集对COVIDx的影响使数据的经验稳定性发生了偏差。研究人员观察到，COVIDx优先考虑RSNA数据的“正常”类，有效地排除了更广泛的数据集中的所有“无肺不透明度/不正常”类。论文指出：

‘虽然这符合“正常”标签的预期，但扩大肺炎类并仅使用“正常”的胸部X光片，而不是肺炎阴性病例，大大简化了分类任务。

‘最终结果是数据集反映了一个与真正的临床问题无关的任务。’

不兼容数据标准的潜在偏差

论文指出COVIDx中存在其他类型的偏差，指出一些贡献数据混合了儿童和成人患者的胸部X光图像，并进一步观察到，这些数据是COVIDx中唯一“显著”的儿童图像来源。

此外，RSNA数据集的图像具有1024×1024的分辨率，而另一个贡献数据集仅提供299×299的分辨率。由于机器学习模型将无可避免地调整图像大小以适应可用的训练空间（潜在空间），这意味着299×299的图像将在训练工作流程中被放大（可能导致与缩放算法相关的伪影，而不是病理），而较大的图像将被缩小。同样，这抵消了AI基于计算机视觉分析所必需的同质数据标准。

此外，合并到COVIDx中的ActMed数据包含“圆盘形标记”在COVID-19胸部X光片中，这是一个在更广泛的数据集中不一致的反复出现的特征，并且需要被视为“反复出现的离群值”。

这是通常通过清理或省略数据来解决的问题，因为标记的反复出现足以在训练中注册为“特征”，但不够频繁地在数据集的更广泛的计划中有用地推广。没有一种机制来抵消人工标记的影响，它们可能被机器学习系统的方法视为病理现象。

训练和测试

研究人员在三个模型中测试了COVIDx与两个比较数据集。额外的两个数据集是RICORD，包含1096例COVID-19胸部X光片，来自四个国家的361名患者；和CheXpert，一个公共数据集

使用的三个模型是COVID-Net，CoroNet和DarkCovidNet。所有三个模型都使用卷积神经网络（CNN），尽管CoroNet由一个两阶段图像分类过程组成，自动编码器将输出传递给CNN分类器。

测试显示，所有模型在非COVIDx数据集上的性能都有“陡峭的下降”，与使用COVIDx数据时的86%准确率相比。然而，如果数据被错误标记或错误分组，这些本质上是错误的结果。研究人员在可比的外部数据集上观察到准确率结果大大降低，论文提出这些是更现实和正确分类的数据。

此外，论文指出：

‘对COVIDx测试数据的500个grad-CAM显著性图的临床审查显示出对临床上无关紧要的特征的显著趋势。这种情况通常包括对骨骼结构和软组织的关注，而不是COVID-19感染的典型特征，即肺野的弥漫性双侧浸润。’

这是一个确认的COVID-19病例的X光片，分配了0.938的预测概率，来自COVIDx训练的DarkCovidNet。

结论

研究人员批评COVIDx中缺乏与X光图像相关的人口统计或临床数据，认为没有这些数据，无法解释“混杂因素”，例如年龄。

他们还指出，发现COVIDx数据集中的问题可能适用于其他类似来源的数据集（即通过混合预COVID放射图像数据库与最近的COVID X光图像数据而没有充分的数据架构、方差补偿和这种方法的局限性清晰范围）。

总结COVIDx的缺点时，研究人员强调了“清晰”的儿童X光片的偏向性包含，以及他们对COVIDx标签滥用和高偏差和混杂风险的看法，声称“在问题域中广泛报告的异常性能 [of COVIDx] 是夸大的，模型性能结果是误导性的，并且模型不能很好地推广到临床现实数据。”

报告得出结论：

‘可用医院数据的缺乏和问题域中模型评估的不足，导致开源数据的使用误导了研究界。继续发表夸大的模型性能指标可能会损害医学诊断中AI研究的可信度，特别是在疾病具有极大公共利益的领域。该领域的研究质量必须提高，以防止这种情况的发生，这必须从数据开始。’

*尽管研究人员声称已经在线上提供了论文的数据、文件和代码，但访问需要登录，并且在撰写本文时，文件对公众不可访问。
** ChestX-ray8：医院规模的胸部X光数据库和常见胸部疾病的弱监督分类和定位基准 – https://arxiv.org/pdf/1705.02315.pdf