存根 英国研究人员批评流行的 COVIDx 数据集 - Unite.AI
关注我们.

健康防护

英国研究人员批评流行的 COVIDx 数据集

mm

发布时间

 on

来自英国的一个研究联盟对用于基于计算机视觉分析 COVID-19 患者胸部 X 光片的开源数据集的科学信心程度提出了批评,主要集中在流行的开源数据集 COVIDx 上。

研究人员在各种人工智能训练模型中测试了 COVIDx,声称它“不能代表真正的临床问题”,使用它获得的结果是“夸大的”,并且这些模型“不能很好地推广”到真实的情况。世界数据。

作者还注意到构成 COVIDx 的贡献数据的不一致,其中原始图像具有多种分辨率,这些分辨率由深度学习工作流程自动重新格式化为训练所需的一致大小,并观察到此过程可能会引入欺骗性伪影与图像调整大小算法相关,而不是数据的临床方面。

叫做 使用开放数据开发用于胸部 X 光检查中的 COVID-19 检测的深度学习解决方案的陷阱,是利兹大学生物医学计算成像与模拟中心 (CISTIB) 与利兹教学医院 NHS 信托基金等同一城市其他五个组织的研究人员合作的成果。

除其他负面做法外,该研究还详细说明了 COVIDx 数据集中的“标签滥用”,以及“偏见和混杂的高风险”。 研究人员自己在三个可行的深度学习模型中测试数据集的实验促使他们得出这样的结论: “整个问题领域广泛报道的卓越性能被夸大了,模型性能结果被歪曲,并且模型不能很好地推广到临床现实数据。”

五个对比数据集合二为一

该报告*指出,该领域当前大多数基于人工智能的方法都依赖于来自不同开源存储库的“异构”数据分类,观察到五个具有显着不同特征的数据集已聚合到 COVIDx 数据集中,尽管(在研究人员的考虑)数据质量和类型不充分。

COVIDx 数据集是 发布 2020 年 XNUMX 月,由加拿大滑铁卢大学系统设计工程系领导的一个联盟的努力,数据 提供 作为 COVID-Net 开源计划的一部分。

构成 COVIDx 的五个集合是: COVID-19 图像数据收集 (一个 开源 由蒙特利尔研究人员设置); COVID-19 胸部 X 射线数据集 倡议; Actualmed COVID-19 胸部 X 光检查 数据集; COVID-19 放射线照相 数据库; 以及 RSNA 肺炎检测挑战赛 数据集是为应对大流行危机而投入使用的众多新冠疫情前的设备之一。

(RICORD – 见下文 – 此后已被添加到 COVIDx 中,但由于它被包含在研究中感兴趣的模型之后,因此被排除在测试数据之外,并且无论如何都会使 COVIDx 变得更加多样化,这是该研究作者的主要抱怨。)

研究人员认为,新冠病毒是 “规模最大、使用最广泛” 科学界中与 COVID 研究相关的同类数据集,并且从组成的外部数据集导入到 COVIDx 的数据不充分符合 COVIDx 数据集的三方模式(即“正常”、“肺炎”和“ 19冠状病毒病')。

足够近了吗..?

研究人员在研究期间检查了新冠病毒贡献数据集的来源和适用性时,发现了 RSNA 数据的“滥用”,研究人员声称,其中一种类型的数据被归入不同的类别:

“RSNA 存储库,使用来自 NIH Chestx-ray8 的公开胸部 X 射线数据 [**],专为分割任务而设计,因此包含三类图像:“肺部混浊”、“无肺部混浊/不正常”和“正常”,并且边界框可用于“肺部混浊”情况。

“在将‘肺部不透明’类别中的所有胸部 X 光片纳入 COVIDx 中,都包含在肺炎类别中。”

该论文声称,新冠肺炎方法实际上扩展了“肺炎”的定义,包括“所有类似肺炎的肺部混浊”。 因此,比较数据类型的同类价值(大概)受到威胁。 研究人员指出:

' [...] COVIDx 数据集中的肺炎类别包含胸部 X 光检查以及各种其他病理,包括胸腔积液、浸润、实变、肺气肿和肿块。 实变是可能肺炎的放射学特征,而不是临床诊断。 在没有记录的情况下使用巩固作为肺炎的替代品可能会产生误导。

与新冠肺炎 (COVIDx) 相关的替代病症(除新冠肺炎 (COVID-19) 外)。

与新冠肺炎 (COVIDx) 相关的替代病症(除新冠肺炎 (COVID-19) 外)。 资料来源:https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

报告发现,RSNA 提供的 6.13 例肺炎病例中,只有 4,305% 被准确标记,相当于只有 265 例真正的肺炎病例。

此外,新冠病毒中包含的许多非肺炎病例代表了合并症——其他疾病的并发症,或与肺炎不一定相关的情况下的其他继发性医疗问题。

不正常'

该报告进一步表明,RSNA 挑战数据集对 COVIDx 的影响已经扭曲了数据的经验稳定性。 研究人员观察到,COVIDx 优先考虑 RSNA 数据的“正常”类别,有效地排除了更广泛数据集中的所有“无肺混浊/不正常”类别。 论文称:

“虽然这符合‘正常’标签中的预期,但扩大肺炎类别并仅使用‘正常’胸部 X 光检查,而不是肺炎阴性病例,大大简化了分类任务。”

“最终结果是反映从真实临床问题中删除的任务的数据集。”

不兼容的数据标准带来的潜在偏差

该论文发现了新冠病毒中的许多其他类型的偏差,指出一些贡献数据将儿科胸部 X 射线图像与成人患者的 X 射线图像混合在一起,并进一步观察到该数据是唯一“重要”来源COVIDx 中的儿科图像。

此外,RSNA 数据集的图像具有 1024×1024 分辨率,而另一个贡献数据集仅提供 299×299 分辨率的图像。由于机器学习模型总是会调整图像大小以适应可用的训练空间(潜在空间),这意味着 299×299 图像将在训练工作流程中放大(可能导致与缩放算法而不是病理学相关的伪像),并且较大的图像缩小了。同样,这削弱了基于人工智能的计算机视觉分析所需的同质数据标准。

此外,摄取到 COVIDx 中的 ActMed 数据包含 COVID-19 胸部 X 光片中的“盘状标记”,这是一种与更广泛的数据集不一致的重复特征,需要作为“重复异常值”进行处理。

这种问题通常通过清理或省略数据来解决,因为标记的重复出现足以在训练中注册为“特征”,但频率不够高,无法在更广泛的数据集方案中进行有用的概括。 如果没有一种机制来抵消人工标记的影响,它们可能会被机器学习系统的方法论视为病理现象。

培训和测试

研究人员针对三个模型的两个比较数据集测试了 COVIDx。 额外的两个数据集是 理科德,其中包含来自 1096 个国家的 19 名患者的 361 张 COVID-XNUMX 胸部 X 光片; 和 化学专家,一个公共数据集

使用的三个模型是 COVID-Net、 暗网。 所有三个模型均采用卷积神经网络 (CNN),尽管 CoroNet 包含两阶段图像分类过程,并且自动编码器将输出传递给 CNN 分类器。

测试显示,与使用 COVIDx 数据时的 86% 准确率相比,非 COVIDx 数据集上的所有模型性能均“急剧下降”。 然而,如果数据被错误标记或错误分组,这些结果实际上是错误的。 研究人员指出,可比较的外部数据集的准确性结果大大降低,论文提出这些数据集是更现实且正确分类的数据。

此外,该论文还指出:

对通过预测 COVIDx 测试数据生成的 500 个 grad-CAM 显着性图进行的临床审查显示,临床不相关特征存在显着性趋势。 这通常包括关注骨结构和软组织,而不是典型的 COVID-19 感染的双侧肺野弥漫性混浊。

这是确诊的 COVID-19 病例的 X 光片,在 DarkCovidNet 上训练的 COVIDx 的预测概率仅为 0.938。 资料来源:https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

这是确诊的 COVID-19 病例的 X 光片,在 DarkCovidNet 上训练的 COVIDx 的预测概率仅为 0.938。

结论

研究人员批评缺乏与新冠肺炎 X 射线图像相关的人口统计或临床数据,认为没有这些数据,就不可能解释年龄等“混杂因素”。

他们还观察到,在 COVIDx 数据集中发现的问题可能适用于具有类似来源的其他数据集(即,通过将新冠病毒之前的放射图像数据库与最近的新冠病毒 X 射线图像数据混合在一起,而没有足够的数据架构、方差补偿和明确的范围)这种方法的局限性)。

在总结新冠病毒的不足时,研究人员强调了“清晰”儿科 X 射线的不平衡纳入,以及他们对标签滥用以及新冠病毒中存在高偏倚和混杂风险的看法,认为“卓越的表现 [新冠肺炎] 在问题领域广泛报道的内容被夸大了,模型性能结果被歪曲,并且模型不能很好地推广到临床现实数据。

报告的结论是:

“由于缺乏可用的医院数据,加上整个问题领域的模型评估不充分,使得开源数据的使用误导了研究界。 继续发布夸大的模型性能指标可能会损害人工智能研究在医疗诊断领域的可信度,特别是在该疾病引起公众极大兴趣的情况下。 必须提高该领域的研究质量以防止这种情况发生,这必须从数据开始。

 

 

*尽管该研究的研究人员声称已经为新论文制作了数据、文件和代码 可在线,访问需要登录,并且在撰写本文时,还没有对这些文件的一般公共访问。
** ChestX-ray8:医院规模的胸部 X 光数据库和常见胸部疾病弱监督分类和定位的基准 –
https://arxiv.org/pdf/1705.02315.pdf