Salud

Conjunto de datos COVIDx popular criticado por investigadores del Reino Unido

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

Un consorcio de investigación del Reino Unido ha cuestionado la confianza científica depositada en los conjuntos de datos de código abierto utilizados para el análisis basado en visión por computadora de radiografías de tórax de pacientes con COVID-19, centrándose en el popular conjunto de datos de código abierto COVIDx.

Los investigadores, que han probado COVIDx en varios modelos de entrenamiento de inteligencia artificial, afirman que no es ‘representativo del problema clínico real’, que los resultados obtenidos al utilizarlo son ‘inflados’ y que los modelos ‘no se generalizan bien’ a datos del mundo real.

Los autores también señalan la inconsistencia de los datos contribuidos que componen COVIDx, donde las imágenes originales provienen de una variedad de resoluciones que se reformatean automáticamente por el flujo de trabajo de aprendizaje profundo en tamaños consistentes necesarios para el entrenamiento, y observan que este proceso puede introducir artefactos engañosos relacionados con el algoritmo de redimensionamiento de imágenes, en lugar del aspecto clínico de los datos.

El artículo se titula Los peligros de usar datos abiertos para desarrollar soluciones de aprendizaje profundo para la detección de COVID-19 en radiografías de tórax, y es una colaboración entre el Centro de Imágenes y Simulación Computacional en Biomedicina (CISTIB) de la Universidad de Leeds, junto con investigadores de cinco otras organizaciones en la misma ciudad, incluyendo el Leeds Teaching Hospitals NHS Trust.

La investigación detalla, entre otras prácticas negativas, el ‘mal uso de etiquetas’ en el conjunto de datos COVIDx, así como un ‘alto riesgo de sesgo y confusión’. Los experimentos de los investigadores al someter el conjunto de datos a tres modelos de aprendizaje profundo viables les llevaron a concluir que ‘el rendimiento excepcional informado ampliamente en todo el dominio del problema es inflado, que los resultados del rendimiento del modelo se presentan de manera engañosa, y que los modelos no se generalizan bien a datos clínicamente realistas.’

Cinco conjuntos de datos contrastantes en uno

El informe* señala que la mayoría de las metodologías basadas en inteligencia artificial actuales en este campo dependen de una ‘heterogénea’ colección de datos de repositorios de código abierto dispares, observando que cinco conjuntos de datos con características notablemente diferentes se han aglomerado en el conjunto de datos COVIDx a pesar de (en consideración de los investigadores) la falta de paridad en la calidad y el tipo de datos.

El conjunto de datos COVIDx se publicó en mayo de 2020 como un esfuerzo de consorcio liderado por el Departamento de Diseño de Sistemas de la Universidad de Waterloo en Canadá, con los datos disponibles como parte de la Iniciativa de Código Abierto COVID-Net.

Los cinco conjuntos que constituyen COVIDx son: la Colección de datos de imágenes de COVID-19 (un conjunto de código abierto de investigadores de Montreal); la Iniciativa del conjunto de datos de radiografías de tórax de COVID-19 initiative; el conjunto de datos de radiografías de tórax de COVID-19 de Actualmed dataset; la Base de datos de radiografía de COVID-19 Database; y el conjunto de datos del desafío de detección de neumonía de RSNA dataset, uno de los muchos conjuntos de datos pre-COVID que se han utilizado para la crisis de la pandemia.

(RICORD – ver más abajo – se ha agregado posteriormente a COVIDx, pero como se incluyó después de los modelos de interés en el estudio, se excluyó de los datos de prueba, y en cualquier caso habría tendido a variar aún más COVIDx, que es la queja central de los autores del estudio.)

Los investigadores afirman que COVIDx es el ‘más grande y más utilizado’ conjunto de datos de su tipo dentro de la comunidad científica relacionada con la investigación de COVID, y que los datos importados a COVIDx de los conjuntos de datos externos contribuyentes no se ajustan adecuadamente al esquema tripartito del conjunto de datos COVIDx (es decir, ‘normal’, ‘neumonía’ y ‘COVID-19’).

Casi…?

Al examinar la procedencia y la idoneidad de los conjuntos de datos contribuyentes para COVIDx en el momento del estudio, los investigadores encontraron ‘mal uso’ de los datos de RSNA, donde los datos de un tipo han sido, según los investigadores, agrupados en una categoría diferente:

‘El repositorio de RSNA, que utiliza datos de radiografías de tórax públicamente disponibles de NIH Chestx-ray8 [**], fue diseñado para una tarea de segmentación y, como tal, contiene tres clases de imágenes, ‘Opacidad pulmonar’, ‘No opacidad pulmonar/No normal’, y ‘Normal’, con cuadros delimitadores disponibles para los casos de ‘Opacidad pulmonar’.

‘En su compilación en COVIDx, todas las radiografías de tórax de la clase ‘Opacidad pulmonar’ se incluyen en la clase de neumonía.’

En efecto, el artículo afirma que la metodología de COVIDx amplía la definición de ‘neumonía’ para incluir ‘todas las opacidades pulmonares similares a la neumonía’. En consecuencia, el valor de los tipos de datos comparativos es (presumiblemente) amenazado. Los investigadores afirman:

‘ […] la clase de neumonía dentro del conjunto de datos COVIDx contiene radiografías de tórax con una variedad de otras patologías, incluyendo, efusión pleural, infiltración, consolidación, enfisema y masas. La consolidación es una característica radiológica de posible neumonía, no un diagnóstico clínico. Utilizar la consolidación como sustituto de la neumonía sin documentar esto es potencialmente engañoso.’

Patologías alternativas (además de COVID-19) asociadas con COVIDx. Fuente: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

El informe encuentra que solo el 6,13% de los 4.305 casos de neumonía obtenidos de RSNA estaban etiquetados con precisión, lo que representa solo 265 casos genuinos de neumonía.

Además, muchos de los casos no neumónicos incluidos en COVIDx representaban comorbilidades – complicaciones de otras enfermedades, o problemas médicos secundarios en condiciones que no están necesariamente relacionadas con la neumonía.

No ‘Normal’

El informe también sugiere que la influencia del conjunto de datos de desafío de RSNA en COVIDx ha sesgado la estabilidad empírica de los datos. Los investigadores observan que COVIDx prioriza la clase ‘normal’ de los datos de RSNA, efectivamente excluyendo todas las clases ‘no opacidad pulmonar/no normal’ en el conjunto de datos más amplio. El artículo dice:

‘Mientras que esto está de acuerdo con lo que se espera dentro de la etiqueta ‘normal’, ampliar la clase de neumonía y utilizar solo radiografías de tórax ‘normales’, en lugar de casos negativos de neumonía, simplifica enormemente la tarea de clasificación.

‘El resultado final de esto es un conjunto de datos que refleja una tarea que está alejada del problema clínico real.’

Sesgos potenciales por estándares de datos incompatibles

El artículo identifica varios tipos de sesgo en COVIDx, observando que algunos de los datos contribuyentes mezclan imágenes de radiografías de tórax pediátricas con las de pacientes adultos, y observa que estos datos son la única ‘fuente significativa’ de imágenes pediátricas en COVIDx.

También, las imágenes del conjunto de datos de RSNA tienen una resolución de 1024×1024, mientras que otro conjunto de datos contribuyente proporciona imágenes solo con una resolución de 299×299. Dado que los modelos de aprendizaje automático inevitablemente redimensionarán las imágenes para adaptarse al espacio de entrenamiento disponible (espacio latente), esto significa que las imágenes de 299×299 se ampliarán en un flujo de trabajo de entrenamiento (potencialmente lo que lleva a artefactos relacionados con un algoritmo de escalado en lugar de patología), y las imágenes más grandes se reducirán. Nuevamente, esto mitiga en contra de los estándares de datos homogéneos necesarios para el análisis de visión por computadora basado en inteligencia artificial.

Además, los datos de ActMed incorporados en COVIDx contienen ‘marcadores en forma de disco’ en las radiografías de tórax de COVID-19, una característica recurrente que es inconsistente con el conjunto de datos más amplio, y que necesitaría ser tratada como un ‘valor atípico recurrente’.

Este es el tipo de problema que normalmente se aborda mediante la limpieza o la omisión de los datos, ya que la recurrencia de los marcadores es suficiente para registrar como una ‘característica’ en el entrenamiento, pero no lo suficientemente frecuente como para generalizar de manera útil en el esquema más amplio del conjunto de datos. Sin un mecanismo para descartar la influencia de los marcadores artificiales, podrían potencialmente ser considerados por la metodología del sistema de aprendizaje automático como fenómenos patológicos.

Entrenamiento y prueba

Los investigadores probaron COVIDx contra dos conjuntos de datos comparativos a través de tres modelos. Los dos conjuntos de datos adicionales fueron RICORD, que contiene 1096 radiografías de tórax de COVID-19 en 361 pacientes, obtenidos de cuatro países; y CheXpert, un conjunto de datos público

Los tres modelos utilizados fueron COVID-Net, CoroNet y DarkCovidNet. Los tres modelos emplean Redes Neuronales Convolucionales (CNN), aunque CoroNet consiste en un proceso de clasificación de imágenes de dos etapas, con autoencoders que pasan la salida a un clasificador de CNN.

La prueba mostró una ‘caída pronunciada’ en el rendimiento de todos los modelos en conjuntos de datos no COVIDx en comparación con la precisión del 86% resultante al utilizar los datos de COVIDx. Sin embargo, si los datos están mal etiquetados o mal agrupados, estos son efectivamente resultados falsos. Los investigadores observaron una disminución significativa en los resultados de precisión en los conjuntos de datos externos comparables, que el artículo propone como datos más realistas y correctamente clasificados.

Además, el artículo observa:

‘Una revisión clínica de 500 mapas de saliencia de grad-CAM generados por la predicción en los datos de prueba de COVIDx mostró una tendencia de importancia en características clínicamente irrelevantes. Esto incluyó comúnmente un enfoque en estructuras óseas y tejidos blandos en lugar de la opacificación bilateral difusa de los campos pulmonares que son típicos de la infección por COVID-19.’

Esta es una radiografía de un caso confirmado de COVID-19, asignada una probabilidad de predicción de solo 0,938 desde COVIDx entrenado en DarkCovidNet.

Conclusión

Los investigadores critican la falta de datos demográficos o clínicos relacionados con las imágenes de radiografías en COVIDx, argumentando que sin estos, es imposible tener en cuenta ‘factores de confusión’ como la edad.

También observan que los problemas encontrados en el conjunto de datos COVIDx pueden ser aplicables a otros conjuntos de datos que se obtuvieron de manera similar (es decir, mezclando bases de datos radiológicas pre-COVID con datos recientes de radiografías de tórax de COVID-19 sin una arquitectura de datos adecuada, compensación de varianza y alcance claro de las limitaciones de este enfoque).

Al resumir las deficiencias del conjunto de datos COVIDx, los investigadores enfatizan la inclusión sesgada de ‘claras’ radiografías pediátricas, así como su percepción del mal uso de etiquetas y el alto riesgo de sesgo y confusión en COVIDx, sosteniendo que ‘el rendimiento excepcional [de COVIDx] informado ampliamente en todo el dominio del problema es inflado, que los resultados del rendimiento del modelo se presentan de manera engañosa, y que los modelos no se generalizan bien a datos clínicamente realistas.’

El informe concluye:

‘La falta de datos hospitalarios disponibles combinada con una evaluación de modelo inadecuada en todo el dominio del problema ha permitido el uso de datos de código abierto para engañar a la comunidad de investigación. La publicación continua de métricas de rendimiento de modelo infladas riesga dañar la confiabilidad de la investigación de inteligencia artificial en diagnósticos médicos, particularmente donde la enfermedad es de gran interés público. La calidad de la investigación en este dominio debe mejorar para prevenir que esto suceda, esto debe comenzar con los datos.’

*Aunque los investigadores del estudio afirman haber hecho que los datos, archivos y código para el nuevo artículo estén disponibles en línea, el acceso requiere inicio de sesión, y en el momento de la redacción, no hay acceso público general a los archivos.
** ChestX-ray8: Base de datos de radiografías de tórax a escala hospitalaria y benchmarks sobre clasificación y localización débilmente supervisada de enfermedades torácicas comunes – https://arxiv.org/pdf/1705.02315.pdf