Sanità

Dataset COVIDx popolare criticato da ricercatori del Regno Unito

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

Un consorzio di ricerca del Regno Unito ha criticato l’estensione della fiducia scientifica riposta nei dataset open source utilizzati per l’analisi basata su computer vision dei raggi X del torace dei pazienti con COVID-19, concentrandosi sul popolare dataset open source COVIDx.

I ricercatori, dopo aver testato COVIDx in vari modelli di addestramento AI, affermano che non è ‘rappresentativo del reale problema clinico’, che i risultati ottenuti utilizzandolo sono ‘gonfiati’ e che i modelli ‘non generalizzano bene’ ai dati del mondo reale.

Gli autori notano anche l’incoerenza dei dati contribuiti che compongono COVIDx, dove le immagini originali provengono in una varietà di risoluzioni che vengono riformattate automaticamente dal flusso di lavoro di apprendimento profondo nelle dimensioni coerenti necessarie per l’addestramento, e osservano che questo processo può introdurre artefatti ingannevoli relativi all’algoritmo di ridimensionamento dell’immagine, piuttosto che all’aspetto clinico dei dati.

Il documento si intitola I tranelli dell’uso di dati aperti per sviluppare soluzioni di apprendimento profondo per la rilevazione del COVID-19 nei raggi X del torace, e è una collaborazione tra il Center for Computational Imaging & Simulation in Biomedicine (CISTIB) dell’Università di Leeds, insieme a ricercatori di altre cinque organizzazioni nella stessa città, tra cui il Leeds Teaching Hospitals NHS Trust.

La ricerca dettaglia, tra le altre pratiche negative, l'”uso improprio delle etichette” nel dataset COVIDx, nonché un “alto rischio di bias e confonding”. Gli esperimenti dei ricercatori nel mettere il dataset alla prova attraverso tre modelli di apprendimento profondo viable li hanno portati a concludere che ‘le prestazioni eccezionali riportate ampiamente in tutto il dominio del problema sono gonfiate, che i risultati delle prestazioni del modello sono rappresentati in modo errato e che i modelli non generalizzano bene ai dati clinicamente realistici.’

Cinque dataset contrastanti in uno

Il rapporto* nota che la maggior parte delle metodologie basate su AI in questo campo dipendono da una ‘eterogenea’ raccolta di dati da repository open source disparati, osservando che cinque dataset con caratteristiche notevolmente diverse sono stati aggregati nel dataset COVIDx nonostante (secondo i ricercatori) una parità inadeguata di qualità e tipo di dati.

Il dataset COVIDx è stato rilasciato nel maggio 2020 come sforzo congiunto guidato dal Dipartimento di Ingegneria dei Sistemi dell’Università di Waterloo in Canada, con i dati resi disponibili come parte dell’iniziativa COVID-Net Open Source.

I cinque raccolte che costituiscono COVIDx sono: la raccolta di immagini COVID-19 Image Data Collection (un set open source da ricercatori di Montreal); l’iniziativa del dataset dei raggi X del torace COVID-19 initiative; il dataset dei raggi X del torace COVID-19 Actualmed dataset; il database di radiografia COVID-19 Database; e il dataset della sfida di rilevamento della polmonite RSNA dataset, uno dei molti set pre-COVID che sono stati utilizzati per la crisi pandemica.

(RICORD – vedi sotto – è stato successivamente aggiunto a COVIDx, ma poiché è stato incluso successivamente ai modelli di interesse nello studio, è stato escluso dai dati di test e, in ogni caso, avrebbe tendenzialmente variato ulteriormente COVIDx, che è la principale critica degli autori dello studio.)

I ricercatori sostengono che COVIDx è il ‘più grande e più ampiamente utilizzato’ dataset del suo tipo all’interno della comunità scientifica legata alla ricerca sul COVID, e che i dati importati in COVIDx dai dataset esterni costituenti non si conformano adeguatamente allo schema tripartito del dataset COVIDx (ossia ‘normale’, ‘polmonite’ e ‘COVID-19’).

Quasi abbastanza..?

Nell’esaminare la provenienza e la idoneità dei dataset contribuenti per COVIDx al momento dello studio, i ricercatori hanno trovato ‘uso improprio’ dei dati RSNA, dove i dati di un tipo sono stati, secondo i ricercatori, raggruppati in una categoria diversa:

‘Il repository RSNA, che utilizza dati di raggi X del torace pubblicamente disponibili da NIH Chestx-ray8 [**], è stato progettato per un compito di segmentazione e come tale contiene tre classi di immagini, ‘Lung Opacity’, ‘No Lung Opacity/Not Normal’, e ‘Normal’, con caselle di delimitazione disponibili per i casi ‘Lung Opacity’.

‘Nella sua compilazione in COVIDx, tutti i raggi X del torace della classe ‘Lung Opacity’ sono inclusi nella classe della polmonite.’

In effetti, il documento afferma che la metodologia COVIDx estende la definizione di ‘polmonite’ per includere ‘tutte le opacità polmonari simili alla polmonite’. Di conseguenza, il valore di dati di tipo comparabile è (presumibilmente) minacciato. I ricercatori affermano:

‘ […] la classe della polmonite all’interno del dataset COVIDx contiene raggi X del torace con una varietà di altre patologie, tra cui, effusione pleurica, infiltrazione, consolidazione, enfisema e masse. La consolidazione è una caratteristica radiologica di possibile polmonite, non una diagnosi clinica. Utilizzare la consolidazione come sostituto della polmonite senza documentarlo è potenzialmente fuorviante.’

Alternative pathologies (besides COVID-19) associated with COVIDx. Source: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Il rapporto trova che solo il 6,13% dei 4.305 casi di polmonite provenienti da RSNA sono stati etichettati in modo accurato, rappresentando solo 265 casi di polmonite autentici.

Inoltre, molti dei casi non di polmonite inclusi in COVIDx rappresentavano comorbidità – complicazioni di altre malattie, o problemi medici secondari in condizioni che non sono necessariamente correlate alla polmonite.

Non ‘Normale’

Il rapporto suggerisce inoltre che l’influenza del dataset della sfida RSNA in COVIDx ha distorto la stabilità empirica dei dati. I ricercatori osservano che COVIDx dà priorità alla classe ‘normale’ dei dati RSNA, escludendo effettivamente tutte le classi ‘no lung opacity/not normal’ nel dataset più ampio. Il documento afferma:

‘Mentre ciò è in linea con ciò che ci si aspetta all’interno dell’etichetta ‘normale’, estendere la classe della polmonite e utilizzare solo raggi X del torace ‘normali’, piuttosto che casi di polmonite-negativi, semplifica notevolmente il compito di classificazione.

‘Il risultato finale di ciò è un dataset che riflette un compito che è lontano dal vero problema clinico.’

Potenziali pregiudizi derivanti da standard di dati incompatibili

Il documento individua una serie di altri tipi di pregiudizi in COVIDx, notando che alcuni dei dati contribuenti mescolano immagini di raggi X del torace pediatriche con quelle di pazienti adulti, e osserva inoltre che questi dati sono l’unica ‘significativa’ fonte di immagini pediatriche in COVIDx.

Inoltre, le immagini del dataset RSNA hanno una risoluzione di 1024×1024, mentre un altro dataset contribuente fornisce immagini solo con una risoluzione di 299×299. Poiché i modelli di apprendimento automatico ridimensioneranno inevitabilmente le immagini per adattarsi allo spazio di addestramento disponibile (spazio latente), ciò significa che le immagini da 299×299 verranno ridimensionate in un flusso di lavoro di addestramento (potenzialmente portando a artefatti relativi all’algoritmo di ridimensionamento piuttosto che alla patologia), e le immagini più grandi verranno ridotte. Ancora una volta, ciò si oppone agli standard di dati omogenei necessari per l’analisi della visione computerizzata basata su AI.

Inoltre, i dati ActMed inglobati in COVIDx contengono ‘marker a forma di disco’ nei raggi X del torace COVID-19, una caratteristica ricorrente che è incoerente con il dataset più ampio, e che avrebbe bisogno di essere gestita come ‘outlier ripetitivo’.

Ciò è il tipo di problema che viene normalmente affrontato pulendo o omettendo i dati, poiché la ricorrenza dei marker è sufficiente per registrarsi come ‘caratteristica’ nell’addestramento, ma non abbastanza frequente da generalizzare utilmente nello schema più ampio del dataset. Senza un meccanismo per scontare l’influenza dei marker artificiali, potrebbero potenzialmente essere considerati dalla metodologia del sistema di apprendimento automatico come fenomeni patologici.

Addestramento e testing

I ricercatori hanno testato COVIDx contro due dataset comparativi attraverso tre modelli. I due dataset aggiuntivi erano RICORD, che contiene 1096 raggi X del torace COVID-19 su 361 pazienti, provenienti da quattro paesi; e CheXpert, un dataset pubblico

I tre modelli utilizzati sono stati COVID-Net, CoroNet e DarkCovidNet. Tutti e tre i modelli utilizzano reti neurali convoluzionali (CNN), sebbene CoroNet consista in un processo di classificazione delle immagini a due fasi, con autoencoder che passano l’output a un classificatore CNN.

I test hanno mostrato un ‘netto calo’ in tutte le prestazioni del modello sui dataset non COVIDx rispetto all’accuratezza del 86% risultante dall’utilizzo dei dati COVIDx. Tuttavia, se i dati sono etichettati o raggruppati in modo errato, questi sono effettivamente risultati falsi. I ricercatori hanno notato risultati di accuratezza notevolmente diminuiti sui dataset esterni comparabili, che il documento propone come dati più realistici e correttamente classificati.

Inoltre, il documento osserva:

‘Una revisione clinica di 500 mappe di salienza grad-CAM generate dalla previsione sui dati di test COVIDx ha mostrato una tendenza di significato in caratteristiche clinicamente irrilevanti. Ciò includeva comunemente una focalizzazione su strutture ossee e tessuti molli invece di un’opacità bilaterale diffusa dei campi polmonari che sono tipici dell’infezione da COVID-19.’

Questo è un raggi X di un caso confermato di COVID-19, assegnato a una probabilità di previsione di 0,938 da COVIDx addestrato su DarkCovidNet.

Conclusione

I ricercatori criticano la mancanza di dati demografici o clinici relativi alle immagini dei raggi X in COVIDx, sostenendo che senza di essi, è impossibile tenere conto di ‘fattori di confonding’ come l’età.

Sostengono inoltre che i problemi riscontrati nel dataset COVIDx possono essere applicabili ad altri dataset che sono stati altrettanto fonte (ossia mescolando database radiologici pre-COVID con dati recenti di raggi X COVID senza un’adeguata architettura dei dati, compensazione della varianza e chiara definizione dei limiti di questo approccio).

Riassumendo le carenze di COVIDx, i ricercatori enfatizzano l’inclusione squilibrata di ‘chiari’ raggi X pediatrici, nonché la loro percezione dell’uso improprio delle etichette e del alto rischio di pregiudizio e confonding in COVIDx, sostenendo che ‘le prestazioni eccezionali [di COVIDx] riportate ampiamente in tutto il dominio del problema sono gonfiate, che i risultati delle prestazioni del modello sono rappresentati in modo errato e che i modelli non generalizzano bene ai dati clinicamente realistici.’

Il rapporto conclude:

‘La mancanza di dati ospedalieri disponibili combinata con una valutazione del modello inadeguata in tutto il dominio del problema ha permesso l’uso di dati open source per ingannare la comunità di ricerca. La continua pubblicazione di metriche di prestazione del modello gonfiate rischia di danneggiare l’affidabilità della ricerca sull’AI nella diagnostica medica, in particolare dove la malattia è di grande interesse pubblico. La qualità della ricerca in questo dominio deve migliorare per prevenire che ciò accada, ciò deve iniziare con i dati.’

*Sebbene i ricercatori dello studio affermino di aver reso disponibili online i dati, i file e il codice per il nuovo documento disponibile online, l’accesso richiede la registrazione e, al momento della scrittura, non è disponibile l’accesso pubblico generale ai file.
** ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases – https://arxiv.org/pdf/1705.02315.pdf