Settore Sanitario

Popolare set di dati COVIDx criticato dai ricercatori del Regno Unito

Pubblicato il 22 settembre 2021

Martin Anderson

Un consorzio di ricerca del Regno Unito ha criticato la portata della fiducia scientifica riposta nei set di dati open source utilizzati per l'analisi basata sulla visione artificiale delle radiografie del torace dei pazienti affetti da COVID-19, incentrandosi sul popolare set di dati open source COVIDx.

I ricercatori, dopo aver testato COVIDx in vari modelli di addestramento dell'intelligenza artificiale, sostengono che "non è rappresentativo del reale problema clinico", che i risultati ottenuti utilizzandolo sono "gonfiati" e che i modelli "non si generalizzano bene" ai dati del mondo reale.

Gli autori notano anche l'incoerenza dei dati forniti che costituiscono COVIDx, in cui le immagini originali sono disponibili in una varietà di risoluzioni che vengono automaticamente riformattate dal flusso di lavoro di deep learning nelle dimensioni coerenti necessarie per l'addestramento e osservano che questo processo può introdurre artefatti ingannevoli relativi all'algoritmo di ridimensionamento delle immagini, piuttosto che all'aspetto clinico dei dati.

. carta è chiamato Le insidie dell'utilizzo di dati aperti per sviluppare soluzioni di deep learning per il rilevamento di COVID-19 nelle radiografie del torace, ed è una collaborazione tra il Center for Computational Imaging & Simulation in Biomedicine (CISTIB) dell'Università di Leeds, insieme a ricercatori di altre cinque organizzazioni della stessa città, tra cui il Leeds Teaching Hospitals NHS Trust.

La ricerca descrive in dettaglio, tra le altre pratiche negative, l'"uso improprio di etichette" nel dataset COVIDx, nonché un "elevato rischio di bias e confondimento". Gli esperimenti condotti dai ricercatori stessi, che hanno messo alla prova il dataset attraverso tre validi modelli di deep learning, li hanno portati a concludere che "le prestazioni eccezionali ampiamente riportate nell'intero dominio del problema sono gonfiate, i risultati delle prestazioni del modello sono travisati e i modelli non si generalizzano bene ai dati clinicamente realistici".

Cinque set di dati contrastanti in uno

Il rapporto* rileva che la maggior parte delle attuali metodologie basate sull'intelligenza artificiale in questo campo dipendono da un assortimento "eterogeneo" di dati provenienti da diversi repository open source, osservando che cinque set di dati con caratteristiche notevolmente diverse sono stati agglomerati nel set di dati COVIDx nonostante (secondo i ricercatori) un'inadeguata parità di qualità e tipologia dei dati.

Il set di dati COVIDx era rilasciato nel maggio 2020 come sforzo del consorzio guidato dal Dipartimento di ingegneria della progettazione dei sistemi presso l'Università di Waterloo in Canada, con i dati reso disponibili come parte dell'iniziativa COVID-Net Open Source.

Le cinque collezioni che costituiscono COVIDx sono: il COVID-19 Raccolta dati immagine (un open source set dai ricercatori di Montreal); il set di dati sui raggi X del torace COVID-19 iniziativa; la radiografia del torace Actualmed COVID-19 dataset; la radiografia COVID-19 Banca Dati; e l'RSNA Polmonite Detection Challenge dataset, uno dei tanti set pre-COVID che sono stati messi in servizio per la crisi pandemica.

(RICORD – vedi sotto – è stato poi aggiunto a COVIDx, ma poiché è stato incluso successivamente ai modelli di interesse nello studio, è stato escluso dai dati del test, e in ogni caso avrà avuto la tendenza a variegare ulteriormente COVIDx, il che è la denuncia centrale degli autori dello studio.)

I ricercatori sostengono che COVIDx è il 'il più grande e il più ampiamente utilizzato' un set di dati del suo genere all'interno della comunità scientifica correlato alla ricerca sul COVID, e che i dati importati in COVIDx dai set di dati esterni costituenti non sono adeguatamente conformi allo schema tripartito del set di dati COVIDx (ovvero, "normale", "polmonite" e "COVID-19").

Abbastanza vicino..?

Esaminando la provenienza e l'idoneità dei set di dati relativi al COVIDx al momento dello studio, i ricercatori hanno riscontrato un "uso improprio" dei dati RSNA, in cui i dati di un tipo sono stati, secondo i ricercatori, raggruppati in una categoria diversa:

'Il repository RSNA, che utilizza i dati radiografici del torace pubblicamente disponibili da NIH Chestx-ray8 [**], è stato progettato per un'attività di segmentazione e come tale contiene tre classi di immagini, "Lung Opacity", "No Lung Opacity/Not Normal" e "Normal", con i riquadri di delimitazione disponibili per i casi di "Lung Opacity".

'Nella sua compilazione in COVIDx, tutte le radiografie del torace della classe 'Opacità polmonare' sono incluse nella classe polmonite.'

In effetti, sostiene l'articolo, la metodologia COVIDx amplia la definizione di "polmonite" per includere "tutte le opacità polmonari simili alla polmonite". Di conseguenza, il valore comparativo dei tipi di dati è (presumibilmente) minacciato. I ricercatori affermano:

'[…] la classe di polmonite nel dataset COVIDx contiene radiografie del torace con un assortimento di molte altre patologie, tra cui versamento pleurico, infiltrazione, consolidamento, enfisema e masse. Il consolidamento è una caratteristica radiologica di una possibile polmonite, non una diagnosi clinica. Utilizzare il consolidamento come sostituto della polmonite senza documentarlo è potenzialmente fuorviante.'

Patologie alternative (oltre a COVID-19) associate a COVIDx. Fonte: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Il rapporto rileva che solo il 6.13% dei 4,305 casi di polmonite provenienti da RSNA sono stati accuratamente etichettati, rappresentando solo 265 casi di polmonite autentici.

Inoltre, molti dei casi non di polmonite inclusi in COVIDx rappresentavano comorbilità - complicanze di altre malattie o problemi medici secondari in condizioni che non sono necessariamente correlate alla polmonite.

Non 'normale'

Il rapporto suggerisce inoltre che l'influenza del set di dati RSNA in COVIDx ha alterato la stabilità empirica dei dati. I ricercatori osservano che COVIDx dà priorità alla classe "normale" dei dati RSNA, escludendo di fatto tutte le classi "nessuna opacità polmonare/non normale" nel set di dati più ampio. Il documento afferma:

"Anche se questo è in linea con ciò che ci si aspetta dall'etichetta 'normale', l'ampliamento della classe di polmonite e l'utilizzo solo di radiografie del torace 'normali', piuttosto che di casi negativi per la polmonite, semplifica notevolmente il compito di classificazione".

"Il risultato finale è un set di dati che riflette un compito che si discosta dal vero problema clinico."

Potenziali pregiudizi dovuti a standard di dati incompatibili

L'articolo individua una serie di altri tipi di bias nel COVIDx, osservando che alcuni dei dati che contribuiscono mescolano immagini radiografiche del torace pediatrico con le radiografie di pazienti adulti e osserva inoltre che questi dati sono l'unica fonte "significativa" di immagini pediatriche nel COVIDx.

Inoltre, le immagini del set di dati RSNA hanno una risoluzione di 1024×1024, mentre un altro set di dati fornisce immagini solo con una risoluzione di 299×299. Poiché i modelli di machine learning ridimensioneranno invariabilmente le immagini per adattarsi allo spazio di training disponibile (spazio latente), ciò significa che le immagini 299×299 verranno ingrandite in un flusso di lavoro di training (portando potenzialmente ad artefatti legati a un algoritmo di ridimensionamento piuttosto che a patologie) e le immagini più grandi vengono ridimensionate. Ancora una volta, ciò mitiga gli standard di dati omogenei necessari per l’analisi della visione artificiale basata sull’intelligenza artificiale.

Inoltre, i dati ActMed inseriti in COVIDx contengono "marcatori a forma di disco" nelle radiografie del torace COVID-19, una caratteristica ricorrente che non è coerente con il set di dati più ampio e che dovrebbe essere gestita come un "valore anomalo ripetitivo".

Questo è il tipo di problema che di solito viene affrontato pulendo o omettendo i dati, poiché la ricorrenza dei marcatori è sufficiente per essere registrata come una "caratteristica" nell'addestramento, ma non abbastanza frequente da generalizzare utilmente nello schema più ampio del dataset. Senza un meccanismo per svalutare l'influenza dei marcatori artificiali, questi potrebbero potenzialmente essere considerati dalla metodologia del sistema di apprendimento automatico come fenomeni patologici.

Formazione e test

I ricercatori hanno testato COVIDx su due set di dati comparativi su tre modelli. I due set di dati extra erano RICORD, che contiene 1096 radiografie del torace COVID-19 su 361 pazienti, provenienti da quattro paesi; e CheXpert, un set di dati pubblico

I tre modelli utilizzati sono stati COVID-Net, Coronet e ScuroCovidNet. Tutti e tre i modelli utilizzano reti neurali convoluzionali (CNN), sebbene CoroNet sia costituito da un processo di classificazione delle immagini in due fasi, con codificatori automatici che trasmettono l'output a un classificatore CNN.

I test hanno mostrato un "forte calo" nelle prestazioni di tutti i modelli su set di dati non COVIDx rispetto all'accuratezza dell'86% ottenuta utilizzando dati COVIDx. Tuttavia, se i dati sono etichettati o raggruppati in modo errato, si tratta di risultati di fatto falsi. I ricercatori hanno notato risultati di accuratezza notevolmente ridotti sui set di dati esterni comparabili, che il documento propone come dati più realistici e correttamente classificati.

Inoltre, il documento osserva:

"Una revisione clinica di 500 mappe di salienza grad-CAM generate tramite previsione sui dati dei test COVIDx ha mostrato una tendenza alla significatività in caratteristiche clinicamente irrilevanti. Questo includeva comunemente un'attenzione alle strutture ossee e ai tessuti molli, anziché un'opacizzazione bilaterale diffusa dei campi polmonari tipica dell'infezione da COVID-19."

Questa è una radiografia di un caso confermato di COVID-19, a cui è stata assegnata una probabilità di previsione di appena 0.938 da COVIDx addestrato su DarkCovidNet.

Conclusioni

I ricercatori criticano la mancanza di dati demografici o clinici relativi alle immagini radiografiche del COVIDx, sostenendo che senza di essi è impossibile tenere conto di "fattori confondenti" come l'età.

Osservano inoltre che i problemi riscontrati nel set di dati COVIDx possono essere applicabili ad altri set di dati che sono stati ottenuti in modo simile (ad esempio mescolando database di immagini radiologiche pre-COVID con dati recenti di immagini a raggi X COVID senza un'adeguata architettura dei dati, compensazione della varianza e ambito chiaro dei limiti di questo approccio).

Nel riassumere le carenze di COVIDx, i ricercatori sottolineano l'inclusione sbilanciata di radiografie pediatriche "chiare", nonché la loro percezione dell'uso improprio delle etichette e dell'elevato rischio di bias e confusione in COVIDx, sostenendo che "le prestazioni eccezionali [di COVIDx] ampiamente riportato nell'ambito del problema è gonfiato, i risultati delle prestazioni del modello sono travisati e i modelli non si generalizzano bene ai dati clinicamente realistici.

Il rapporto conclude:

"La mancanza di dati ospedalieri disponibili, combinata con una valutazione inadeguata dei modelli nell'intero dominio del problema, ha permesso l'uso di dati open source per fuorviare la comunità di ricerca. La continua pubblicazione di parametri di performance dei modelli gonfiati rischia di danneggiare l'affidabilità della ricerca sull'intelligenza artificiale nella diagnostica medica, in particolare quando la malattia è di grande interesse pubblico. La qualità della ricerca in questo ambito deve migliorare per evitare che ciò accada, e questo deve iniziare dai dati".

*Sebbene i ricercatori dello studio affermino di aver creato i dati, i file e il codice per il nuovo documento disponibile online, l'accesso richiede il login e, al momento in cui scriviamo, non è disponibile alcun accesso pubblico generale ai file.
** ChestX-ray8: database radiografico del torace su scala ospedaliera e benchmark sulla classificazione e localizzazione con supervisione debole delle malattie comuni del torace – https://arxiv.org/pdf/1705.02315.pdf