stub Populært COVIDx-datasett kritisert av britiske forskere - Unite.AI
Kontakt med oss

Helsevesen

Populært COVIDx-datasett kritisert av britiske forskere

mm

Publisert

 on

Et forskningskonsortium fra Storbritannia har rettet kritikk mot omfanget av vitenskapelig tillit til åpen kildekode-datasett som brukes til datasynsbasert analyse av COVID-19-pasienters røntgenbilder av thorax, med fokus på det populære åpen kildekodedatasettet COVIDx.

Forskerne, etter å ha testet COVIDx i ulike AI-treningsmodeller, hevder at det 'ikke er representativt for det virkelige kliniske problemet', at resultatene oppnådd ved å bruke det er 'oppblåst', og at modellene 'ikke generaliserer godt' til reell verdensdata.

Forfatterne merker seg også inkonsekvensen i de bidratte dataene som utgjør COVIDx, der originalbilder kommer i en rekke oppløsninger som automatisk omformateres av arbeidsflyten for dyp læring til de konsekvente størrelsene som er nødvendige for trening, og observerer at denne prosessen kan introdusere villedende artefakter knyttet til algoritmen for endring av bildestørrelse, snarere enn det kliniske aspektet av dataene.

De papir er kalt Fallgruvene ved å bruke åpne data for å utvikle dyplæringsløsninger for COVID-19-deteksjon i røntgenstråler, og er et samarbeid mellom Center for Computational Imaging & Simulation in Biomedicine (CISTIB) ved University of Leeds, sammen med forskere fra fem andre organisasjoner i samme by, inkludert Leeds Teaching Hospitals NHS Trust.

Forskningen beskriver, blant annet negativ praksis, "misbruk av etiketter" i COVIDx-datasettet, samt en "høy risiko for skjevhet og forvirring". Forskernes egne eksperimenter med å sette datasettet gjennom dets tempo på tvers av tre levedyktige dyplæringsmodeller fikk dem til å konkludere med at "den eksepsjonelle ytelsen som er rapportert bredt på tvers av problemdomenet er oppblåst, at modellens ytelsesresultater er feilrepresentert, og at modellene ikke generaliserer godt til klinisk realistiske data."

Fem kontrasterende datasett i ett

Rapporten* bemerker at flertallet av nåværende AI-baserte metoder på dette feltet er avhengige av et "heterogent" utvalg av data fra forskjellige åpen kildekodedepoter, og observerer at fem datasett med spesielt forskjellige egenskaper har blitt agglomerert i COVIDx-datasettet til tross for (i forskernes vurdering) utilstrekkelig paritet mellom datakvalitet og type.

COVIDx-datasettet var utgitt i mai 2020 som en konsortiuminnsats ledet av Institutt for systemdesignteknikk ved University of Waterloo i Canada, med dataene gjort tilgjengelig som en del av COVID-Net Open Source Initiative.

De fem samlingene som utgjør COVIDx er: COVID-19 Innsamling av bildedata (en åpen kilde sett fra Montreal-forskere); COVID-19 røntgendatasett for thorax initiativ; den faktiske COVID-19 røntgen av brystet datasett; covid-19 radiografi Database; og RSNA Pneumonia Detection Challenge datasett, et av de mange pre-COVID-settene som har blitt satt i bruk for pandemiskrisen.

(RICORD – se nedenfor – har siden blitt lagt til COVIDx, men fordi det ble inkludert etter modellene av interesse i studien, ble det ekskludert fra testdataene, og vil i alle fall ha hatt en tendens til å variere COVIDx ytterligere, noe som er den sentrale klagen fra forfatterne av studien.)

Forskerne hevder at COVIDx er "størst og mest brukt" datasett av sitt slag innenfor det vitenskapelige miljøet knyttet til COVID-forskning, og at data importert til COVIDx fra de eksterne datasettene ikke samsvarer tilstrekkelig med trepartsskjemaet til COVIDx-datasettet (dvs. 'normal', 'lungebetennelse' og ' COVID-19').

Nær nok..?

Ved å undersøke opprinnelsen og egnetheten til de medvirkende datasettene for COVIDx på tidspunktet for studien, fant forskerne "misbruk" av RSNA-dataene, der data av én type, hevder forskerne, er blitt ført inn i en annen kategori:

'RSNA-depotet, som bruker offentlig tilgjengelige røntgendata fra NIH Chestx-ray8 [**], ble designet for en segmenteringsoppgave og inneholder som sådan tre klasser av bilder, 'Lung Opacity', 'No Lung Opacity/Not Normal' og 'Normal', med avgrensningsbokser tilgjengelig for 'Lung Opacity' tilfeller.

"I samlingen til COVIDx er alle røntgenstråler fra thorax fra klassen 'Lung Opacity' inkludert i lungebetennelsesklassen."

I praksis, hevder papiret, utvider COVIDx-metodikken definisjonen av "lungebetennelse" til å inkludere "alle lungebetennelseslignende lungeopaciteter". Følgelig er like-for-like-verdien av komparative datatyper (antagelig) truet. Forskerne sier:

' […] lungebetennelsesklassen i COVIDx-datasettet inneholder røntgenstråler fra thorax med et utvalg av mange andre patologier, inkludert pleural effusjon, infiltrasjon, konsolidering, emfysem og masser. Konsolidering er et radiologisk trekk ved mulig lungebetennelse, ikke en klinisk diagnose. Å bruke konsolidering som erstatning for lungebetennelse uten å dokumentere dette er potensielt misvisende.'

Alternative patologier (foruten COVID-19) assosiert med COVIDx.

Alternative patologier (foruten COVID-19) assosiert med COVIDx. Kilde: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Rapporten finner at bare 6.13 % av de 4,305 265 tilfellene av lungebetennelse hentet fra RSNA var nøyaktig merket, noe som representerer bare XNUMX ekte lungebetennelsestilfeller.

Videre representerte mange av tilfellene av ikke-lungebetennelse inkludert i COVIDx komorbiditeter – komplikasjoner av andre sykdommer, eller andre sekundære medisinske problemer under tilstander som ikke nødvendigvis er relatert til lungebetennelse.

Ikke normal'

Rapporten antyder videre at påvirkningen av RSNA-utfordringsdatasettet i COVIDx har skjevt den empiriske stabiliteten til dataene. Forskerne observerer at COVIDx prioriterer den "normale" klassen av RSNA-dataene, og ekskluderer effektivt alle "ingen lungetekkhet/ikke normal" klasser i det bredere datasettet. Avisen sier:

"Selv om dette er i tråd med det som forventes innenfor den 'normale' etiketten, forenkler klassifiseringsoppgaven ved å utvide lungebetennelsesklassen og bruke bare 'normale' røntgenstråler av thorax i stedet for lungebetennelsesnegative tilfeller.

'Sluttresultatet av dette er datasett som gjenspeiler en oppgave som er fjernet fra det sanne kliniske problemet.'

Potensielle skjevheter fra inkompatible datastandarder

Artikkelen ser en rekke andre typer skjevheter i COVIDx, og bemerker at noen av de medvirkende dataene blander pediatriske røntgenbilder fra thorax med røntgenbilder av voksne pasienter, og observerer videre at disse dataene er den eneste "betydelige" kilden til pediatriske bilder i COVIDx.

Bilder fra RSNA-datasettet har også en oppløsning på 1024×1024, mens et annet medvirkende datasett gir bilder kun en oppløsning på 299×299. Siden maskinlæringsmodeller alltid vil endre størrelsen på bilder for å imøtekomme den tilgjengelige treningsplassen (latent plass), betyr dette at 299×299-bildene vil bli oppskalert i en treningsarbeidsflyt (potensielt føre til artefakter relatert til en skaleringsalgoritme i stedet for patologi), og de større bildene nedskalert. Igjen, dette reduserer de homogene datastandardene som er nødvendige for AI-basert datasynsanalyse.

Videre inneholder ActMed-dataene som tas inn i COVIDx "diskformede markører" i COVID-19 røntgenstråler av thorax, en tilbakevendende funksjon som er inkonsistent med det bredere datasettet, og som må håndteres som en "repetitiv uteligger".

Dette er den typen problem som vanligvis løses ved enten å rense eller utelate dataene, siden gjentakelsen av markørene er nok til å registreres som en "funksjon" i trening, men ikke hyppig nok til å generalisere nyttig i det bredere oppsettet av datasettet . Uten en mekanisme for å diskontere påvirkningen av de kunstige markørene, kan de potensielt betraktes av metodikken til maskinlæringssystemet som patologiske fenomener.

Opplæring og testing

Forskerne testet COVIDx mot to komparative datasett på tvers av tre modeller. De to ekstra datasettene var RICORD, som inneholder 1096 COVID-19 røntgenstråler av thorax fra 361 pasienter, hentet fra fire land; og CheXpert, et offentlig datasett

De tre modellene som ble brukt var COVID-Net, CoroNet og DarkCovidNet. Alle tre modellene bruker Convolutional Neural Networks (CNN), selv om CoroNet består av en to-trinns bildeklassifiseringsprosess, med autokodere som sender utdata til en CNN-klassifisering.

Testing viste et "bratt fall" i all modellytelse på ikke-COVIDx-datasett sammenlignet med 86 % nøyaktighet som ble resultatet ved bruk av COVIDx-data. Men hvis dataene er feilmerket eller feilgruppert, er dette faktisk falske resultater. Forskerne bemerket sterkt reduserte nøyaktighetsresultater på de sammenlignbare eksterne datasettene, som papiret foreslår som mer realistiske og korrekt klassifiserte data.

Videre observerer avisen:

"En klinisk gjennomgang av 500 grad-CAM-saliency-kart generert av prediksjon på COVIDx-testdata viste en trend av betydning i klinisk irrelevante funksjoner. Dette inkluderte vanligvis et fokus på benstrukturer og bløtvev i stedet for diffus bilateral opasifisering av lungefeltene som er typiske for COVID-19-infeksjon.'

Dette er et røntgenbilde av et bekreftet COVID-19-tilfelle, tildelt bare 0.938 prediksjonssannsynlighet fra COVIDx trent på DarkCovidNet. Kilde: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Dette er et røntgenbilde av et bekreftet COVID-19-tilfelle, tildelt bare 0.938 prediksjonssannsynlighet fra COVIDx trent på DarkCovidNet.

Konklusjoner

Forskerne kritiserer mangelen på demografiske eller kliniske data relatert til røntgenbildene i COVIDx, og hevder at uten disse er det umulig å gjøre rede for "forvirrende faktorer" som alder.

De observerer også at problemene som finnes i COVIDx-datasettet kan gjelde for andre datasett som ble hentet på lignende måte (dvs. ved å blande pre-COVID radiologiske bildedatabaser med nylige COVID-røntgenbildedata uten tilstrekkelig dataarkitektur, varianskompensasjon og tydelig omfang av begrensningene ved denne tilnærmingen).

For å oppsummere manglene ved COVIDx, understreker forskerne den skjeve inkluderingen av 'klare' pediatriske røntgenstråler, så vel som deres oppfatning av misbruk av etiketter og høy risiko for skjevhet og forvirring i COVIDx, og hevder at 'den eksepsjonelle ytelsen [av COVIDx] rapportert bredt på tvers av problemdomenet er oppblåst, at modellens ytelsesresultater er feilrepresentert, og at modellene ikke generaliserer godt til klinisk realistiske data.'

Rapporten konkluderer:

Mangel på tilgjengelige sykehusdata kombinert med utilstrekkelig modellevaluering på tvers av problemdomenet har tillatt bruken av åpen kildekode-data til å villede forskningsmiljøet. Fortsatt publisering av oppblåste modellytelsesmålinger risikerer å skade påliteligheten til AI-forskning innen medisinsk diagnostikk, spesielt der sykdommen er av stor offentlig interesse. Kvaliteten på forskningen på dette domenet må forbedres for å forhindre at dette skjer, dette må starte med dataene.'

 

 

*Selv om forskerne i studien hevder å ha laget dataene, filene og koden for det nye papiret tilgjengelig på nettet, tilgang krever pålogging, og i skrivende stund er ingen generell offentlig tilgang til filene tilgjengelig.
** Røntgen thorax8: Brystrøntgendatabase i sykehusskala og benchmarks for svakt overvåket klassifisering og lokalisering av vanlige thoraxsykdommer –
https://arxiv.org/pdf/1705.02315.pdf