Helse

Populært COVIDx-dataset kritisert av britiske forskere

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

Et forskningskonsortium fra Storbritannia har rettet kritikk mot omfanget av vitenskapelig tillit som er investert i åpne kilde-datasett som brukes til datamaskinbasert analyse av COVID-19-pasienters bryst-røntgenbilder, med fokus på det populære åpne kilde-datasettet COVIDx.

Forskerne, som har testet COVIDx i ulike AI-treningmodeller, hevder at det ikke er representative for den virkelige kliniske problemstillingen, at resultater som er oppnådd ved å bruke det er “oppblåst”, og at modellene “ikke generaliserer godt” til virkelige verdensdata.

Forfatterne påpeker også inkonsistensen i de bidragende dataene som utgjør COVIDx, der originale bilder kommer i en rekke oppløsninger som automatisk omformateres av dyptlæringsarbeidsflyten til de konsistente størrelsene som er nødvendige for trening, og observerer at denne prosessen kan introdusere bedragerske artefakter relatert til bilde-omstørrelsealgoritmen, snarere enn den kliniske aspekt av dataene.

Den rapporten heter De fallgruvene ved å bruke åpne data til å utvikle dyptlæringsløsninger for COVID-19-detteksjon i bryst-røntgenbilder, og er et samarbeid mellom Center for Computational Imaging & Simulation in Biomedicine (CISTIB) ved University of Leeds, sammen med forskere fra fem andre organisasjoner i samme by, inkludert Leeds Teaching Hospitals NHS Trust.

Forskningsdetaljene, blant annet negative praksiser, “misbruk av etiketter” i COVIDx-datasettet, samt en “høy risiko for bias og konfoundering”. Forskerne egne eksperimenter med å sette datasettet gjennom trening over tre brukbare dyptlæringsmodeller førte dem til å konkludere med at ‘den eksepsjonelle ytelsen som er rapportert over hele problemområdet er oppblåst, at modell-ytelsesresultater er misrepresentert, og at modellene ikke generaliserer godt til klinisk-realistic data.’

Fem kontrasterende datasett i ett

Rapporten* påpeker at de fleste nåværende AI-baserte metoder i dette feltet avhenger av en “heterogen” samling av data fra ulike åpne kilde-repositorier, og observerer at fem datasett med merkbart ulike karakteristika har blitt samlet inn i COVIDx-datasettet, til tross for (ifølge forskerne) utilstrekkelig likhet i datakvalitet og type.

COVIDx-datasettet ble utgitt i mai 2020 som et konsortium-tiltak ledet av Department of Systems Design Engineering ved University of Waterloo i Canada, med dataene gjort tilgjengelige som en del av COVID-Net Open Source Initiative.

De fem samlingene som utgjør COVIDx er: COVID-19 Image Data Collection (en åpen kilde fra Montreal-forskere); COVID-19 Chest X-ray Dataset initiativ; Actualmed COVID-19 Chest X-ray dataset; COVID-19 Radiography Database; og RSNA Pneumonia Detection Challenge dataset, ett av de mange pre-COVID-settene som har blitt presset inn i pandemikrisen.

(RICORD – se under – har siden blitt lagt til COVIDx, men siden det ble inkludert etter at modellene i studien ble testet, ble det ekskludert fra testdataene, og i alle fall vil det ha tendert til å variere COVIDx enda mer, som er det sentrale klagemålet til forfatterne av studien.)

Forskerne hevder at COVIDx er ‘det største og mest brukte’ datasettet av sin type innen det vitenskapelige samfunnet relatert til COVID-forskning, og at data importert til COVIDx fra de bidragende eksterne datasettene ikke tilstrekkelig konformerer til den tredelte skjemaet til COVIDx-datasettet (dvs. ‘normal’, ‘pneumoni’ og ‘COVID-19’).

… (rest of the translation remains the same)

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

Populært COVIDx-dataset kritisert av britiske forskere

Fem kontrasterende datasett i ett

You may like