Gezondheidszorg

Populaire COVIDx-dataset bekritiseerd door Britse onderzoekers

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

Een onderzoeksconsortium uit het VK heeft kritiek geuit op de mate van wetenschappelijk vertrouwen dat is gesteld in open source-datasets die worden gebruikt voor computer vision-gebaseerde analyse van borstfoto’s van COVID-19-patiënten, met als centrale focus de populaire open source-dataset COVIDx.

De onderzoekers, die COVIDx hebben getest in verschillende AI-trainingsmodellen, beweren dat het ‘geen representatieve weergave is van het echte klinische probleem’, dat de resultaten die met behulp van COVIDx worden behaald ‘opgeblazen’ zijn en dat de modellen ‘niet goed generaliseren’ naar echte wereldgegevens.

De auteurs merken ook de inconsistentie op van de bijgedragen gegevens die COVIDx vormen, waarbij de oorspronkelijke afbeeldingen in verschillende resoluties worden aangeboden, die automatisch worden omgezet door de deep learning-workflow naar de consistente afmetingen die nodig zijn voor training, en observeren dat dit proces bedrieglijke artefacten kan introduceren die verband houden met de afbeeldingsgrootte-algoritme, in plaats van het klinische aspect van de gegevens.

Het artikel heet De valkuilen van het gebruik van open data voor het ontwikkelen van deep learning-oplossingen voor COVID-19-detectie in borstfoto’s, en is een samenwerking tussen het Center for Computational Imaging & Simulation in Biomedicine (CISTIB) van de University of Leeds, samen met onderzoekers van vijf andere organisaties in dezelfde stad, waaronder het Leeds Teaching Hospitals NHS Trust.

Het onderzoek beschrijft, onder andere, negatieve praktijken, zoals het ‘misbruik van labels’ in de COVIDx-dataset, evenals een ‘hoog risico op vooroordelen en verstorende factoren’. De eigen experimenten van de onderzoekers met het doorlopen van de dataset in drie bruikbare deep learning-modellen hebben hen ertoe gebracht te concluderen dat ‘de uitzonderlijke prestatie die breed wordt gerapporteerd in het probleemdomein opgeblazen is, dat de resultaten van modelprestaties verkeerd worden weergegeven en dat modellen niet goed generaliseren naar klinisch-realisme gegevens.’

Vijf tegenstrijdige datasets in één

Het rapport* merkt op dat de meeste huidige AI-gebaseerde methoden in dit veld afhankelijk zijn van een ‘heterogene’ verzameling gegevens uit verschillende open source-repositories, waarbij wordt opgemerkt dat vijf datasets met opvallend verschillende kenmerken zijn samengevoegd in de COVIDx-dataset, ondanks (volgens de onderzoekers) onvoldoende gelijkwaardigheid van gegevenskwaliteit en type.

De COVIDx-dataset werd uitgebracht in mei 2020 als een consortiuminspanning onder leiding van de afdeling Systems Design Engineering van de University of Waterloo in Canada, met de gegevens beschikbaar als onderdeel van de COVID-Net Open Source Initiative.

De vijf collecties die COVIDx vormen, zijn: de COVID-19 Image Data Collection (een open source set van Montreal-onderzoekers); de COVID-19 Chest X-ray Dataset initiatief; de Actualmed COVID-19 Chest X-ray dataset; de COVID-19 Radiography Database; en de RSNA Pneumonia Detection Challenge dataset, een van de vele pre-COVID-sets die zijn ingezet voor de pandemiecrisis.

(RICORD – zie hieronder – is later toegevoegd aan COVIDx, maar omdat het werd toegevoegd na de modellen van interesse in de studie, werd het uitgesloten van de testgegevens, en bovendien zal het COVIDx nog verder hebben gevarieerd, wat de centrale klacht van de auteurs van de studie is.)

De onderzoekers beweren dat COVIDx de ‘grootste en meest gebruikte’ dataset van zijn soort is binnen de wetenschappelijke gemeenschap die verband houdt met COVID-onderzoek, en dat de gegevens die in COVIDx zijn geïmporteerd uit de constituerende externe datasets niet voldoende overeenkomen met het driedelige schema van de COVIDx-dataset (d.w.z. ‘normaal’, ‘longontsteking’ en ‘COVID-19’).

Near Enough..?

Bij het onderzoeken van de herkomst en geschiktheid van de bijdragende datasets voor COVIDx op het moment van de studie, vonden de onderzoekers ‘misbruik’ van de RSNA-gegevens, waarbij gegevens van een bepaald type zijn ondergebracht in een andere categorie:

‘De RSNA-repository, die openbaar beschikbare borstfoto’s van NIH Chestx-ray8 [**] gebruikt, was ontworpen voor een segmentatieopgave en bevat drie klassen van afbeeldingen, ‘Lung Opacity’, ‘No Lung Opacity/Not Normal’, en ‘Normal’, met bounding boxes beschikbaar voor ‘Lung Opacity’-gevallen.

‘Bij de compilatie in COVIDx worden alle borstfoto’s uit de ‘Lung Opacity’-klasse opgenomen in de longontstekingsklasse.’

In feite, beweert het artikel, breidt de COVIDx-methodiek de definitie van ‘longontsteking’ uit tot ‘alle longontstekingsachtige longopaciteiten’. Als gevolg daarvan wordt de waarde van vergelijkbare gegevenstypen (vermoedelijk) bedreigd. De onderzoekers stellen:

‘ […] de longontstekingsklasse binnen de COVIDx-dataset bevat borstfoto’s met een assortiment van veel andere pathologieën, waaronder pleurale effusie, infiltratie, consolidatie, emfyseem en massa’s. Consolidatie is een radiologisch kenmerk van mogelijke longontsteking, niet een klinische diagnose. Het gebruik van consolidatie als vervanging voor longontsteking zonder dit te documenteren is potentieel misleidend.’

Alternatieve pathologieën (behalve COVID-19) geassocieerd met COVIDx. Bron: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Het rapport vindt dat slechts 6,13% van de 4.305 longontstekingsgevallen afkomstig van RSNA correct waren gelabeld, wat overeenkomt met slechts 265 echte longontstekingsgevallen.

Bovendien vertegenwoordigden veel van de niet-longontstekingsgevallen die in COVIDx waren opgenomen co-morbiditeiten – complicaties van andere ziekten, of anderszins secundaire medische problemen in aandoeningen die niet noodzakelijkerwijs verband houden met longontsteking.

Niet ‘Normaal’

Het rapport suggereert verder dat de invloed van de RSNA-challengedataset in COVIDx de empirische stabiliteit van de gegevens heeft verstoord. De onderzoekers observeren dat COVIDx de ‘normale’ klasse van de RSNA-gegevens prioriteert, waardoor alle ‘geen longopaciteit/niet normaal’ klassen in de bredere dataset worden uitgesloten. Het artikel zegt:

‘Terwijl dit in overeenstemming is met wat wordt verwacht binnen de ‘normale’ label, breidt het uit van de longontstekingsklasse en gebruikt alleen ‘normale’ borstfoto’s, in plaats van longontstekingsnegatieve gevallen, wat de classificatieopgave aanzienlijk vereenvoudigt.

‘Het eindresultaat hiervan is een dataset die een taak weerspiegelt die is verwijderd van het echte klinische probleem.’

Potentiële vooroordelen door onverenigbare gegevensnormen

Het artikel onderscheidt verschillende soorten vooroordelen in COVIDx, waarbij wordt opgemerkt dat sommige van de bijdragende gegevens pediatrische borstfoto’s van volwassen patiënten mengt, en verder observeert dat deze gegevens de enige ‘aanzienlijke’ bron van pediatrische afbeeldingen in COVIDx zijn.

Ook worden afbeeldingen uit de RSNA-dataset weergegeven met een resolutie van 1024×1024, terwijl een andere bijdragende dataset afbeeldingen biedt met slechts een resolutie van 299×299. Aangezien machine learning-modellen de afbeeldingen zullen herschalen om de beschikbare trainingsruimte (latent space) te accommoderen, betekent dit dat de 299×299-afbeeldingen zullen worden opgeschaald in een trainingsworkflow (potentieel leidend tot artefacten die verband houden met een schaalalgoritme in plaats van pathologie), en de grotere afbeeldingen worden verkleind. Dit gaat tegen de homogene gegevensnormen die nodig zijn voor AI-gebaseerde computer vision-analyse.

Bovendien bevat de ActMed-gegevens die in COVIDx zijn opgenomen ‘schijfvormige markers’ in COVID-19-borstfoto’s, een terugkerend kenmerk dat inconsistent is met de bredere dataset, en dat zou moeten worden behandeld als een ‘repetitieve outlier’.

Dit is het soort probleem dat normaal wordt aangepakt door de gegevens te reinigen of weg te laten, aangezien de terugkeer van de markers voldoende is om te registreren als een ‘kenmerk’ in training, maar niet frequent genoeg om nuttig te generaliseren in de bredere context van de dataset. Zonder een mechanisme om de invloed van de kunstmatige markers te compenseren, kunnen ze potentieel worden beschouwd door de methodiek van het machine learning-systeem als pathologische fenomenen.

Training en testen

De onderzoekers testten COVIDx tegen twee vergelijkbare datasets over drie modellen. De extra twee datasets waren RICORD, die 1096 COVID-19-borstfoto’s bevat over 361 patiënten, afkomstig uit vier landen; en CheXpert, een openbare dataset

De drie modellen die werden gebruikt, waren COVID-Net, CoroNet en DarkCovidNet. Alle drie de modellen gebruiken Convolutional Neural Networks (CNN’s), hoewel CoroNet bestaat uit een tweestaps beeldclassificatieproces, met auto-encoders die output doorgeven aan een CNN-classificator.

Het testen toonde een ‘steile daling’ in alle modelprestaties op niet-COVIDx-datasets in vergelijking met de 86% nauwkeurigheid die werd behaald bij het gebruik van COVIDx-gegevens. Echter, als de gegevens onjuist gelabeld of gegroepeerd zijn, zijn dit effectief valse resultaten. De onderzoekers noteerden aanzienlijk lagere nauwkeurigheidsresultaten op de vergelijkbare externe datasets, die het artikel voorstelt als meer realistische en correct gelabelde gegevens.

Verder merkt het artikel op:

‘Een klinische beoordeling van 500 grad-CAM-saliency-kaarten gegenereerd door voorspelling op COVIDx-testgegevens toonde een trend van significantie in klinisch irrelevante kenmerken. Dit omvatte vaak een focus op botstructuren en zachte weefsels in plaats van diffuse bilaterale opaciteit van de longvelden die typisch zijn voor COVID-19-infectie.’

Dit is een röntgenfoto van een bevestigd COVID-19-geval, met een voorspellingswaarschijnlijkheid van 0,938 van COVIDx getraind op DarkCovidNet.

Conclusies

De onderzoekers bekritiseren het ontbreken van demografische of klinische gegevens die verband houden met de röntgenfoto’s in COVIDx, waarbij wordt gesteld dat zonder deze gegevens het onmogelijk is om ‘verstorende factoren’ zoals leeftijd te verantwoorden.

Ze merken ook op dat de problemen die zijn gevonden in de COVIDx-dataset mogelijk van toepassing zijn op andere datasets die op soortgelijke wijze zijn gegenereerd (d.w.z. door het mengen van pre-COVID-radiologische beeldendatabases met recente COVID-röntgenbeelden zonder adequate gegevensarchitectuur, variantiecompensatie en duidelijke reikwijdte van de beperkingen van deze aanpak).

In het samenvatten van de tekortkomingen van COVIDx, benadrukken de onderzoekers de onevenwichtige inclusie van ‘duidelijke’ pediatrische röntgenfoto’s, evenals hun perceptie van het misbruik van labels en het hoge risico op vooroordelen en verstorende factoren in COVIDx, waarbij wordt gesteld dat ‘de uitzonderlijke prestatie [van COVIDx] die breed wordt gerapporteerd in het probleemdomein opgeblazen is, dat de resultaten van modelprestaties verkeerd worden weergegeven en dat modellen niet goed generaliseren naar klinisch-realisme gegevens.’

Het rapport concludeert:

‘Een gebrek aan beschikbare ziekenhuisgegevens in combinatie met onvoldoende modelbeoordeling over het probleemdomein heeft toegelaten dat het gebruik van open source-gegevens de onderzoekscommunity misleidt. Het voortdurend publiceren van opgeblazen modelprestatie-metrieken riskeert het schaden van de betrouwbaarheid van AI-onderzoek in medische diagnostiek, vooral waar de ziekte van groot publiek belang is. De kwaliteit van onderzoek in dit domein moet verbeteren om dit te voorkomen, dit moet beginnen met de gegevens.’

*Hoewel de onderzoekers van de studie claimen dat ze de gegevens, bestanden en code voor het nieuwe artikel online beschikbaar hebben gemaakt, vereist toegang een inlog en, op het moment van schrijven, is er geen algemene toegang tot de bestanden beschikbaar.
** ChestX-ray8: Hospital-scale Chest X-ray Database en Benchmarks op Weakly-Supervised Classification en Localization van Common Thorax Diseases – https://arxiv.org/pdf/1705.02315.pdf