Zdravotnictví

Populární dataset COVIDx kritizován britskými výzkumníky

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

Výzkumný konsorcium z Velké Británie zpochybnilo rozsah vědecké důvěry vkládané do otevřených zdrojových dat použitých pro analýzu rentgenových snímků hrudníku pacientů s COVID-19 založenou na počítačovém vidění, zaměřenou na populární otevřený dataset COVIDx.

Výzkumníci, kteří otestovali COVIDx v různých modelech umělé inteligence, tvrdí, že není “reprezentativní pro skutečný klinický problém”, že výsledky získané pomocí něj jsou “nafouknuté” a že modely “se nezobecnějí dobře” na reálná data.

Autoři také poukazují na nesoulad přispěných dat, která tvoří COVIDx, kde původní obrázky přicházejí v různých rozlišeních, která jsou automaticky přeformátována hlubokým učením do konzistentních velikostí nezbytných pro školení, a pozorují, že tento proces může zavést klamavé artefakty související s algoritmem změny velikosti obrázku, spíše než klinickým aspektem dat.

Článek se jmenuje The pitfalls of using open data to develop deep learning solutions for COVID-19 detection in chest X-rays a je spoluprací mezi Centrem pro počítačové zobrazování a simulaci v biomedicíně (CISTIB) na Univerzitě v Leedsu, spolu s výzkumníky z pěti dalších organizací ve stejném městě, včetně Leeds Teaching Hospitals NHS Trust.

Výzkum podrobně popisuje, mimo jiné negativní postupy, “zneužití štítků” v datasetu COVIDx, jakož i “vysoké riziko zkreslení a konfliktu”. Experimenty výzkumníků s vlastním procházením datasetu přes tři životaschopné modely hlubokého učení je vedly k závěru, že ‘výjimečné výsledky, které jsou široce hlášeny v rámci problému, jsou nafouknuté, že výsledky modelu jsou nesprávně představovány a že modely se nezobecnějí dobře na klinicky realistická data.’

Pět kontrastních datasetů v jednom

Zpráva* uvádí, že většina současných metodologií založených na umělé inteligenci v tomto oboru závisí na “heterogenní” sbírce dat z různých otevřených zdrojových repozitářů, pozoruje, že pět datasetů s nápadně odlišnými charakteristikami bylo sloučeno do datasetu COVIDx, navzdory (podle názoru výzkumníků) nedostatečné paritě kvality a typu dat.

Dataset COVIDx byl vydán v květnu 2020 jako konsorciální úsilí vedené katedrou systémového designu inženýrství na Univerzitě v Waterloo v Kanadě, s daty dostupnými jako součást iniciativy COVID-Net Open Source.

Pět sbírek, které tvoří COVIDx, jsou: sbírka obrazových dat COVID-19 Image Data Collection (otevřená sada z Montrealu); iniciativa datasetu COVID-19 Chest X-ray initiative; dataset Actualmed COVID-19 Chest X-ray dataset; databáze COVID-19 Radiography Database; a dataset RSNA Pneumonia Detection Challenge dataset, jeden z mnoha pre-COVID sad, které byly použity pro pandemickou krizi.

(RICORD – viz níže – byl později přidán do COVIDx, ale protože byl zahrnut poté, co byly modely studie, byl vyloučen z testovacích dat, a v každém případě by ještě více varioval COVIDx, což je centrální stížnost autorů studie.)

Výzkumníci tvrdí, že COVIDx je ‘největší a nejpoužívanější’ dataset svého druhu v rámci vědecké komunity související s výzkumem COVID, a že data importovaná do COVIDx z přispěných externích datasetů se dostatečně nepřizpůsobují trojitému schématu datasetu COVIDx (tj. ‘normální’, ‘pneumonie’ a ‘COVID-19’).

Téměř dostatečné..?

Při zkoumání původu a vhodnosti přispěných datasetů pro COVIDx v době studie výzkumníci zjistili “zneužití” dat RSNA, kde data jednoho typu byla, podle tvrzení výzkumníků, zařazena do jiné kategorie:

‘Repozitář RSNA, který používá veřejně dostupná data rentgenových snímků hrudníku z NIH Chestx-ray8 [**], byl navržen pro úkol segmentace a jako takový obsahuje tři třídy obrazů, ‘Lung Opacity’, ‘No Lung Opacity/Not Normal’, a ‘Normal’, s dostupnými hranicemi pro ‘Lung Opacity’ případy.

‘Při jeho kompilaci do COVIDx jsou všechny rentgenové snímky z třídy ‘Lung Opacity’ zahrnuty do třídy pneumonie.’

Efektivně, článek tvrdí, že metodologie COVIDx rozšiřuje definici ‘pneumonie’ na všechny ‘pneumonie-podobné lung opacity’. V důsledku toho je (pravděpodobně) ohrožena hodnota srovnatelných typů dat. Výzkumníci uvádějí:

‘ […] třída pneumonie v datasetu COVIDx obsahuje rentgenové snímky s různými jinými patologiemi, včetně, pleurální efúze, infiltrace, konsolidace, emfyzému a mas. Konsolidace je radiologickou vlastností možné pneumonie, ne klinickou diagnózou. Použití konsolidace jako náhrady za pneumonii bez dokumentace je potenciálně zavádějící.’

Alternativní patologie (kromě COVID-19) spojené s COVIDx. Source: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Zpráva zjistila, že pouze 6,13 % z 4 305 případů pneumonie získaných z RSNA byly přesně označeny, reprezentující pouhých 265 skutečných případů pneumonie.

Dále, mnoho případů, které nejsou pneumonií, zahrnutých v COVIDx, reprezentovalo komorbiditu – komplikace jiných nemocí, nebo jinak sekundární zdravotní problémy v podmínkách, které nejsou nutně spojeny s pneumonií.

Není ‘normální’

Zpráva dále naznačuje, že vliv datasetu RSNA v COVIDx zkreslil empirickou stabilitu dat. Výzkumníci pozorují, že COVIDx upřednostňuje třídu ‘normální’ dat RSNA, efektivní vylučuje všechny ‘no lung opacity/not normal’ třídy ve větším datasetu. Článek uvádí:

‘Zatímco toto je v souladu s tím, co se očekává v rámci ‘normální’ značky, rozšiřování třídy pneumonie a použití pouze ‘normálních’ rentgenových snímků, spíše než pneumonie-negativních případů, značně zjednodušuje klasifikační úkol.

‘Výsledkem je dataset, který odráží úkol, který je vzdálen od skutečného klinického problému.’

Potenciální zkreslení z neslučitelných standardů dat

Článek zjistil řadu dalších typů zkreslení v COVIDx, uvádějící, že některá z přispěných dat kombinuje pediatrické rentgenové snímky s rentgenovými snímky dospělých pacientů, a dále pozoruje, že tato data jsou jediným “významným” zdrojem pediatrických snímků v COVIDx.

Také, snímky z datasetu RSNA mají rozlišení 1024×1024, zatímco jiný přispěný dataset poskytuje snímky pouze s rozlišením 299×299. Protože modely strojového učení budou неизběhně měnit velikost snímků, aby se přizpůsobily dostupnému školicímu prostoru (latentnímu prostoru), to znamená, že snímky 299×299 budou zvětšeny v tréninkovém workflow (potenciálně vedoucí k artefaktům souvisejícím s algoritmem změny velikosti, spíše než patologií), a větší snímky zmenšeny. Opět, to působí proti homogenním standardům dat nezbytným pro analýzu počítačového vidění založenou na umělé inteligenci.

Dále, data ActMed zahrnutá do COVIDx obsahují ‘diskové značky’ v rentgenových snímcích COVID-19, recidivující rys, který je nekonzistentní s větším datasetem, a který by potřeboval být zpracován jako ‘repetitivní outlier’.

To je typ problému, který je obvykle řešen buď čištěním nebo vyloučením dat, protože recidiva značek je dostatečná k registraci jako ‘funkce’ ve školení, ale není dostatečně častá, aby se užitečně generalizovala v rámci datasetu. Bez mechanismu pro diskontování vlivu umělých značek, mohly by být potenciálně považovány metodologií systému strojového učení za patologické jevy.

Školení a testování

Výzkumníci otestovali COVIDx proti dvěma komparativním datasetům přes tři modely. Další dva datasety byly RICORD, který obsahuje 1096 rentgenových snímků COVID-19 přes 361 pacientů, získaných ze čtyř zemí; a CheXpert, veřejný dataset

Tři modely použité byly COVID-Net, CoroNet a DarkCovidNet. Všichni tři modely využívají Konvoluční neuronové sítě (CNN), i když CoroNet sestává z dvoustupňového procesu klasifikace obrazů, s autoenkodéry, které předávají výstup do klasifikátoru CNN.

Testování ukázalo “prudký pokles” ve výkonu všech modelů na ne-COVIDx datasetech ve srovnání s 86% přesností, která vyplývá z použití dat COVIDx. Nicméně, pokud jsou data špatně označena nebo nesprávně seskupena, jsou to efektivní falešné výsledky. Výzkumníci zaznamenali značně snížené výsledky přesnosti na srovnatelných externích datasetech, které článek navrhuje jako více realistické a správně klasifikovaná data.

Dále, článek uvádí:

‘Klinická revize 500 grad-CAM saliency map generovaných předpovědí na testovacích datech COVIDx ukázala trend významnosti v klinicky irelevantních funkcích. To zahrnovalo často zaměření na kostní struktury a měkké tkáně místo difúzní bilaterální opacifikace plicních polí, které jsou typické pro infekci COVID-19.’

Toto je rentgenový snímek potvrzeného případu COVID-19, který byl přiřazen pouze 0,938 předpovědní pravděpodobnosti z COVIDx školeného na DarkCovidNet.

Závěr

Výzkumníci kritizují nedostatek demografických nebo klinických dat souvisejících s rentgenovými snímky v COVIDx, argumentují, že bez nich je nemožné zohlednit “konfliktní faktory” jako věk.

Také pozorují, že problémy nalezené v datasetu COVIDx mohou být aplikovatelné na další datasety, které byly podobně zdrojovány (tj. kombinací pre-COVID radiologických obrazových databází s nedávnými COVID rentgenovými snímky bez adekvátní architektury dat, kompenzace variability a jasně stanoveného rozsahu omezení tohoto přístupu).

Při shrnutí nedostatků COVIDx výzkumníci zdůrazňují nesymetrickou inkluzi ‘čistých’ pediatrických snímků, jakož i jejich vnímání zneužití štítků a vysoké riziko zkreslení a konfliktu v COVIDx, tvrdí, že ‘výjimečné výsledky [COVIDx] hlášené široce v rámci problému jsou nafouknuté, že výsledky modelu jsou nesprávně představovány a že modely se nezobecnějí dobře na klinicky realistická data.’

Zpráva uzavírá:

‘Nedostatek dostupných hospitalizačních dat v kombinaci s nedostatečnou evaluací modelu napříč problémem umožnil použití otevřených zdrojových dat, aby zmátlo výzkumnou komunitu. Další publikace nafouknutých metrik výkonu modelu riskuje poškození důvěryhodnosti výzkumu umělé inteligence v lékařské diagnostice, zejména tam, kde je nemoc velkého veřejného zájmu. Kvalita výzkumu v tomto oboru musí zlepšit, aby se tomu zabránilo, a to musí začít s daty.’

*Although výzkumníci studie tvrdí, že zpřístupnili data, soubory a kód pro novou práci online, přístup vyžaduje přihlášení a v době psaní není obecný veřejný přístup k souborům k dispozici.
** ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases – https://arxiv.org/pdf/1705.02315.pdf