Spojte se s námi

Zdravotní péče

Populární datový soubor COVIDx kritizovaný britskými výzkumníky

mm

Výzkumné konsorcium z Velké Británie kritizovalo míru vědecké důvěry v otevřené datové sady používané pro analýzu rentgenových snímků hrudníku pacientů s COVID-19 pomocí počítačového vidění, přičemž se zaměřilo na populární otevřenou datovou sadu COVIDx.

Výzkumníci, kteří testovali COVIDx v různých modelech pro trénink umělé inteligence, tvrdí, že „není reprezentativní pro skutečný klinický problém“, že výsledky získané jeho použitím jsou „nafouknuté“ a že modely „se dobře nezobecňují“ na data z reálného světa.

Autoři si také všímají nekonzistence poskytnutých dat, která tvoří COVIDx, kde originální snímky přicházejí v různých rozlišeních, která jsou automaticky přeformátována pracovním postupem hlubokého učení do konzistentních velikostí nezbytných pro školení, a pozorují, že tento proces může představovat klamavé artefakty. týkající se algoritmu změny velikosti obrazu, spíše než klinického aspektu dat.

Jedno papír je nazýván Úskalí používání otevřených dat k vývoji řešení hlubokého učení pro detekci COVID-19 na rentgenu hrudníku, a jde o spolupráci mezi Centrem pro výpočetní zobrazování a simulaci v biomedicíně (CISTIB) na University of Leeds spolu s výzkumníky z pěti dalších organizací ve stejném městě, včetně Leeds Teaching Hospitals NHS Trust.

Výzkum mimo jiné negativní praktiky podrobně popisuje „zneužívání označení“ v datové sadě COVIDx a také „vysoké riziko zkreslení a matení“. Vlastní experimenty výzkumníků, při kterých datovou sadu testovali napříč třemi životaschopnými modely hlubokého učení, je vedly k závěru, že „výjimečný výkon široce uváděný v dané problematické oblasti je nadsazený, výsledky modelování výkonnosti jsou zkreslené a modely se dobře nezobecňují na klinicky realistická data.“

Pět kontrastních datových sad v jednom

Zpráva* uvádí, že většina současných metodologií založených na umělé inteligenci v této oblasti závisí na „heterogenním“ souboru dat z různorodých open source repozitářů, a poznamenává, že do datové sady COVIDx bylo aglomerováno pět datových sad s výrazně odlišnými charakteristikami, a to i přes (podle názoru výzkumníků) nedostatečnou paritu kvality a typu dat.

Soubor dat COVIDx byl propuštěn v květnu 2020 jako úsilí konsorcia vedeného katedrou systémového projektování na University of Waterloo v Kanadě s údaji udělat dostupný jako součást iniciativy COVID-Net Open Source Initiative.

Pět sbírek, které tvoří COVIDx, jsou: COVID-19 Sběr obrazových dat (an open source soubor od montrealských badatelů); datový soubor RTG hrudníku COVID-19 iniciativa; rentgen hrudníku Actualmed COVID-19 dataset; radiografie COVID-19 Databáze; a RSNA Pneumonia Detection Challenge dataset, jeden z mnoha setů před COVID, které byly uvedeny do provozu kvůli pandemické krizi.

(RICORD – viz níže – byl mezitím přidán do COVIDx, ale protože byl zahrnut po modelech zájmu ve studii, byl vyloučen z testovacích dat a v každém případě bude mít tendenci ještě více zpestřit COVIDx, což je hlavní stížností autorů studie.)

Vědci tvrdí, že COVIDx je „největší a nejpoužívanější“ datový soubor svého druhu ve vědecké komunitě související s výzkumem COVID a že data importovaná do COVIDx z externích datových souborů, které jej tvoří, dostatečně neodpovídají trojstrannému schématu datového souboru COVIDx (tj. „normální“, „pneumonie“ a „COVID-19“).

Dost blízko..?

Při zkoumání původu a vhodnosti přispívajících datových sad pro COVIDx v době studie vědci zjistili „zneužití“ dat RSNA, kdy byla data jednoho typu, jak tvrdí vědci, zařazena do jiné kategorie:

„Úložiště RSNA, které využívá veřejně dostupná data rentgenu hrudníku z NIH Chestx-ray8 [**], byl navržen pro úlohu segmentace a jako takový obsahuje tři třídy obrázků, 'Opacita plic', 'No Lung Opacity/Not Normal' a 'Normal', s ohraničujícími rámečky dostupnými pro případy 'Plic Opacity'.

„V rámci studie COVIDx jsou všechny rentgenové snímky hrudníku z třídy „neprůhlednost plic“ zahrnuty do třídy pneumonie.“

Článek tvrdí, že metodologie COVIDx v podstatě rozšiřuje definici „pneumonie“ tak, aby zahrnovala „všechny plicní opacity podobné pneumonii“. V důsledku toho je (pravděpodobně) ohrožena srovnávací hodnota srovnávacích datových typů. Výzkumníci uvádějí:

„[…] třída pneumonie v datové sadě COVIDx obsahuje rentgenové snímky hrudníku s řadou mnoha dalších patologií, včetně pleurálního výpotku, infiltrace, konsolidace, emfyzému a mas. Konsolidace je radiologickým znakem možné pneumonie, nikoli klinickou diagnózou. Používání konsolidace jako náhrady za pneumonii bez zdokumentování této skutečnosti je potenciálně zavádějící.“

Alternativní patologie (kromě COVID-19) spojené s COVIDx.

Alternativní patologie (kromě COVID-19) spojené s COVIDx. Zdroj: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Zpráva zjistila, že pouze 6.13 % ze 4,305 265 případů zápalu plic získaných z RSNA bylo přesně označeno, což představuje pouhých XNUMX případů skutečného zápalu plic.

Kromě toho mnoho případů nepneumonie zahrnutých do COVIDx představovalo přidružená onemocnění – komplikace jiných onemocnění nebo jiné sekundární zdravotní problémy u stavů, které nemusí nutně souviset se zápalem plic.

Není „normální“

Zpráva dále naznačuje, že vliv datové sady RSNA u COVID-19 zkreslil empirickou stabilitu dat. Výzkumníci poznamenávají, že COVID-19 upřednostňuje „normální“ třídu dat RSNA a v širší datové sadě fakticky vylučuje všechny třídy „bez opacity plic/není normální“. Článek uvádí:

„Ačkoli je to v souladu s tím, co se očekává v rámci označení „normální“, rozšíření třídy zápalu plic a použití pouze „normálních“ rentgenových snímků hrudníku spíše než případů s negativními pneumoniemi značně zjednodušuje klasifikační úkol.

„Konečným výsledkem je datová sada, která odráží úkol, jenž je vzdálený skutečnému klinickému problému.“

Potenciální odchylky od nekompatibilních datových standardů

Článek rozlišuje řadu dalších typů zkreslení u COVID-19 a uvádí, že některá z přispívajících dat mísí dětské rentgenové snímky hrudníku s rentgenovými snímky dospělých pacientů, a dále uvádí, že tato data jsou jediným „významným“ zdrojem dětských snímků u COVID-19.

Obrázky z datové sady RSNA mají také rozlišení 1024 × 1024, zatímco další přispívající datová sada poskytuje obrázky pouze v rozlišení 299 × 299. Vzhledem k tomu, že modely strojového učení budou vždy měnit velikost obrázků tak, aby se přizpůsobily dostupnému tréninkovému prostoru (latentnímu prostoru), znamená to, že obrázky 299×299 budou v tréninkovém pracovním postupu převzorkovány (potenciálně vedoucí k artefaktům souvisejícím spíše s algoritmem škálování než s patologií) a větší obrázky byly zmenšeny. Opět to zmírňuje homogenní datové standardy nezbytné pro analýzu počítačového vidění na bázi AI.

Data z ActMed získaná z programu COVIDx dále obsahují na rentgenových snímcích hrudníku s COVID-19 „diskovité markery“, což je opakující se rys, který je v rozporu s širším datovým souborem a který by musel být považován za „opakující se odlehlý údaj“.

Tento typ problému se obvykle řeší buď vyčištěním, nebo vynecháním dat, protože opakování markerů je dostatečné k tomu, aby se při trénování zaregistrovaly jako „rys“, ale ne dostatečně časté k tomu, aby se daly užitečně zobecnit v širším schématu datové sady. Bez mechanismu pro vyloučení vlivu umělých markerů by je metodologie systému strojového učení mohla potenciálně považovat za patologické jevy.

Školení a testování

Vědci testovali COVIDx na dvou srovnávacích souborech dat napříč třemi modely. Další dva soubory dat byly RICORD, který obsahuje 1096 rentgenových snímků hrudníku COVID-19 od 361 pacientů pocházejících ze čtyř zemí; a CheXpert, veřejný datový soubor

Tři použité modely byly COVID-Net, Čelenka si DarkCovidNet. Všechny tři modely využívají konvoluční neuronové sítě (CNN), ačkoli CoroNet sestává z dvoufázového procesu klasifikace obrazu s automatickými kodéry, které předávají výstup do klasifikátoru CNN.

Testování ukázalo „prudký pokles“ výkonu všech modelů na datových sadách jiných než COVIDx ve srovnání s 86% přesností, která je výsledkem použití dat COVIDx. Pokud jsou však data špatně označena nebo seskupena, jedná se v podstatě o falešné výsledky. Výzkumníci zaznamenali výrazně nižší přesnost výsledků na srovnatelných externích datových sadách, které článek navrhuje jako realističtější a správně klasifikovaná data.

Dále list uvádí:

„Klinický přehled 500 map významnosti grad-CAM generovaných predikcí na základě testovacích dat COVIDx ukázal trend významnosti u klinicky irelevantních znaků. To obvykle zahrnovalo zaměření na kostní struktury a měkké tkáně namísto difúzní bilaterální opacifikaci plicních polí, která je typická pro infekci COVID-19.“

Toto je rentgenový snímek potvrzeného případu COVID-19, kterému byla přiřazena pravděpodobnost předpovědi pouhých 0.938 z COVIDx trénovaného na DarkCovidNet. Zdroj: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Toto je rentgenový snímek potvrzeného případu COVID-19, kterému byla přiřazena pravděpodobnost předpovědi pouhých 0.938 z COVIDx trénovaného na DarkCovidNet.

Závěry

Výzkumníci kritizují nedostatek demografických nebo klinických údajů týkajících se rentgenových snímků u pacientů s COVID-19 a argumentují, že bez nich není možné zohlednit „matoucí faktory“, jako je věk.

Pozorují také, že problémy nalezené v datovém souboru COVIDx mohou být použitelné i na jiné datové soubory, které byly získány podobným způsobem (tj. smícháním databází radiologických snímků před COVID s aktuálními daty rentgenových snímků COVID bez adekvátní datové architektury, kompenzace rozptylu a jasného rozsahu omezení tohoto přístupu).

Při shrnutí nedostatků léčby COVID-19 vědci zdůrazňují jednostranné zahrnutí „čistých“ pediatrických rentgenových snímků, stejně jako své vnímání zneužití označení a vysokého rizika zkreslení a matení u pacientů s COVID-19, a tvrdí, že „…výjimečný výkon [z COVIDx] „...že... široce uváděné v celé problémové oblasti jsou nadsazené, že výsledky modelování jsou zkreslené a že modely se dobře nevztahují na klinicky realistická data.“

Zpráva uzavírá:

„Nedostatek dostupných nemocničních dat v kombinaci s nedostatečným hodnocením modelů v celé problematické oblasti umožnil použití dat z otevřených zdrojů k uvedení výzkumné komunity v omyl. Pokračující publikování nadsazených metrik výkonnosti modelů riskuje poškození důvěryhodnosti výzkumu umělé inteligence v lékařské diagnostice, zejména tam, kde je dané onemocnění ve velkém veřejném zájmu. Aby se tomu zabránilo, musí se zlepšit kvalita výzkumu v této oblasti, a to musí začít s daty.“

 

 

*Ačkoli výzkumníci studie tvrdí, že vytvořili data, soubory a kód pro nový dokument K dispozici on-line, přístup vyžaduje přihlášení a v době psaní tohoto článku není k souborům dostupný žádný obecný veřejný přístup.
** ChestX-ray8: Rentgenová databáze hrudníku v nemocničním měřítku a benchmarky klasifikace a lokalizace běžných onemocnění hrudníku pod slabým dohledem –
https://arxiv.org/pdf/1705.02315.pdf