Terveydenhuolto
Iso-Britannian tutkijoiden arvostelema suosittu COVIDx-tietojoukko

Brittiläinen tutkimuskonsortio on esittänyt kritiikkiä siitä, kuinka vähän tieteellistä luottamusta COVID-19-potilaiden rintakehän röntgenkuvien konenäköön perustuvaan analyysiin käytettyihin avoimen lähdekoodin aineistoihin suhtaudutaan. Kritiikki keskittyy suosittuun avoimen lähdekoodin COVIDx-aineistoon.
Tutkijat, jotka testasivat COVIDx:ää useissa tekoälykoulutusmalleissa, väittävät, että se "ei edusta todellista kliinistä ongelmaa", että sillä saadut tulokset ovat "liioiteltuja" ja että mallit "eivät yleisty hyvin" reaalimaailman dataan.
Kirjoittajat panevat myös merkille COVIDx:n muodostavien lisättyjen tietojen epäjohdonmukaisuuden, jossa alkuperäiset kuvat tulevat eri resoluutioilla, jotka syväoppimisen työnkulku muotoillaan automaattisesti uudelleen koulutusta varten tarvittaviin yhdenmukaisiin kokoihin, ja huomauttavat, että tämä prosessi voi tuoda mukanaan petollisia esineitä. liittyvät kuvan koonmuutosalgoritmiin eikä tietojen kliiniseen näkökohtaan.
- paperi kutsutaan Avoimen datan käytön sudenkuopat syväoppimisratkaisujen kehittämiseen COVID-19:n havaitsemiseen rintakehän röntgensäteissä, ja se on Leedsin yliopiston Biolääketieteen Center for Computational Imaging & Simulation in Biomedicine (CISTIB) yhteistyö yhdessä viiden muun saman kaupungin organisaation tutkijoiden kanssa, mukaan lukien Leeds Teaching Hospitals NHS Trust.
Tutkimuksessa mainitaan muiden negatiivisten käytäntöjen ohella COVIDx-aineistossa esiintyvä ”tunnisteiden väärinkäyttö” sekä ”korkea harhan ja sekaannusten riski”. Tutkijoiden omat kokeet, joissa he testasivat aineistoa kolmessa toimivassa syväoppimismallissa, saivat heidät päättelemään, että "ongelma-alueella laajalti raportoitu poikkeuksellinen suorituskyky on liioiteltu, mallien suorituskykytulokset esitetään väärin ja mallit eivät yleisty hyvin kliinisesti realistiseen dataan."
Viisi vastakkaista tietojoukkoa yhdessä
Raportissa* todetaan, että suurin osa nykyisistä tekoälypohjaisista menetelmistä tällä alalla perustuu "heterogeeniseen" kokoelmaan dataa erilaisista avoimen lähdekoodin tietovarastoista, ja havaitaan, että COVIDx-datajoukkoon on koottu viisi huomattavasti erilaista datajoukkoa, vaikka (tutkijoiden mielestä) datan laatu ja tyyppi eivät ole riittävästi tasapainossa.
COVIDx-tietojoukko oli julkaistu toukokuussa 2020 Kanadan Waterloon yliopiston järjestelmäsuunnittelun laitoksen johtamana konsortiotyönä. tehty saatavaksi osana COVID-Net Open Source Initiativea.
Viisi kokoelmaa, jotka muodostavat COVIDxin, ovat: COVID-19 Kuvan tietojen kerääminen (an avoin sarja Montrealin tutkijoilta); COVID-19-rintakehän röntgentietoaineisto aloite; todellinen COVID-19-rintakehän röntgenkuva aineisto; COVID-19-radiografia tietokanta; ja RSNA Pneumonia Detection Challenge aineisto, yksi monista pre-COVID-sarjoista, jotka on otettu käyttöön pandemiakriisin vuoksi.
(RICORD – katso alla – on sittemmin lisätty COVIDx:ään, mutta koska se otettiin mukaan tutkimukseen kiinnostavien mallien jälkeen, se jätettiin pois testitiedoista, ja sillä on joka tapauksessa ollut taipumus monipuolistaa COVIDx:ää entisestään, mikä on tutkimuksen tekijöiden keskeinen valitus.)
Tutkijat väittävät, että COVIDx on "suurin ja laajimmin käytetty" tiedeyhteisössä on laatuaan COVID-tutkimukseen liittyvä aineisto, ja että COVIDx-järjestelmään sen ulkoisista aineistoista tuotu data ei ole riittävän samanlainen kuin COVIDx-aineiston kolmijakoinen rakenne (eli 'normaali', 'keuhkokuume' ja 'COVID-19').
Lähellä tarpeeksi..?
Tutkiessaan COVID-19-tutkimuksen ajankohtana käytettyjen COVID-19-aineistojen alkuperää ja soveltuvuutta tutkijat havaitsivat RSNA-datan "väärinkäyttöä", jossa yhden tyyppiset tiedot on tutkijoiden mukaan luokiteltu toiseen luokkaan:
"RSNA-arkisto, joka käyttää julkisesti saatavilla olevia rintakehän röntgentietoja NIH Chestx-ray8:sta [**], on suunniteltu segmentointitehtävää varten, ja se sisältää sellaisenaan kolme kuvaluokkaa, "Lung Opacity", "No Lung Opacity/Not Normal" ja "Normaali", ja "Lung Opacity" -tapauksia varten on saatavana rajoitusruudut.
"COVIDx-tietokantaan koottaessa kaikki keuhkoröntgenkuvat luokasta 'Keuhkojen samentuminen' luetaan keuhkokuumeluokkaan."
Artikkelissa väitetään, että COVIDx-metodologia laajentaa käytännössä 'keuhkokuumeen' määritelmää kattamaan 'kaikki keuhkokuumeen kaltaiset keuhkosamentumat'. Tämän seurauksena vertailukelpoisten tietotyyppien vertailukelpoisuus on (oletettavasti) uhattuna. Tutkijat toteavat:
"[…] COVIDx-tietokannan keuhkokuumeluokka sisältää rintakehän röntgenkuvia sekä monia muita patologioita, kuten pleuraeffuusiota, infiltraatiota, konsolidaatiota, emfyseemaa ja massoja. Konsolidaatio on mahdollisen keuhkokuumeen radiologinen piirre, ei kliininen diagnoosi. Konsolidaation käyttäminen keuhkokuumeen korvikkeena ilman tämän dokumentointia on mahdollisesti harhaanjohtavaa."

Vaihtoehtoiset sairaudet (paitsi COVID-19), jotka liittyvät COVIDx:ään. Lähde: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf
Raportissa todetaan, että vain 6.13 % RSNA:sta hankituista 4,305 265 keuhkokuumetapauksesta oli merkitty tarkasti, mikä edustaa vain XNUMX:tä aitoa keuhkokuumetapausta.
Lisäksi monet COVIDx:n sisältämät muut kuin keuhkokuumetapaukset edustivat rinnakkaissairauksia – muiden sairauksien komplikaatioita tai muuten toissijaisia lääketieteellisiä ongelmia olosuhteissa, jotka eivät välttämättä liity keuhkokuumeeseen.
Ei 'normaali'
Raportissa esitetään lisäksi, että RSNA-haasteaineiston vaikutus COVIDx-tapahtumiin on vääristänyt datan empiiristä vakautta. Tutkijat havaitsevat, että COVIDx priorisoi RSNA-datan "normaalia" luokkaa, sulkien tehokkaasti pois kaikki "ei keuhkosamentumista/ei normaalia" -luokat laajemmasta aineistosta. Artikkelissa todetaan:
"Vaikka tämä on sopusoinnussa "normaalin" merkinnän kanssa, keuhkokuumeluokan laajentaminen ja vain "normaalin" rintakehän röntgenkuvan käyttäminen keuhkokuume-negatiivisten tapausten sijaan yksinkertaistaa luokittelutehtävää huomattavasti.
"Lopputuloksena on datajoukko, joka heijastaa tehtävää, joka on irrotettu todellisesta kliinisestä ongelmasta."
Yhteensopimattomien tietostandardien mahdolliset poikkeamat
Artikkelissa havaitaan useita muita COVIDx-tilanteeseen liittyviä vinoumia ja todetaan, että joissakin aineistoissa sekoitetaan lasten rintakehän röntgenkuvia aikuisten potilaiden röntgenkuviin. Lisäksi artikkelissa todetaan, että nämä tiedot ovat ainoa "merkittävä" lasten COVIDx-kuvien lähde.
Lisäksi RSNA-tietojoukon kuvilla on 1024 × 1024 -resoluutio, kun taas toinen tietojoukko tarjoaa kuvia vain 299 × 299 -resoluutiolla. Koska koneoppimismallit muuttavat poikkeuksetta kuvien kokoa käytettävissä olevan harjoitustilan (piilevän tilan) mukaan, tämä tarkoittaa, että 299 × 299 -kuvat skaalataan koulutustyönkulussa (joka saattaa johtaa artefakteihin, jotka liittyvät skaalausalgoritmiin patologian sijaan), ja isommat kuvat pienennetty. Tämä taas lieventää tekoälypohjaiseen tietokonenäköanalyysiin tarvittavia homogeenisia tietostandardeja.
Lisäksi COVIDx-järjestelmään syötetyssä ActMed-datassa on COVID-19-keuhkoröntgenkuvissa ”levymäisiä markkereita”. Tämä toistuva ominaisuus on ristiriidassa laajemman aineiston kanssa ja sitä olisi käsiteltävä ”toistuvana poikkeamana”.
Tämänkaltainen ongelma yleensä ratkaistaan joko puhdistamalla tai jättämällä pois data, koska markkereiden toistuminen riittää rekisteröidäkseen ne "ominaisuudeksi" harjoittelussa, mutta ei riittävän usein, jotta niitä voitaisiin yleistää hyödyllisesti datajoukon laajemmassa kaaviossa. Ilman mekanismia, jolla keinotekoisten markkereiden vaikutus voidaan sulkea pois, koneoppimisjärjestelmän metodologia voisi mahdollisesti pitää niitä patologisina ilmiöinä.
Koulutus ja testaus
Tutkijat testasivat COVIDx:ää kahdella vertailevalla tietojoukolla kolmessa mallissa. Kaksi ylimääräistä tietojoukkoa olivat RICORD, joka sisältää 1096 COVID-19-rintakehän röntgenkuvaa 361 potilaalta, hankittu neljästä maasta; ja CheXpert, julkinen tietojoukko
Kolme käytettyä mallia olivat COVID-Net, CoroNet ja DarkCovidNet. Kaikissa kolmessa mallissa käytetään konvoluutiohermoverkkoja (CNN), vaikka CoroNet koostuu kaksivaiheisesta kuvan luokitteluprosessista, jossa autoenkooderit välittävät lähdön CNN-luokittimelle.
Testit osoittivat kaikkien mallien suorituskyvyn laskeneen jyrkästi muissa kuin COVIDx-datajoukoissa verrattuna COVIDx-dataa käytettäessä saavutettuun 86 %:n tarkkuuteen. Jos data on kuitenkin väärin nimetty tai ryhmitelty, nämä ovat käytännössä vääriä tuloksia. Tutkijat havaitsivat huomattavasti heikentyneitä tarkkuustuloksia vastaavissa ulkoisissa datajoukoissa, joita artikkelissa esitetään realistisemmiksi ja oikein luokitelluiksi dataksi.
Lisäksi lehti huomauttaa:
"COVIDx-testidatan ennusteiden avulla luotujen 500 grad-CAM-merkittävyyskartan kliininen katsaus osoitti merkitsevän trendin kliinisesti merkityksettömissä ominaisuuksissa. Tähän sisältyi yleisesti keskittyminen luisiin rakenteisiin ja pehmytkudoksiin sen sijaan, että havaittaisiin COVID-19-infektiolle tyypillistä diffuusia kahdenvälistä keuhkokenttien samentumista."

Tämä on röntgenkuva vahvistetusta COVID-19-tapauksesta, jonka ennustetodennäköisyys on vain 0.938 DarkCovidNetissä koulutetusta COVIDx:sta.
Päätelmät
Tutkijat kritisoivat COVIDx-röntgenkuviin liittyvien demografisten tai kliinisten tietojen puutetta ja väittävät, että ilman näitä on mahdotonta ottaa huomioon "häiritseviä tekijöitä", kuten ikää.
He huomauttavat myös, että COVIDx-tietojoukosta löydetyt ongelmat voivat koskea muita tietojoukkoja, jotka on peräisin samalla tavalla (eli sekoittamalla COVID-a edeltäviä radiologisten kuvien tietokantoja uusimpiin COVID-röntgenkuvatietoihin ilman riittävää tietoarkkitehtuuria, varianssikompensaatiota ja selkeää laajuutta. tämän lähestymistavan rajoituksista).
Yhteenvetona COVIDx-tutkimuksen puutteista tutkijat korostavat "selkeiden" lasten röntgenkuvien epätasaista sisällyttämistä tutkimukseen sekä käsitystään merkintöjen väärinkäytöstä ja suuresta harhan ja sekaannusten riskistä COVIDx-tutkimuksessa. He väittävät, että "poikkeuksellinen suorituskyky [COVIDx:sta] ongelma-alueella laajalti raportoitu on liioiteltu, mallien suorituskykytulokset esitetään väärin ja mallit eivät yleisty hyvin kliinisesti realistiseen dataan.
Raportin lopussa:
"Saatavilla olevan sairaaladatan puute yhdistettynä riittämättömään mallien arviointiin ongelma-alueella on mahdollistanut avoimen lähdekoodin datan käytön tutkimusyhteisön harhaanjohtamiseksi. Liioiteltujen mallien suorituskykymittareiden jatkuva julkaiseminen uhkaa vahingoittaa tekoälytutkimuksen luotettavuutta lääketieteellisessä diagnostiikassa, erityisesti silloin, kun sairaus on erittäin yleisen mielenkiinnon kohteena. Tämän alan tutkimuksen laatua on parannettava, jotta näin ei tapahdu, ja tämän on aloitettava datasta."
*Vaikka tutkimuksen tutkijat väittävät tehneensä tiedot, tiedostot ja koodin uutta paperia varten saatavilla verkossa, pääsy edellyttää kirjautumista, ja tätä kirjoitettaessa tiedostoihin ei ole saatavilla yleistä julkista pääsyä.
** ChestX-ray8: Sairaalatason rintakehän röntgentietokanta ja yleisten rintakehän sairauksien heikosti valvotun luokituksen ja lokalisoinnin vertailuarvot – https://arxiv.org/pdf/1705.02315.pdf