Terveydenhuolto

Iso-Britannian tutkijoiden arvostelema suosittu COVIDx-tietojoukko

Julkaistu

3 vuotta sitten

Syyskuu 22, 2021

Yhdistyneestä kuningaskunnasta peräisin oleva tutkimuskonsortio on arvostellut tieteellistä luottamusta avoimen lähdekoodin tietokokonaisuuksiin, joita käytetään COVID-19-potilaiden rintakehän röntgensäteiden tietokonenäköön perustuvassa analyysissä, keskittyen suosittuun avoimen lähdekoodin tietoaineistoon COVIDx.

Tutkijat testattuaan COVIDx:ää erilaisissa tekoälyn harjoitusmalleissa väittävät, että se "ei edusta todellista kliinistä ongelmaa", että sen avulla saadut tulokset ovat "paisutettuja" ja että mallit "eivät yleisty hyvin" todellisiin. maailman dataa.

Kirjoittajat panevat myös merkille COVIDx:n muodostavien lisättyjen tietojen epäjohdonmukaisuuden, jossa alkuperäiset kuvat tulevat eri resoluutioilla, jotka syväoppimisen työnkulku muotoillaan automaattisesti uudelleen koulutusta varten tarvittaviin yhdenmukaisiin kokoihin, ja huomauttavat, että tämä prosessi voi tuoda mukanaan petollisia esineitä. liittyvät kuvan koonmuutosalgoritmiin eikä tietojen kliiniseen näkökohtaan.

- paperi kutsutaan Avoimen datan käytön sudenkuopat syväoppimisratkaisujen kehittämiseen COVID-19:n havaitsemiseen rintakehän röntgensäteissä, ja se on Leedsin yliopiston Biolääketieteen Center for Computational Imaging & Simulation in Biomedicine (CISTIB) yhteistyö yhdessä viiden muun saman kaupungin organisaation tutkijoiden kanssa, mukaan lukien Leeds Teaching Hospitals NHS Trust.

Tutkimuksessa käsitellään muiden kielteisten käytäntöjen ohella COVIDx-tietojoukon "etikettien väärinkäyttöä" sekä "korkeaa harhan ja hämmennyksen riskiä". Tutkijoiden omat kokeet aineiston saattamiseksi läpi kolmessa elinkelpoisessa syväoppimismallissa saivat heidät päättelemään, että "Poikkeuksellinen suorituskyky, josta on raportoitu laajalti ongelma-alueella, on liioiteltu, mallien suorituskyvyn tulokset esitetään väärin ja mallit eivät yleisty hyvin kliinisesti realistisiin tietoihin."

Viisi vastakkaista tietojoukkoa yhdessä

Raportissa* todetaan, että suurin osa tämän alan nykyisistä tekoälyyn perustuvista menetelmistä riippuu "heterogeenisesta" datavalikoimasta erilaisista avoimen lähdekoodin tietovarastoista, ja havaitaan, että viisi tietojoukkoa, joilla on huomattavasti erilaiset ominaisuudet, on koottu COVIDx-tietoaineistoon huolimatta tutkijoiden huomio) tiedon laadun ja tyypin riittämätön pariteetti.

COVIDx-tietojoukko oli julkaistu toukokuussa 2020 Kanadan Waterloon yliopiston järjestelmäsuunnittelun laitoksen johtamana konsortiotyönä. tehty saatavaksi osana COVID-Net Open Source Initiativea.

Viisi kokoelmaa, jotka muodostavat COVIDxin, ovat: COVID-19 Kuvan tietojen kerääminen (an avoin sarja Montrealin tutkijoilta); COVID-19-rintakehän röntgentietoaineisto aloite; todellinen COVID-19-rintakehän röntgenkuva aineisto; COVID-19-radiografia tietokanta; ja RSNA Pneumonia Detection Challenge aineisto, yksi monista pre-COVID-sarjoista, jotka on otettu käyttöön pandemiakriisin vuoksi.

(RICORD – katso alla – on sittemmin lisätty COVIDx:ään, mutta koska se otettiin mukaan tutkimukseen kiinnostavien mallien jälkeen, se jätettiin pois testitiedoista, ja sillä on joka tapauksessa ollut taipumus monipuolistaa COVIDx:ää entisestään, mikä on tutkimuksen tekijöiden keskeinen valitus.)

Tutkijat väittävät, että COVIDx on "suurin ja eniten käytetty" lajissaan COVID-tutkimukseen liittyvä tietojoukko tiedeyhteisössä ja että COVIDx:ään tuodut tiedot ulkoisista ainesosista eivät ole riittävästi COVIDx-tietojoukon kolmikantaskeeman mukaisia (eli "normaali", "keuhkokuume" ja " COVID 19').

Lähellä tarpeeksi..?

Tutkiessaan COVIDx:n syntyä ja soveltuvuutta COVIDx-tautiin tutkimuksen aikana, tutkijat havaitsivat RSNA-tietojen "väärinkäytön", jossa yhden tyyppiset tiedot on tutkijoiden mukaan koottu eri luokkaan:

"RSNA-arkisto, joka käyttää julkisesti saatavilla olevia rintakehän röntgentietoja NIH Chestx-ray8:sta [**], on suunniteltu segmentointitehtävää varten, ja se sisältää sellaisenaan kolme kuvaluokkaa, "Lung Opacity", "No Lung Opacity/Not Normal" ja "Normaali", ja "Lung Opacity" -tapauksia varten on saatavana rajoitusruudut.

"COVIDx-kokoelmassa kaikki "keuhkojen sameus" -luokan rintakehän röntgenkuvat sisältyvät keuhkokuumeluokkaan.

Paperi väittää, että COVIDx-metodologia laajentaa "keuhkokuumeen" määritelmän kattamaan "kaikki keuhkokuumeen kaltaiset keuhkojen sameudet". Näin ollen vertailevien tietotyyppien samankaltainen arvo on (oletettavasti) uhattuna. Tutkijat toteavat:

' […] COVIDx-tietojoukon keuhkokuumeluokka sisältää keuhkojen röntgensäteitä sekä monia muita sairauksia, mukaan lukien keuhkopussin effuusio, infiltraatio, konsolidaatio, emfyseema ja massat. Konsolidaatio on mahdollisen keuhkokuumeen radiologinen piirre, ei kliininen diagnoosi. Konsolidoinnin käyttäminen keuhkokuumeen korvikkeena dokumentoimatta tätä on mahdollisesti harhaanjohtavaa.

Vaihtoehtoiset sairaudet (paitsi COVID-19), jotka liittyvät COVIDx:ään. Lähde: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Raportissa todetaan, että vain 6.13 % RSNA:sta hankituista 4,305 265 keuhkokuumetapauksesta oli merkitty tarkasti, mikä edustaa vain XNUMX:tä aitoa keuhkokuumetapausta.

Lisäksi monet COVIDx:n sisältämät muut kuin keuhkokuumetapaukset edustivat rinnakkaissairauksia – muiden sairauksien komplikaatioita tai muuten toissijaisia lääketieteellisiä ongelmia olosuhteissa, jotka eivät välttämättä liity keuhkokuumeeseen.

Epänormaali'

Raportti ehdottaa lisäksi, että RSNA-haastetietojoukon vaikutus COVIDx:ään on vääristänyt tietojen empiiristä vakautta. Tutkijat havaitsevat, että COVIDx priorisoi RSNA-tietojen "normaalia" luokkaa ja sulkee tehokkaasti pois kaikki "ei keuhkojen opasiteetti/ei normaali" -luokat laajemmasta tietojoukosta. Lehti sanoo:

"Vaikka tämä on sopusoinnussa "normaalin" merkinnän kanssa, keuhkokuumeluokan laajentaminen ja vain "normaalin" rintakehän röntgenkuvan käyttäminen keuhkokuume-negatiivisten tapausten sijaan yksinkertaistaa luokittelutehtävää huomattavasti.

"Tämän lopputulos on tietojoukko, joka kuvastaa tehtävää, joka on poistettu todellisesta kliinisestä ongelmasta."

Yhteensopimattomien tietostandardien mahdolliset poikkeamat

Asiakirjassa havaitaan useita muita COVIDx-häiriön tyyppejä ja huomautetaan, että osassa tiedoista sekoittuu lasten rintakehän röntgenkuvat aikuisten potilaiden röntgenkuviin, ja lisäksi huomautetaan, että nämä tiedot ovat ainoa "merkittävä" lähde lasten kuvat COVIDxissa.

Lisäksi RSNA-tietojoukon kuvilla on 1024 × 1024 -resoluutio, kun taas toinen tietojoukko tarjoaa kuvia vain 299 × 299 -resoluutiolla. Koska koneoppimismallit muuttavat poikkeuksetta kuvien kokoa käytettävissä olevan harjoitustilan (piilevän tilan) mukaan, tämä tarkoittaa, että 299 × 299 -kuvat skaalataan koulutustyönkulussa (joka saattaa johtaa artefakteihin, jotka liittyvät skaalausalgoritmiin patologian sijaan), ja isommat kuvat pienennetty. Tämä taas lieventää tekoälypohjaiseen tietokonenäköanalyysiin tarvittavia homogeenisia tietostandardeja.

Lisäksi COVIDx:iin syötetyt ActMed-tiedot sisältävät "levyn muotoisia merkkejä" COVID-19-rintakehän röntgensäteissä, toistuva ominaisuus, joka on ristiriidassa laajemman tietojoukon kanssa ja jota olisi käsiteltävä "toistuvana poikkeavana arvona".

Tämä on sellainen ongelma, joka yleensä ratkaistaan joko puhdistamalla tai jättämällä pois tiedot, koska merkkien toistuminen riittää rekisteröitymään "ominaisuus" koulutuksessa, mutta ei tarpeeksi usein yleistääkseen hyödyllisesti tietojoukon laajemmassa järjestelmässä. . Ilman mekanismia keinotekoisten markkerien vaikutuksen vähentämiseksi niitä voitaisiin mahdollisesti pitää koneoppimisjärjestelmän metodologiassa patologisina ilmiöinä.

Koulutus ja testaus

Tutkijat testasivat COVIDx:ää kahdella vertailevalla tietojoukolla kolmessa mallissa. Kaksi ylimääräistä tietojoukkoa olivat RICORD, joka sisältää 1096 COVID-19-rintakehän röntgenkuvaa 361 potilaalta, hankittu neljästä maasta; ja CheXpert, julkinen tietojoukko

Kolme käytettyä mallia olivat COVID-Net, CoroNet ja DarkCovidNet. Kaikissa kolmessa mallissa käytetään konvoluutiohermoverkkoja (CNN), vaikka CoroNet koostuu kaksivaiheisesta kuvan luokitteluprosessista, jossa autoenkooderit välittävät lähdön CNN-luokittimelle.

Testaus osoitti kaikkien mallien suorituskyvyn "jyrkän pudotuksen" muilla kuin COVIDx-datajoukoilla verrattuna 86 %:n tarkkuuteen, joka saadaan käytettäessä COVIDx-tietoja. Jos tiedot on kuitenkin merkitty väärin tai ryhmitelty väärin, nämä ovat käytännössä vääriä tuloksia. Tutkijat panivat merkille, että vertailukelpoisten ulkoisten tietojoukkojen tarkkuustulokset ovat heikentyneet, joita paperi ehdottaa realistisemmiksi ja oikein luokitelluiksi tiedoiksi.

Lisäksi lehti huomauttaa:

"500 grad-CAM-ilmiökartan kliininen tarkastelu, joka oli luotu COVIDx-testitietojen ennustamisen perusteella, osoitti kliinisesti merkityksettömien ominaisuuksien trendin, jolla on merkitystä. Tämä sisälsi yleensä keskittymisen luisiin rakenteisiin ja pehmytkudoksiin COVID-19-infektiolle tyypillisen keuhkokenttien diffuusisen kahdenvälisen samentumisen sijaan.

Tämä on röntgenkuva vahvistetusta COVID-19-tapauksesta, jonka ennustetodennäköisyys on vain 0.938 DarkCovidNetissä koulutetusta COVIDx:sta.

Päätelmät

Tutkijat arvostelevat COVIDx:n röntgenkuviin liittyvien demografisten tai kliinisten tietojen puutetta ja väittävät, että ilman niitä on mahdotonta ottaa huomioon "sekoittavia tekijöitä", kuten ikää.

He huomauttavat myös, että COVIDx-tietojoukosta löydetyt ongelmat voivat koskea muita tietojoukkoja, jotka on peräisin samalla tavalla (eli sekoittamalla COVID-a edeltäviä radiologisten kuvien tietokantoja uusimpiin COVID-röntgenkuvatietoihin ilman riittävää tietoarkkitehtuuria, varianssikompensaatiota ja selkeää laajuutta. tämän lähestymistavan rajoituksista).

Yhteenvetona COVIDx:n puutteista tutkijat korostavat "selkeiden" lasten röntgensäteiden ristiriitaista sisällyttämistä, samoin kuin heidän käsityksensä merkintöjen väärinkäytöstä ja suuresta ennakkoluulojen ja hämmennyksen riskistä COVIDx:ssä, väittäen, että "poikkeuksellinen suorituskyky [COVIDx:sta] laajalti raportoitu ongelma-alue on liioiteltu, että mallien suorituskykytulokset esitetään väärin ja että mallit eivät yleisty hyvin kliinisesti realistisiin tietoihin.

Raportin lopussa:

"Käytettävissä olevien sairaalatietojen puute yhdistettynä riittämättömään mallien arviointiin ongelma-alueella on mahdollistanut avoimen lähdekoodin tietojen käytön tutkimusyhteisön harhaanjohtamiseen. Paisuneiden mallien suorituskykymittareiden jatkuva julkaiseminen vaarantaa tekoälytutkimuksen luotettavuuden lääketieteellisessä diagnostiikassa, erityisesti silloin, kun sairaus on suuren yleisen edun kohteena. Tämän alan tutkimuksen laatua on parannettava, jotta näin ei tapahdu. Tämä on aloitettava tiedoista.

*Vaikka tutkimuksen tutkijat väittävät tehneensä tiedot, tiedostot ja koodin uutta paperia varten saatavilla verkossa, pääsy edellyttää kirjautumista, ja tätä kirjoitettaessa tiedostoihin ei ole saatavilla yleistä julkista pääsyä.
** ChestX-ray8: Sairaalatason rintakehän röntgentietokanta ja yleisten rintakehän sairauksien heikosti valvotun luokituksen ja lokalisoinnin vertailuarvot – https://arxiv.org/pdf/1705.02315.pdf

Seuraavaksi

Synteettiset tiedot eivät luotettavasti suojaa yksityisyyttä, väittävät tutkijat

Älä missaa

Insinöörit luovat bionisen käsivarren, joka palauttaa potilaiden luonnollisen käyttäytymisen

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai

Unite.AI

Iso-Britannian tutkijoiden arvostelema suosittu COVIDx-tietojoukko

Terveydenhuolto