csonk Az Egyesült Királyság kutatói által bírált népszerű COVIDx-adatkészlet - Unite.AI
Kapcsolatba velünk

Egészségügy

Az Egyesült Királyság kutatói által bírált népszerű COVIDx-adatkészlet

mm

Közzététel:

 on

Egy brit kutatókonzorcium kritikát fogalmazott meg a COVID-19-betegek mellkasröntgenfelvételeinek számítógépes látásalapú elemzéséhez használt nyílt forráskódú adatkészletekbe vetett tudományos bizalom mértékét illetően, különös tekintettel a népszerű, nyílt forráskódú COVIDx adatkészletre.

A kutatók, miután a COVIDx-et különböző mesterséges intelligencia-képzési modellekben tesztelték, azt állítják, hogy „nem reprezentálja a valódi klinikai problémát”, a használatával kapott eredmények „felfújtak”, és a modellek „nem általánosíthatók jól” a valósra. világadatok.

A szerzők felhívják a figyelmet a COVIDx-et alkotó adatok következetlenségére is, ahol az eredeti képek különböző felbontásban jelennek meg, amelyeket a mély tanulási munkafolyamat automatikusan újraformáz a képzéshez szükséges konzisztens méretekre, és megfigyelik, hogy ez a folyamat megtévesztő műtermékeket vezethet be. inkább a képméret-átméretező algoritmusra vonatkozik, mint az adatok klinikai vonatkozására.

A papír nak, nek hívják A nyílt adatok használatának buktatói mély tanulási megoldások kifejlesztésére a COVID-19 kimutatására mellkasröntgenben, és a Leedsi Egyetem Számítógépes Képalkotó és Szimulációs Központja (CISTIB) együttműködése a Leedsi Egyetemen található öt másik szervezet kutatóival együtt, köztük a Leeds Teaching Hospitals NHS Trust.

A kutatás részletezi az egyéb negatív gyakorlatok mellett a COVIDx-adatkészletben szereplő „címkékkel való visszaélést”, valamint „az elfogultság és a zavarás nagy kockázatát”. A kutatók saját kísérletei, amelyek során az adatkészletet három életképes mély tanulási modellen keresztül vitték végig, arra a következtetésre késztették őket, hogy „A problémakörben széles körben jelentett kivételes teljesítmény túlzott mértékű, a modell teljesítményének eredményei félre vannak ábrázolva, és a modellek nem általánosíthatók megfelelően klinikailag valósághű adatokra.”

Öt kontrasztos adatkészlet egyben

A jelentés* megjegyzi, hogy a jelenlegi mesterségesintelligencia-alapú módszerek többsége ezen a területen a különböző nyílt forráskódú adattárakból származó adatok „heterogén” választékán múlik, és megfigyelhető, hogy öt, jelentősen eltérő jellemzőkkel rendelkező adatkészlet került a COVIDx-adatkészletbe annak ellenére, hogy (a a kutatók figyelme) az adatok minőségének és típusának nem megfelelő paritása.

A COVIDx adatkészlet az volt felszabaduló 2020 májusában a kanadai Waterloo Egyetem Rendszertervezési Tanszéke által vezetett konzorciumi erőfeszítésként, az adatokkal rendelkezésre áll a COVID-Net nyílt forráskódú kezdeményezés részeként.

A COVIDx-et alkotó öt gyűjtemény a következő: COVID-19 Képes adatgyűjtés (egy nyílt forrású montreali kutatók sorozata); a COVID-19 mellkasröntgen adatkészlet kezdeményezés; az aktuális COVID-19 mellkasröntgen adatbázisba; a COVID-19 radiográfia adatbázis; és az RSNA Pneumonia Detection Challenge adatbázisba, egyike annak a sok COVID előtti készletnek, amelyeket a világjárvány miatt üzembe helyeztek.

(A RICORD – lásd alább – azóta bekerült a COVIDx-be, de mivel a tanulmányban szereplő modellek után került bele, kikerült a tesztadatokból, és mindenesetre hajlamos volt még tovább variálni a COVIDx-et, ami a tanulmány szerzőinek központi panasza.)

A kutatók azt állítják, hogy a COVIDx a "legnagyobb és legszélesebb körben használt" a COVID-kutatással kapcsolatos tudományos közösségen belüli ilyen jellegű adatkészlet, és az alkotó külső adatkészletekből a COVIDx-be importált adatok nem felelnek meg megfelelően a COVIDx adatkészlet háromoldalú sémájának (azaz „normál”, „tüdőgyulladás” és „ COVID 19').

Közel elég..?

A COVIDx-hez hozzájáruló adatkészletek eredetének és alkalmasságának vizsgálatakor a kutatók az RSNA adatokkal való „visszaélést” találtak, ahol a kutatók szerint az egyik típusú adatokat egy másik kategóriába sorolták:

„Az RSNA adattár, amely a NIH Chestx-ray8 nyilvánosan elérhető mellkasröntgen-adatait használja [**], szegmentálási feladathoz készült, és mint ilyen, három képosztályt tartalmaz: „Tüdőhomály”, „Nincs tüdő homály/nem normális” és „Normál”, határolókeretekkel a „Tüdőhomály” esetekhez.

„A COVIDx-be való összeállításában a „Lung Opacity” osztályból származó összes mellkasröntgen a tüdőgyulladás osztályába tartozik.

A tanulmány szerint a COVIDx módszertan a „tüdőgyulladás” definícióját kiterjeszti „minden tüdőgyulladáshoz hasonló tüdő homályosságra”. Ebből következően az összehasonlító adattípusok hasonló értéke (feltehetően) veszélybe kerül. A kutatók kijelentik:

[…] a COVIDx-adatkészletben a tüdőgyulladás osztálya mellkasröntgenfelvételeket tartalmaz számos egyéb patológiával, beleértve a pleurális folyadékgyülemet, infiltrációt, konszolidációt, tüdőtágulást és tömegeket. A konszolidáció az esetleges tüdőgyulladás radiológiai jellemzője, nem klinikai diagnózis. A konszolidáció alkalmazása a tüdőgyulladás helyettesítésére anélkül, hogy ezt dokumentálnák, félrevezető lehet.

A COVIDx-hez kapcsolódó alternatív patológiák (a COVID-19-en kívül).

A COVIDx-hez kapcsolódó alternatív patológiák (a COVID-19-en kívül). Forrás: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

A jelentés megállapítja, hogy az RSNA-ból származó 6.13 tüdőgyulladásos esetnek csak 4,305%-a volt pontosan megjelölve, ami mindössze 265 valódi tüdőgyulladásos esetet jelent.

Ezenkívül a COVIDx-be bevont nem tüdőgyulladásos esetek közül sok társbetegséget – más betegségek szövődményeit, vagy másodlagos egészségügyi problémákat jelentett olyan állapotokban, amelyek nem feltétlenül kapcsolódnak a tüdőgyulladáshoz.

Nem normális'

A jelentés továbbá azt sugallja, hogy az RSNA kihívás adatkészletének hatása a COVIDx-ben torzította az adatok empirikus stabilitását. A kutatók megfigyelik, hogy a COVIDx az RSNA adatok „normál” osztályát részesíti előnyben, gyakorlatilag kizárva a „nincs tüdő opacitás/nem normális” osztályt a szélesebb adatkészletből. A lap ezt írja:

„Bár ez összhangban van azzal, amit a „normál” címkén belül elvárnak, a tüdőgyulladás osztályának kiterjesztése és a tüdőgyulladás-negatív esetek helyett csak „normál” mellkasröntgen alkalmazása nagyban leegyszerűsíti az osztályozási feladatot.

"Ennek végeredménye egy olyan adatkészlet, amely egy olyan feladatot tükröz, amely eltávolítja a valódi klinikai problémát."

Nem kompatibilis adatszabványokból eredő lehetséges torzítások

A tanulmány számos más típusú torzítást is feltár a COVIDx-ben, megjegyezve, hogy a hozzájáruló adatok egy része keveri a gyermekkori mellkasröntgenfelvételeket felnőtt betegek röntgenfelvételeivel, és megjegyzi továbbá, hogy ez az adat az egyetlen „jelentős” forrás gyermekgyógyászati ​​képek a COVIDx-ben.

Ezenkívül az RSNA-adatkészletből származó képek 1024 × 1024-es felbontásúak, míg egy másik adatkészlet csak 299 × 299-es felbontást biztosít. Mivel a gépi tanulási modellek mindig átméretezik a képeket, hogy hozzáférjenek a rendelkezésre álló képzési területhez (látens tér), ez azt jelenti, hogy a 299 × 299-es képek fel lesznek méretezve a képzési munkafolyamat során (ez potenciálisan skálázási algoritmushoz, nem pedig patológiához kapcsolódó műtermékekhez vezethet), és a nagyobb képek kicsinyítettek. Ez ismét csökkenti az AI-alapú számítógépes látáselemzéshez szükséges homogén adatszabványokat.

Ezenkívül a COVIDx-be bevitt ActMed-adatok „korong alakú markereket” tartalmaznak a COVID-19 mellkasröntgenfelvételekben, amely egy olyan visszatérő jellemző, amely nincs összhangban a szélesebb adatkészlettel, és amelyet „ismétlődő kiugró értékként” kellene kezelni.

Ez az a fajta probléma, amelyet általában az adatok törlésével vagy elhagyásával orvosolnak, mivel a markerek ismétlődése elegendő ahhoz, hogy „jellemzőként” regisztráljon a képzésben, de nem elég gyakori ahhoz, hogy az adatkészlet tágabb sémájában hasznosan általánosítson. . A mesterséges markerek hatását leszámítoló mechanizmus nélkül a gépi tanulási rendszer módszertana potenciálisan patológiás jelenségnek tekinthetõ.

Képzés és tesztelés

A kutatók három modellben két összehasonlító adatkészlettel tesztelték a COVIDx-et. A további két adatkészlet volt RICORD, amely 1096 COVID-19 mellkasröntgenfelvételt tartalmaz 361 betegről, négy országból származva; és CheXpert, nyilvános adatkészlet

A három használt modell a COVID-Net volt, Korona és a DarkCovidNet. Mindhárom modell konvolúciós neurális hálózatokat (CNN-eket) használ, bár a CoroNet egy kétlépcsős képosztályozási folyamatból áll, ahol az autoenkóderek a kimenetet egy CNN osztályozónak adják át.

A tesztelés „meredek visszaesést” mutatott az összes modell teljesítményében nem COVIDx-adatkészleteken a COVIDx-adatok használatakor kapott 86%-os pontossághoz képest. Ha azonban az adatok rosszul vannak felcímkézve vagy rosszul vannak csoportosítva, ezek gyakorlatilag hamis eredmények. A kutatók azt észlelték, hogy az összehasonlítható külső adatkészletek pontossága jelentősen csökkent, amelyeket a tanulmány reálisabb és helyesebben osztályozott adatként javasol.

Továbbá a lap megjegyzi:

„A COVIDx-teszt adatainak előrejelzése által generált 500 grad-CAM-feltűnőségi térkép klinikai áttekintése szignifikáns tendenciát mutatott a klinikailag irreleváns jellemzők tekintetében. Ez általában magában foglalta a csontos struktúrákra és a lágy szövetekre való összpontosítást a tüdőmezők diffúz kétoldali homályosodása helyett, amely jellemző a COVID-19 fertőzésre.

Ez egy megerősített COVID-19-eset röntgenfelvétele, amelyhez csupán 0.938-as előrejelzési valószínűséget rendeltek a DarkCovidNeten betanított COVIDx-ből. Forrás: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Ez egy megerősített COVID-19-eset röntgenfelvétele, amelyhez csupán 0.938-as előrejelzési valószínűséget rendeltek a DarkCovidNeten betanított COVIDx-ből.

Következtetések

A kutatók kritizálják a COVIDx-ben készült röntgenfelvételekkel kapcsolatos demográfiai vagy klinikai adatok hiányát, és azzal érvelnek, hogy ezek nélkül lehetetlen figyelembe venni az olyan „zavaró tényezőket”, mint az életkor.

Azt is megfigyelik, hogy a COVIDx-adatkészletben talált problémák más, hasonló forrásból származó adatkészletekre is alkalmazhatók lehetnek (azaz a COVID előtti radiológiai képadatbázisok és a friss COVID-röntgen képadatok keverésével, megfelelő adatarchitektúra, varianciakompenzáció és egyértelmű hatókör nélkül ennek a megközelítésnek a korlátairól).

Összefoglalva a COVIDx hiányosságait, a kutatók hangsúlyozzák a „tiszta” gyermekröntgen-felvételek ellentmondásos felvételét, valamint azt, hogy a címkékkel való visszaélésről, valamint a COVIDx-ben való elfogultság és megzavarás nagy kockázatáról érzékelik, és azt állítják, hogya kivételes teljesítmény [a COVIDx-ről] A problémakörben széles körben közölt adatok túlzott mértékűek, a modell teljesítményének eredményei tévesek, és a modellek nem általánosíthatók megfelelően klinikailag valósághű adatokra.

A jelentés következtetése:

„A rendelkezésre álló kórházi adatok hiánya és a nem megfelelő modellértékelés a problémakörben lehetővé tette a nyílt forráskódú adatok felhasználását a kutatói közösség félrevezetésére. A felfújt modellteljesítmény-mutatók folyamatos közzététele veszélyezteti az AI-kutatás megbízhatóságát az orvosi diagnosztikában, különösen ott, ahol a betegség nagy közérdeklődésre tart számot. Az ezen a területen végzett kutatás minőségének javulnia kell, hogy ez ne forduljon elő, ennek az adatokkal kell kezdődnie.

 

 

*Bár a tanulmány kutatói azt állítják, hogy az adatokat, fájlokat és kódot készítették az új papírhoz online elérhető, a hozzáférés bejelentkezést igényel, és a cikk írásakor nem áll rendelkezésre általános nyilvános hozzáférés a fájlokhoz.
** Mellkasröntgen8: Kórházi méretű mellkasröntgen-adatbázis és referenciaértékek a gyakori mellkasi betegségek gyengén felügyelt osztályozására és lokalizálására vonatkozóan –
https://arxiv.org/pdf/1705.02315.pdf