stub Daneyên navdar ên COVIDx-ê ji hêla Lêkolînerên Keyaniya Yekbûyî ve têne rexne kirin - Unite.AI
Girêdana bi me

Parastina saxlemîyê

Daneyên navdar ên COVIDx-ê ji hêla Lêkolînerên Keyaniya Yekbûyî ve têne rexne kirin

mm

Published

 on

Konsorsiyûmek lêkolînê ji Keyaniya Yekbûyî rexne li radeya pêbaweriya zanistî ya ku bi danehevên çavkaniya vekirî ve hatî veqetandin ji bo analîza-bingeha dîtina komputerê ya tîrêjên X-sîngê yên nexweşên COVID-19, ku navendê li ser daneya çavkaniya vekirî ya populer COVIDx e, girtiye.

Lekolînwanan, ku COVIDx di cûrbecûr modelên perwerdehiya AI-yê de ceribandin, îdia dikin ku ew 'ne nûnerê pirsgirêka klînîkî ya rastîn e', ku encamên ku bi karanîna wê têne bidestxistin 'bifûr in', û ku modelên 'baş giştî nabin' ya rastîn. daneyên cîhanê.

Nivîskar her weha nerazîbûna daneyên beşdar ên ku COVIDx-ê pêk tîne destnîşan dikin, ku wêneyên orîjînal bi cûrbecûr çareseriyên ku bixweber ji hêla xebata fêrbûna kûr ve di mezinahiyên domdar ên ku ji bo perwerdehiyê hewce ne ji nû ve têne nûve kirin, û dibînin ku ev pêvajo dikare hunerên xapînok destnîşan bike. ji bilî algorîtmaya klînîkî ya daneyê, bi algorîtmaya mezinbûna wêneyê ve girêdayî ye.

Ew kaxez tê gotin Kelepên karanîna daneya vekirî ji bo pêşkeftina çareseriyên fêrbûna kûr ji bo tespîtkirina COVID-19 di tîrêjên X-sîngê de, û hevkariyek di navbera Navenda Wêneya Hesabkirin & Simulasyon di Biyomedicine (CISTIB) de ye li Zanîngeha Leeds, ligel lêkolînerên ji pênc rêxistinên din ên li heman bajarî, di nav de Nexweşxaneyên Hînkirina Leeds NHS Trust.

Di lêkolînê de, di nav pratîkên neyînî yên din de, 'bikaranîna şaş a nîşanan' di databasa COVIDx de, û her weha 'rîska bilind a alîgiriyê û tevlihevkirinê'. Ceribandinên xwe yên lêkolîneran ên di danasîna danezanê de li ser sê modelên fêrbûna kûr a domdar, wan hişt ku encam bidin ku 'performansa awarte ya ku bi berfirehî li seranserê qada pirsgirêkê hatî ragihandin zêde ye, ku encamên performansa modelê bi xeletî têne destnîşan kirin, û ku model bi daneyên klînîkî-realîst baş nayên gelemperî kirin.'

Pênc Daneyên Berevajî li Yek

Rapor* destnîşan dike ku piraniya metodolojiyên bingehîn ên AI-ê yên di vî warî de bi cûrbecûrek 'heterojen' a daneyên ji depoyên çavkaniya vekirî yên cihêreng ve girêdayî ye, lê dinihêre ku pênc danehevên bi taybetmendiyên cûda cûda di nav daneya COVIDx-ê de hatine berhev kirin tevî ku (di nihêrîna lêkolîneran) hevsengiya kêmasiya kalîte û celebê daneyê.

Daneya COVIDx bû serbest berdan di Gulana 2020-an de wekî hewildanek konsorsiyumê ku ji hêla Beşa Endezyariya Sêwirana Pergalan ve li Zanîngeha Waterloo ya Kanada, bi daneyan çêkirî wekî beşek ji Înîsiyatîfa Çavkaniya Vekirî ya COVID-Net.

Pênc berhevokên ku COVIDx pêk tînin ev in: COVID-19 Berhevoka Daneyên Wêne (an çavkaniya vekirî set ji lêkolînerên Montreal); Daneyên tîrêjên X-ray ên sîngê COVID-19 destpêşxeriya; Actualmed COVID-19 X-ray sîngê databas; Radyografiya COVID-19 Database; û RSNA Pêşkêşiya Tespîtkirina Pneumonia databas, yek ji gelek komên pêş-COVID-ê yên ku ji bo krîza pandemîk ketine xizmetê.

(RICORD - li jêr binêre - ji hingê ve li COVIDx-ê hate zêdekirin, lê ji ber ku ew di dûv modelên eleqedar ên lêkolînê de hate nav kirin, ew ji daneyên ceribandinê hate derxistin, û di her rewşê de dê meyil bibûya ku COVIDx hîn bêtir cûda bike, ku giliya navendî ya nivîskarên lêkolînê ye.)

Lêkolîner îdia dikin ku COVIDx ew e 'herî mezin û herî zêde tê bikaranîn' daneheva bi vî rengî di nav civata zanistî de ku bi lêkolîna COVID-ê ve girêdayî ye, û ew daneyên ku ji berhevokên daneya derveyî yên pêkhatî di nav COVIDx-ê de têne şandin, bi têra xwe li gorî şemaya sêalî ya daneheva COVIDx nayê (ango, 'normal', 'pneumonia', û ' COVID 19').

Nêzîkî Têr..?

Di dema lêkolînê de vekolîn û guncavbûna berhevokên danehev ên ji bo COVIDx-ê di dema lêkolînê de, lêkolîneran 'bikaranîna xelet' ya daneyên RSNA dîtin, ku li wir daneyên yek celebî, lêkolîner îdîa dikin, di kategoriyek cûda de hatine berhev kirin:

"Depoya RSNA, ku daneyên rontgenê yên sîngê yên ji NIH Chestx-ray8 bi gelemperî berdest bikar tîne. [**], ji bo peywirek dabeşkirinê hate sêwirandin û bi vî rengî sê çînên wêneyan dihewîne, 'Têrabûna pişikê', 'Têrabûna pişikê tune/Ne normal', û 'Normal', bi qutiyên sînorkirî yên ji bo dozên 'Tirbûna pişikê' hene.

'Di berhevkirina wê ya di nav COVIDx de, hemî tîrêjên rontgen ên sîngê ji pola 'Têrabûna pişikê' di pola pneumoniyayê de cih digirin.'

Bi bandor, kaxez îddîa dike, metodolojiya COVIDx pênaseya 'pneumonia' berfireh dike ku 'hemû nezelaliyên pişikê yên mîna pneumonia' vedigire. Ji ber vê yekê, nirxa mîna-bo-mîna celebên daneya berawirdî (texmîn) tê tehdît kirin. Lêkolîner diyar dikin:

' […] çîna pneumonia di nav databasa COVIDx de tîrêjên X-ya sîngê bi cûrbecûr rêgezên gelek patholojiyên din ve dihewîne, di nav de, enfeksiyona pleural, înfiltasyon, hevgirtin, emfîsema û girse. Hevgirtin taybetmendiyek radyolojîk a pneumonia gengaz e, ne teşhîsek klînîkî ye. Bêyî ku ev yek belge were belgekirin, bikaranîna yekbûn wekî dewsa pneumoniyayê dibe ku şaş be.'

Patolojiyên alternatîf (ji bilî COVID-19) bi COVIDx re têkildar in.

Patolojiyên alternatîf (ji bilî COVID-19) bi COVIDx re têkildar in. Çavkanî: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Rapor diyar dike ku tenê 6.13% ji 4,305 bûyerên pneumoniyayê yên ku ji RSNA hatine peyda kirin bi rast hatine navnîş kirin, ku tenê 265 bûyerên pneumonia rastîn temsîl dikin.

Wekî din, gelek ji dozên ne-pneumonia yên ku di COVIDx-ê de cih digirin hev-nexweşî temsîl dikin - tevliheviyên nexweşiyên din, an wekî din pirsgirêkên bijîjkî yên duyemîn di şert û mercên ku ne hewce ne bi pneumoniyayê re têkildar in.

Ne 'Normal'

Di raporê de pêşnîyar dike ku bandora daneheva dijwar a RSNA ya di COVIDx de aramiya ampîrîkî ya daneyan xera kiriye. Lekolînwan mêze dikin ku COVIDx pêşî li çîna 'normal' a daneyên RSNA digire, bi bandor di nav daneya berfireh de hemî dersên 'bêşixuriya pişikê / ne normal' derdixe. Kaxez dibêje:

"Gava ku ev li gorî ya ku di nav etîketa "normal" de tê hêvî kirin, berfirehkirina pola pneumoniyayê û karanîna tenê tîrêjên rontgenê yên sîngê yên 'normal', li şûna bûyerên negatîf ên pneumoniyayê, karê dabeşkirinê pir hêsan dike.

'Encama dawî ya vê databasê ye ku peywirek ku ji pirsgirêka klînîkî ya rastîn hatî rakirin nîşan dide.'

Nerazîbûnên Potansiyel Ji Standardên Daneyên Nakok

Kaxez di COVIDx-ê de jimareyek cûreyên din ên nelirêtiyê nas dike, û destnîşan dike ku hin daneyên beşdar wêneyên rontgenê yên sînga zarokan bi tîrêjên X-ê yên nexweşên mezin re tevlihev dikin, û bêtir dibîne ku ev dane tenê çavkaniya 'girîng' e. wêneyên zarokan di COVIDx de.

Di heman demê de, wêneyên ji databasa RSNA xwedan çareseriyek 1024 × 1024 in, dema ku berhevokek din a beşdar wêneyek tenê 299 × 299 wêneyan peyda dike. Ji ber ku modelên fêrbûna makîneyê dê her gav mezinahiya wêneyan biguhezînin da ku cîhê perwerdehiya berdest (cihê nepenî) bicîh bikin, ev tê vê wateyê ku wêneyên 299×299 dê di xebatek perwerdehiyê de werin zêdekirin (bi potansiyel rê li ber hunerên ku bi algorîtmayek pîvandinê ve ne ji patholojiyê ve girêdayî ne), û wêneyên mezintir kêm kirin. Dîsa, ev yek li hember standardên daneya homojen ên ku ji bo analîza dîtina komputerê-based AI-yê hewce ne kêm dike.

Wekî din, daneyên ActMed-ê ku di nav COVIDx-ê de têne avêtin di tîrêjên X-tîrêjên sîngê COVID-19 de 'nîşankerên dîskê' vedihewîne, taybetmendiyek dûbare ya ku bi daneheva berfireh re neguncav e, û ya ku pêdivî ye ku wekî 'dervekirîyek dubare' were destgirtin.

Ev cûreyek pirsgirêk e ku bi gelemperî bi paqijkirin an ji holê rakirina daneyan ve tê çareser kirin, ji ber ku dubarebûna nîşankeran bes e ku di perwerdehiyê de wekî 'taybetmendiyek' were tomar kirin, lê ne pir caran têra gelemperî dike ku di nexşeya berfireh a databasê de bi kêrhatî were gelemperî kirin. . Bêyî mekanîzmayek ji bo kêmkirina bandora nîşankerên çêkirî, ew dikarin ji hêla metodolojiya pergala fêrbûna makîneyê ve wekî fenomenên patholojîk werin hesibandin.

Perwerde û Testkirin

Lekolînwanan COVIDx li hember du daneyên berawirdî li sê modelan ceriband. Du daneyên zêde bûn RICORD, ku di nav 1096 nexweşan de 19 tîrêjên tîrêjên sîngê yên COVID-361 hene, ku ji çar welatan hatine wergirtin; û CheXpert, danesek giştî

Sê modelên ku hatine bikar anîn COVID-Net bûn, CoroNet û DarkCovidNet. Her sê model Tora Neuralî ya Hevbeş (CNN) bikar tînin, her çend CoroNet ji pêvajoyek dabeşkirina wêneyê ya du qonax pêk tê, digel ku kodkerên otomatîkî derketinê di nav dabeşkerek CNN de derbas dikin.

Testkirinê di hemî performansa modelê de li ser berhevokên ne-COVIDx 'daketinek hişk' nîşan da li gorî rastbûna 86% ya ku di dema karanîna daneyên COVIDx-ê de derketiye holê. Lêbelê, heke daneya xelet were nîşankirin an xelet were kom kirin, ev bi bandor encamên derewîn in. Lekolînwanan destnîşan kirin ku encamên rastbûna li ser berhevokên daneya derveyî yên berawirdî, yên ku kaxez wekî daneya rastîntir û rast-tesnîfkirî pêşniyar dike, pir kêm kirin.

Wekî din, kaxez destnîşan dike:

'Pêşveçûnek klînîkî ya 500 nexşeyên salixbûnê yên grad-CAM ku ji hêla pêşbînkirina daneyên testa COVIDx ve hatî çêkirin, di taybetmendiyên klînîkî yên negirêdayî de meylek girîng nîşan da. Vê yekê bi gelemperî li şûna nezelalbûna dualî ya berbelavkirina zeviyên pişikê yên ku tîpîk enfeksiyona COVID-19 ne, li ser strukturên hestî û tevnên nerm hûr dibe.'

Ev rontgenek dozek COVID-19 ya pejirandî ye, ku tenê 0.938 îhtîmalek pêşbîniyê ji COVIDx-ê ku li ser DarkCovidNet hatî perwerdekirin hatî destnîşan kirin. Çavkanî: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Ev rontgenek dozek COVID-19 ya pejirandî ye, ku tenê 0.938 îhtîmalek pêşbîniyê ji COVIDx-ê ku li ser DarkCovidNet hatî perwerdekirin hatî destnîşan kirin.

encamên

Lekolînwan nebûna daneyên demografîk an klînîkî yên têkildarî wêneyên tîrêjê yên di COVIDx-ê de rexne dikin, argûman dikin ku bêyî van, ne gengaz e ku meriv 'faktorên tevlihev' ên wekî temen were hesibandin.

Ew her weha dibînin ku pirsgirêkên ku di daneheva COVIDx-ê de têne dîtin dibe ku ji bo danehevên din ên ku bi heman rengî hatine peyda kirin (ango bi berhevkirina databasên wêneya radyolojîkî yên berî-COVID-ê bi daneyên wêneya tîrêjê-X-ê ya COVID-ê ya dawî re bêyî mîmariya daneya têr, tezmînata cûdabûnê, û çarçoveyek zelal were sepandin. ji sînorên vê nêzîkbûnê).

Di kurtkirina kêmasiyên COVIDx-ê de, lêkolîner balê dikişînin ser tevlêbûna tîrêjên 'zelal' ên zarokan, û her weha têgihîştina wan a li ser bikaranîna çewt a etîketan û xetera bilind a nelirêtî û tevliheviyê di COVIDx-ê de, îddîa dikin ku 'performansa awarte [ji COVIDx] li seranserê qada pirsgirêkê bi berfirehî hate ragihandin, ku encamên performansa modelê bi xeletî têne xuyang kirin, û ku model bi daneyên klînîkî-realîst baş nayên gelemperî kirin.'

Rapor wiha bi dawî dibe:

"Kêbûna daneyên nexweşxanê yên berdest ligel nirxandina modela ne têr li seranserê qada pirsgirêkê hişt ku karanîna daneyên çavkaniya vekirî civaka lêkolînê bixapîne. Weşana domdar a metrîkên performansa modela bifroş xetere dike ku zirarê bide pêbaweriya lêkolîna AI-ê di tespîtkirina bijîjkî de, nemaze li cihê ku nexweşî ji berjewendiya gelemperî ya mezin e. Ji bo ku ev yek pêk neyê divê kalîteya lêkolînê ya di vî warî de baştir bibe, divê ev yek bi daneyan dest pê bike.'

 

 

*Her çend lêkolînerên lêkolînê îdîa dikin ku dane, pel û kod ji bo kaxeza nû çêkirine online, gihîştina têketinê hewce dike, û di dema nivîsandinê de, gihandina giştî ya pelan tune.
** ChestX-ray8: Daneyên rontgenê yên sîngê yên nexweşxanê û pîvanên li ser senifandina bi çavdêriya qels û cîbicîkirina Nexweşiyên Thorax-ê yên Hevbeş -
https://arxiv.org/pdf/1705.02315.pdf