stubs Sintētisko brūču datu kopu izveide ar ģeneratīviem pretrunīgiem tīkliem — Unite.AI
Savienoties ar mums

Veselības aprūpe

Sintētisko brūču datu kopu izveide, izmantojot ģeneratīvos pretrunīgos tīklus

mm

Izdots

 on

Pirmo reizi a Ģeneratīvs pretrunīgs tīkls tiek izmantots, lai izveidotu sintētiskas brūču attēlu datu kopas, lai novērstu daudzveidīga un pieejama šāda veida satura kritisko trūkumu veselības aprūpes mašīnmācīšanās lietojumprogrammās.

Sistēma, saukta WG2AN, ir Battenas Inženierzinātņu un tehnoloģiju koledžas un mākslīgā intelekta uzņēmuma eKare sadarbība, kas specializējas mašīnmācīšanās metodoloģiju pielietošanā brūču mērīšanai un identificēšanai.

GAN ir apmācīts par 100–4000 marķētiem stereoskopiskiem hronisku brūču attēliem, ko nodrošina eKare, tostarp anonimizētus attēlus ar traumu veidiem, kuru cēlonis ir, piemēram, spiediens, operācijas, limfas asinsvadu incidenti, diabēts un apdegumu traumas. Izejmateriāla izmēri bija no 1224 × 1224 līdz 2160 × 2160, un ārsti to visu izmantoja pieejamā apgaismojumā.

Lai pielāgotu pieejamo latento vietu modeļu apmācības arhitektūrā, attēli tika mainīti uz 512 × 512 un iegūti no to fona. Lai izpētītu datu kopas lieluma ietekmi, tika veiktas testa darbības 100, 250, 500, 1000, 2000 un 4000 attēlu partijām.

Avots: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Avots: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Augšējā attēlā ir redzama arvien detalizētāka informācija un precizitāte atkarībā no apmācību komplekta lieluma un to skaita laikmeti skrien katrā piegājienā.

WG arhitektūra. Avots: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG2GAN arhitektūra. Avots: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG2GAN darbojas ar PyTorch, izmantojot salīdzinoši vienkāršu patērētāju stila iestatījumu, ar 8 GB VRAM uz GTX 1080 GPU. Apmācība ilga 4–58 stundas datu kopas lieluma diapazonā no 100 līdz 4000 attēliem un dažādos laikmetos, partijas lielumā 64 — kā kompromisu starp precizitāti un veiktspēju. Adam Optimizer tiek izmantots apmācības pirmajā pusē ar mācīšanās ātrumu 0.0002, un to noslēdz ar lineāru samazinošu mācīšanās ātrumu, līdz tiek sasniegts nulles zudums.

Augšpusē pa kreisi, brūces zonai piemērota segmentācija. Virs centra faktiskās brūces attēls; augšpusē pa labi, tāda veida sintētiska brūce, kuru var vispārināt datu kopā, pamatojoties uz sākotnējo avotu. Zemāk ir oriģinālā brūce un, pa labi, WG2GAN radītā brūces sintēze.

Augšpusē pa kreisi, brūces zonai piemērota segmentācija. Virs centra faktiskās brūces attēls; augšpusē pa labi, tāda veida sintētiska brūce, kuru var vispārināt datu kopā, pamatojoties uz sākotnējo avotu. Zemāk ir oriģinālā brūce un, pa labi, WG2GAN radītā brūces sintēze.

Medicīnas datu kopās, tāpat kā daudzās citās mašīnmācības nozarēs, marķēšana ir neizbēgams šķērslis. Šajā gadījumā pētnieki izmantoja daļēji automatizētu marķēšanas sistēmu, kas izmanto agrākais pētījums no eKare, kurā tika izmantoti reāli brūču modeļi, kas izveidoti programmā Play-Doh un aptuveni iekrāsoti semantiskajam kontekstam.

eKare Brūču modeļi

eKare Brūču modeļi

Pētnieki atzīmēja problēmu, kas bieži rodas apmācības sākumposmā, kad datu kopa ir diezgan daudzveidīga un svari ir randomizēti – modelim ir nepieciešams ilgs laiks (75 laikmeti), lai "nokārtotos":

Ja dati ir daudzveidīgi, gan GAN, gan kodētāja/dekodētāja modeļiem ir grūtības iegūt vispārinājumu iepriekšējos posmos, kā redzams iepriekš redzamajā WG apmācības grafikā.2GAN, kas izseko treniņu laika grafiku no sākuma līdz nulles zaudējumam.

Jārūpējas par to, lai apmācības process netiktu fiksēts uz vienas iterācijas vai laikmeta iezīmēm vai raksturlielumiem, bet gan turpinātu vispārināt līdz izmantojamiem vidējiem zaudējumiem, neradot rezultātus, kas pārmērīgi abstrahē avota materiālu. WG gadījumā2GAN, kas varētu radīt neierobežotas, pilnīgi “izdomātas” brūces, kas savienotas starp pārāk plašu nesaistītu brūču veidu klāstu, nevis radītu precīzu variāciju diapazonu noteiktā brūču veidā.

Tvēruma kontrole mašīnmācības datu kopā

Modeļi ar vieglāku apmācību komplektu vispārina ātrāk, un dokumenta pētnieki apgalvo, ka reālistiskākos attēlus var iegūt, ja iestatījumi ir mazāki par maksimālajiem iestatījumiem: 1000 attēlu datu kopa, kas apmācīta 200 laikmetos.

Lai gan ar mazākām datu kopām var iegūt ļoti reālistiskus attēlus īsākā laikā, arī attēlu klāsts un radīto brūču veidi noteikti būs ierobežotāki. GAN un kodētāja/dekodētāja apmācības režīmos ir delikāts līdzsvars starp ievades datu apjomu un dažādību, izveidoto attēlu precizitāti un radīto attēlu reālismu — tvēruma un svēruma problēmas, kas noteikti neaprobežojas tikai ar medicīnisko attēlu. sintēze.

Klases nelīdzsvarotība medicīnas datu kopās

Kopumā veselības aprūpes mašīnmācīšanos ietekmē ne tikai a datu kopu trūkums, bet pa klases nelīdzsvarotība, ja būtiskie dati par konkrētu slimību veido tik mazu procentuālo daļu no tās saimniekdatu kopas, ka pastāv risks, ka tie tiks vai nu noraidīti kā ārzemju dati, vai arī tie varētu tikt asimilēti vispārināšanas procesā apmācības laikā.

Pēdējās problēmas risināšanai ir ierosinātas vairākas metodes, piemēram nepietiekama vai pārmērīga izlase. Tomēr problēma bieži tiek novērsta, izstrādājot slimību specifiskas datu kopas, kas ir pilnībā saistītas ar vienu medicīnisku problēmu. Lai gan šī pieeja ir efektīva katrā atsevišķā gadījumā, tā veicina kultūru Balkanizācija medicīnas mašīnmācības pētniecības jomā un, iespējams, palēnina vispārējo progresu šajā nozarē.