ciot Crearea de seturi de date de răni sintetice cu rețele generative adverse - Unite.AI
Conectează-te cu noi

Farmaceutice

Crearea de seturi de date de răni sintetice cu rețele adversare generative

mm

Publicat

 on

Pentru prima dată, a Rețea Adversarială Generativă este utilizat pentru a crea seturi de date sintetice de imagini ale rănilor, pentru a remedia o lipsă critică de conținut divers și accesibil de acest tip în aplicațiile de învățare automată pentru asistența medicală.

Sistemul, numit WG2AN, este o colaborare între Colegiul de Inginerie și Tehnologie Batten și compania AI heath eKare, care este specializată în aplicarea metodologiilor de învățare automată la măsurarea și identificarea rănilor.

GAN este instruit pe 100-4000 de imagini stereoscopice ale rănilor cronice etichetate furnizate de eKare, inclusiv imagini anonimizate cu tipuri de leziuni din cauze precum presiunea, intervențiile chirurgicale, incidentele limfovasculare, diabetul și arsurile. Materialul sursă a variat în dimensiune între 1224×1224 și 2160×2160, toate luate în lumina disponibilă de către medici.

Pentru a găzdui spațiul latent disponibil în arhitectura de antrenament a modelului, imaginile au fost redimensionate la 512×512 și extrase din fundalurile lor. Pentru a studia efectul dimensiunii setului de date, au fost implementate teste pe loturi de 100, 250, 500, 1000, 2000 și 4000 de imagini.

Sursa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Sursa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Imaginea de mai sus arată detaliu și granularitate în creștere în funcție de dimensiunea setului de antrenament care contribuie și de numărul de epoci alerga la fiecare trecere.

Arhitectura WG. Sursa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Arhitectura WG2GAN. Sursa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG2GAN rulează pe PyTorch într-o configurație relativ slabă de tip consumer, cu 8 GB de VRAM pe un GPU GTX 1080. Antrenamentul a durat între 4 și 58 de ore în intervalul de dimensiuni ale setului de date de la 100 la 4000 de imagini și pe o gamă de epoci, pe o dimensiune a lotului de 64 ca un compromis între acuratețe și performanță. Adam Optimizer este utilizat pentru prima jumătate a antrenamentului la o rată de învățare de 0.0002 și se încheie cu o rată de învățare liniară în descompunere până când se obține o pierdere de zero.

Sus stânga, segmentare aplicată pe zona plăgii. Deasupra centru, imaginea plăgii reale; dreapta sus, o rană sintetică de tip care poate fi generalizată într-un set de date, bazat pe sursa originală. Mai jos, rana originală și, în dreapta, o sinteză a plăgii generate de WG2GAN.

Sus stânga, segmentare aplicată pe zona plăgii. Deasupra centru, imaginea plăgii reale; dreapta sus, o rană sintetică de tip care poate fi generalizată într-un set de date, bazat pe sursa originală. Mai jos, rana originală și, în dreapta, o sinteză a plăgii generate de WG2GAN.

În seturile de date medicale, ca și în multe alte sectoare ale învățării automate, etichetarea este un blocaj inevitabil. În acest caz, cercetătorii au folosit un sistem de etichetare semi-automat care folosește cercetări anterioare de la eKare, care a folosit modele reale de răni, create în Play-Doh și colorate aproximativ pentru contextul semantic.

Modele eKare Wound

Modele eKare Wound

Cercetătorii au remarcat o problemă care apare frecvent în etapele inițiale ale antrenamentului, când un set de date este destul de divers și ponderile sunt randomizate – modelul durează mult timp (75 de epoci) pentru a se „așa”:

Acolo unde datele sunt variate, atât modelele GAN, cât și modelele de codificator/decodor se luptă pentru a obține generalizarea în etapele anterioare, așa cum putem vedea evidențiat în graficul de mai sus al antrenării WG.2GAN, care urmărește cronologia antrenamentului de la început până la pierderea zero.

Trebuie avut grijă pentru a se asigura că procesul de instruire nu se fixează pe trăsăturile sau caracteristicile oricărei iterații sau epoci, ci mai degrabă continuă să se generalizeze la o pierdere medie utilizabilă fără a produce rezultate care să abstragă excesiv materialul sursă. În cazul WG2GAN, care ar risca să creeze răni nelimitate, în întregime „fictive”, concatenate într-o gamă prea largă de tipuri de răni neînrudite, mai degrabă decât să producă o gamă precisă de variații într-un anumit tip de răni.

Controlul domeniului de aplicare într-un set de date de învățare automată

Modelele cu seturi de antrenament mai ușoare se generalizează mai repede, iar cercetătorii lucrării susțin că imaginile cele mai realiste ar putea fi obținute la mai puțin de setările maxime: un set de date de 1000 de imagini antrenat în peste 200 de epoci.

Deși seturi de date mai mici ar putea obține imagini extrem de realiste în mai puțin timp, gama de imagini și tipuri de răni generate vor fi neapărat mai limitate. Există un echilibru delicat în regimurile de antrenament GAN și codificator/decodor între volumul și varietatea datelor de intrare, fidelitatea imaginilor produse și realismul imaginilor produse - probleme de sferă și ponderare care cu siguranță nu se limitează la imaginea medicală. sinteză.

Dezechilibre de clasă în seturile de date medicale

În general, învățarea automată din domeniul sănătății este afectată nu numai de a lipsa seturilor de date, dar prin dezechilibre de clasă, în care datele esențiale privind o anumită boală constituie un procent atât de mic din setul de date gazdă, încât riscă fie să fie respinse ca date anormale, fie să fie asimilate în procesul de generalizare pe parcursul formării.

Au fost propuse o serie de metode pentru a aborda această din urmă problemă, cum ar fi subeșantionarea sau supraeșantionarea. Cu toate acestea, problema este adesea ocolită prin dezvoltarea unor seturi de date specifice bolii, care sunt în întregime legate de o singură problemă medicală. Deși această abordare este eficientă în funcție de caz, ea contribuie la cultura Balcanizarea în sfera cercetării învățării automate medicale și, probabil, încetinește progresul general în sector.