Hälso- och sjukvård

Skapande av syntetiska sårdata med generativa adversariala nätverk

Published April 22, 2021

Updated April 24, 2026

Martin Anderson

För första gången används ett Generative Adversarial Network för att skapa syntetiska datamängder av sårbilder, i syfte att åtgärda en kritisk brist på varierad och tillgänglig innehåll av denna typ i hälso- och sjukvårdsapplikationer för maskinlärning.

Systemet, som kallas WG²AN, är ett samarbete mellan Batten College of Engineering & Technology och AI-hälsoföretaget eKare, som specialiserar sig på att tillämpa maskinlärningsmetoder för mätning och identifiering av sår.

GAN är tränad på 100-4000 märkta stereoskopiska kroniska sårbilder som tillhandahålls av eKare, inklusive anonymiserade bilder av skadetyper från orsaker som tryck, kirurgi, lymfovaskulära incidenter, diabetes och brännskador. Källmaterialet varierade i storlek mellan 1224×1224 till 2160×2160, alla tagna under tillgängligt ljus av läkare.

För att anpassa den tillgängliga latenta utrymmet i modellträningsarkitekturen, skalades bilderna om till 512×512 och extraherades från sina bakgrunder. För att studera effekten av datamängdens storlek, genomfördes testkörningar på batchar om 100, 250, 500, 1000, 2000 och 4000 bilder.

Källa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Bilden ovan visar ökande detalj och granularitet enligt storleken på den bidragande träningsmängden, och antalet epoch som körs på varje pass.

Arkitekturen för WG2GAN. Källa: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG²GAN körs på PyTorch på en relativt smal konsumentinriktad setup, med 8 GB VRAM på en GTX 1080 GPU. Träningen tog mellan 4-58 timmar över datamängdens storlek från 100-4000 bilder, och över ett intervall av epoch, på en batchstorlek på 64 som en avvägning mellan noggrannhet och prestanda. Adam-optimisatorn används för den första halvan av träningen med en inlärningshastighet på 0,0002, och avslutas med en linjärt avtagande inlärningshastighet tills en förlust på noll uppnås.

Överst till vänster, segmentering tillämpad på sårområdet. Överst i mitten, bild av det faktiska såret; överst till höger, ett syntetiskt sår av en typ som kan generaliseras i en datamängd, baserat på den ursprungliga källan. Nedan, det ursprungliga såret, och, till höger, en syntes av såret som genereras av WG2GAN.

I medicinska datamängder, liksom i många andra områden av maskinlärning, är märkning en oundviklig flaskhals. I detta fall använde forskarna ett semiautomatiskt märkningssystem som utnyttjar tidigare forskning från eKare, som använde verkliga modeller av sår, skapade i Play-Doh och grovt färgade för semantisk kontext.

eKare sårmodeller

Forskarna noterade ett problem som ofta uppstår i de tidiga stadierna av träning, när en datamängd är ganska varierad och vikter är slumpmässiga – modellen tar lång tid (75 epoch) att “sätta sig”:

Där data är varierad, har både GAN och encoder/decoder-modeller svårt att uppnå generalisering i de tidiga stadierna, som vi kan se belagt i ovanstående graf över träningen av WG²GAN, som spårar träningsförloppet från början till nollförlust.

Försiktighet måste iakttas för att säkerställa att träningsprocessen inte fokuserar på funktionerna eller egenskaperna hos någon enskild iteration eller epoch, utan snarare fortsätter att generalisera till en användbar medelförlust utan att producera resultat som i alltför hög grad abstraherar källmaterialet. I fallet med WG²GAN skulle det riskera att skapa obegränsade, helt “fiktiva” sår, sammanfogade bland alltför många orelaterade sårtyp, snarare än att producera en korrekt variation inom en viss sårtyp.

Att kontrollera omfattning i en maskinlärningsdatamängd

Modeller med lättare träningsmängder generaliserar snabbare, och forskarnas paper hävdar att de mest realistiska bilderna kunde erhållas vid mindre än de maximala inställningarna: en datamängd om 1000 bilder tränad under 200 epoch.

Även om mindre datamängder kanske kan uppnå högrealistiska bilder på kortare tid, kommer omfattningen av bilder och typer av sår som genereras nödvändigtvis att vara mer begränsad. Det finns en ömtålig balans i GAN och encoder/decoder-träningsregimer mellan volymen och variationen av indata, troheten hos de producerade bilderna och realismen hos de producerade bilderna – frågor om omfattning och viktning som inte är begränsade till medicinsk bildsyntes.

Klassobalanser i medicinska datamängder

I allmänhet är hälso- och sjukvårdsmaskinlärning inte bara besatt av en brist på datamängder, utan också av klassobalanser, där viktig data om en specifik sjukdom utgör så liten andel av dess värd-datamängd att den riskerar att antingen förkastas som outlier-data eller att bli assimilerad under generaliseringsprocessen under träning.

Flera metoder har föreslagits för att åtgärda det senare problemet, såsom undersampling eller översampling. Emellertid undviks problemet ofta genom att utveckla sjukdomsspecifika datamängder som är helt bundna till ett enda medicinskt problem. Även om denna strategi är effektiv i varje enskilt fall, bidrar den till kulturen av balkanisering inom området för medicinsk maskinlärningsforskning och bromsar förmodligen ner den allmänna utvecklingen inom sektorn.

Related Topics:GAN GANs health healthcare image classification medical medical images

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

Skapande av syntetiska sårdata med generativa adversariala nätverk

Att kontrollera omfattning i en maskinlärningsdatamängd

Klassobalanser i medicinska datamängder

You may like