Hälso- och sjukvård
AI-modeller tränade på könsbiaserad data presterar sämre vid diagnos av sjukdomar

Nyligen publicerades en studie i tidskriften PNAS och genomfördes av forskare från Argentina, som antydde att närvaron av könsstyrda träningsdata leder till sämre modellprestanda när det gäller att diagnostisera sjukdomar och andra medicinska problem. Som rapporterats av Statsnews, experimenterade forskarteamet med att träna modeller där kvinnliga patienter var tydligt underrepresenterade eller uteslutna helt, och fann att algoritmen presterade avsevärt sämre när det gällde att diagnostisera dem. Detsamma gällde också för situationer där manliga patienter var uteslutna eller underrepresenterade.
Under de senaste fem åren, allt eftersom AI-modeller och maskinlärning har blivit allt mer utbredd, har mer uppmärksamhet ägnats åt problemen med fördomsfulla datamängder och de fördomsfulla maskinlärningsmodellerna som resulterar från dem. Datafördomar i maskinlärning kan leda till besvärliga, socialt skadliga och exklusiva AI-applikationer, men när det gäller medicinska tillämpningar kan liv stå på spel. Trots kunskapen om problemet har få studier försökt att kvantifiera hur skadliga fördomsfulla datamängder kan vara. Studien som genomfördes av forskarteamet fann att datafördomar kunde ha mer extrema effekter än vad många experter tidigare beräknat.
En av de mest populära användningarna av AI under de senaste åren, i medicinska sammanhang, har varit användningen av AI-modeller för att diagnostisera patienter baserat på medicinska bilder. Forskarteamet analyserade modeller som användes för att upptäcka förekomsten av olika medicinska tillstånd som lunginflammation, cardiomegali eller bråck från röntgenbilder. Forskarteamet studerade tre öppen källkodsmodellarkitekturer: Inception-v3, ResNet och DenseNet-121. Modellerna tränades på bröst-röntgenbilder från två öppen källkodsdatamängder från Stanford University och National Institutes of Health. Även om datamängderna i sig är ganska balanserade när det gäller könsrepresentation, skapade forskarna konstgjort snedvridna data genom att bryta dem ned i undermängder där det fanns en könsobalans.
Forskarteamet skapade fem olika träningsdatamängder, var och en bestående av olika förhållanden mellan manliga och kvinnliga patientundersökningar. De fem träningsmängderna delades in på följande sätt:
- Alla bilder var av manliga patienter
- Alla bilder var av kvinnliga patienter
- 25% manliga patienter och 75% kvinnliga patienter
- 75% kvinnliga patienter och 25% manliga patienter
- Hälften manliga patienter och hälften kvinnliga patienter
Efter att modellen hade tränats på en av undermängderna testades den på en samling av undersökningar från både manliga och kvinnliga patienter. Det fanns en tydlig trend som var närvarande över de olika medicinska tillstånden, modellernas noggrannhet var mycket sämre när träningsdata var betydligt könsstyrda. En intressant sak att notera är att om ett kön var överrepresenterat i träningsdata, tycktes det inte ha någon fördel av överrepresentationen. Oavsett om modellen tränades på data som var snedvriden för ett kön eller det andra, presterade den inte bättre på det könet jämfört med när den tränades på en inklusiv datamängd.
Studiens seniorförfattare, Enzo Ferrante, citerades av Statnews som förklarade att studien understryker hur viktigt det är att träningsdata är diversifierad och representativ för alla populationer man avser att testa modellen i.
Det är inte helt klart varför modeller som tränats på ett kön tenderar att prestera sämre när de implementeras på ett annat kön. Vissa av diskrepanserna kan bero på fysiologiska skillnader, men olika sociala och kulturella faktorer kan också bidra till en del av skillnaden. Till exempel kan kvinnor tendera att få röntgenbilder vid ett annat stadium av sjukdomsprogressionen jämfört med män. Om detta är fallet, kan det påverka funktionerna (och därmed mönstren som lärs av modellen) som finns i träningsbilderna. Om detta är fallet, blir det mycket svårare för forskare att avlägsna fördomar från sina datamängder, eftersom fördomen är inbyggd i datamängden genom datainsamlingsmekanismerna.
Även forskare som är uppmärksamma på datadiversitet har ibland ingen möjlighet att arbeta med data som är snedvriden eller fördomsfull. Situationer där en disparitet finns mellan hur medicinska tillstånd diagnostiseras kommer ofta att leda till obalanserad data. Till exempel samlas data om bröstcancerpatienter nästan uteslutande in från kvinnor. Likaså manifesterar autism sig annorlunda mellan kvinnor och män, och som ett resultat diagnostiseras tillståndet i en mycket högre utsträckning hos pojkar än flickor.
Trots allt är det extremt viktigt för forskare att kontrollera för snedvriden data och datafördomar på alla sätt de kan. För att uppnå detta kommer framtida studier att hjälpa forskare att kvantifiera påverkan av fördomsfulla data.












