Sundhedsvæsen

AI-modeller trænet på kønsfordiagnosticeret data performer dårligere ved diagnose af sygdom

Published May 29, 2020

Updated April 28, 2026

Daniel Nelson

For nylig blev der offentliggjort en studie i tidsskriftet PNAS og gennemført af forskere fra Argentina, hvilket antyder, at tilstedeværelsen af kønsfordiagnosticeret træningsdata fører til dårligere modelpræstation, når det kommer til at diagnostisere sygdomme og andre medicinske problemer. Som rapporteret af Statsnews, eksperimenterede forskerholdet med at træne modeller, hvor kvindelige patienter var bemærkelsesværdigt underrepræsenterede eller helt udelukket, og fandt, at algoritmen fungerede væsentligt dårligere, når det kom til at diagnostisere dem. Det samme gjaldt for tilfælde, hvor mandlige patienter var udelukket eller underrepræsenterede.

I løbet af det sidste halve årti, efterhånden som AI-modeller og maskinlæring er blevet mere almindelige, er der blevet fokuseret mere på problemerne med fordomsfulde datasæt og de fordomsfulde maskinlæringsmodeller, der resulterer heraf. Datafordomme i maskinlæring kan føre til akavede, socialt skadelige og eksklusive AI-applikationer, men når det kommer til medicinske applikationer, kan liv være på spil. Alligevel, på trods af kendskab til problemet, har få studier forsøgt at kvantificere, hvor skadeligt fordomsfulde datasæt kan være. Studiet gennemført af forskerholdet fandt, at datafordomme kunne have mere ekstreme effekter, end mange eksperter tidligere havde estimeret.

En af de mest populære anvendelser af AI i de seneste år i medicinske sammenhænge har været brugen af AI-modeller til at diagnostisere patienter på baggrund af medicinske billeder. Forskerholdet analyserede modeller, der blev brugt til at registrere tilstedeværelsen af forskellige medicinske tilstande som lungebetændelse, cardiomegali eller brud i lysken fra røntgenbilleder. Forskerholdet studerede tre åbne kildearkitekturer: Inception-v3, ResNet og DenseNet-121. Modellerne blev trænet på bryst-røntgenbilleder hentet fra to åbne kildekilder fra Stanford University og National Institutes of Health. Selvom datasættene i sig selv er ret balancerede, når det kommer til kønsrepræsentation, skabte forskerne kunstigt fordomsfulde data ved at opdele dem i undermængder, hvor der var et kønsuligevægt.

Forskerholdet skabte fem forskellige træningsdatasæt, hver bestående af forskellige forhold af mandlige/kvindelige patientundersøgelser. De fem træningsmængder blev opdelt som følger:

Alle billeder var af mandlige patienter
Alle billeder var af kvindelige patienter
25% mandlige patienter og 75% kvindelige patienter
75% kvindelige patienter og 25% mandlige patienter
Halvdelen mandlige patienter og halvdelen kvindelige patienter

Efter at modellen var trænet på en af undermængderne, blev den testet på en samling af billeder fra både mandlige og kvindelige patienter. Der var en bemærkelsesværdig tendens, der var til stede på tværs af de forskellige medicinske tilstande, og nøjagtigheden af modellerne var meget dårligere, når træningsdata var betydeligt kønsfordiagnosticeret. En interessant ting at bemærke er, at hvis et køn var overrepræsenteret i træningsdata, syntes det ikke at have nogen fordel af overrepræsentationen. Uanset om modellen var trænet på data, der var fordrejet for et køn eller det andet, fungerede den ikke bedre på det pågældende køn i forhold til, når den var trænet på et inklusivt datasæt.

Den seniormedforfatter af studiet, Enzo Ferrante, blev citeret af Statnews som forklarende, hvordan studiet understreger, hvor vigtigt det er, at træningsdata er diverse og repræsentative for alle befolkninger, man har til hensigt at teste modellen på.

Det er ikke helt klart, hvorfor modeller, der er trænet på ét køn, tenderer til at fungere dårligere, når de implementeres på et andet køn. Nogle af ulighederne kan skyldes fysiologiske forskelle, men forskellige sociale og kulturelle faktorer kan også bidrage til nogle af forskellene. For eksempel kan kvinder have tilbøjelighed til at få røntgenbilleder på et andet stadium i sygdommens udvikling i forhold til mænd. Hvis dette er sandt, kan det påvirke funktionerne (og dermed mønstrene, der læres af modellen) i træningsbillederne. Hvis dette er tilfældet, gør det det meget sværere for forskere at fjerne fordomme fra deres datasæt, da fordommen vil være indlejret i datasættet gennem dataindsamlingens mekanismer.

Selv forskere, der er meget opmærksomme på datadiversitet, har nogle gange ingen anden mulighed end at arbejde med datasæt, der er fordrejet eller fordomsfuldt. Situationer, hvor der er en ulighed i, hvordan medicinske tilstande diagnosticeres, vil ofte føre til ubalancerede data. For eksempel er data om brystkræftpatienter næsten udelukkende indsamlet fra kvinder. Ligesom autisme manifestere sig forskelligt mellem kvinder og mænd, og som følge heraf diagnosticeres tilstanden i en langt højere rate hos drenge end piger.

Alligevel er det ekstremt vigtigt for forskere at kontrollere for fordrejet data og datafordomme på enhver måde, de kan. Til den ende vil fremtidige studier hjælpe forskere med at kvantificere virkningen af fordomsfulde data.

Daniel Nelson

Blogger og programmør med specialer i Machine Learning og Deep Learning emner. Daniel håber at hjælpe andre med at bruge AI's kraft til sociale formål.

Unite.AI

AI-modeller trænet på kønsfordiagnosticeret data performer dårligere ved diagnose af sygdom

You may like