Gezondheidszorg
AI-modellen getraind op sekse-gebiaste gegevens presteren slechter bij het diagnosticeren van ziekten

Onlangs werd een studie gepubliceerd in het tijdschrift PNAS en uitgevoerd door onderzoekers uit Argentinië, waarin werd aangetoond dat de aanwezigheid van sekse-gebiaste trainingsgegevens leidt tot slechtere modelprestaties bij het diagnosticeren van ziekten en andere medische problemen. Volgens Statnews voerde het team van onderzoekers experimenten uit met het trainen van modellen waarbij vrouwelijke patiënten aanzienlijk ondervertegenwoordigd waren of helemaal uitgesloten, en vonden ze dat het algoritme aanzienlijk slechter presteerde bij het diagnosticeren van hen. Hetzelfde gold voor incidenten waarbij mannelijke patiënten waren uitgesloten of ondervertegenwoordigd.
In de afgelopen vijf jaar, toen AI-modellen en machine learning meer algemeen werden gebruikt, is meer aandacht besteed aan de problemen van gebiaste datasets en de gebiaste machine learning-modellen die daaruit voortkomen. Gegevensbias in machine learning kan leiden tot onhandige, sociaal schadelijke en exclusieve AI-toepassingen, maar wanneer het om medische toepassingen gaat, kunnen levens op het spel staan. Desondanks hebben, ondanks de kennis van het probleem, weinig studies geprobeerd te kwantificeren hoe schadelijk gebiaste datasets kunnen zijn. De studie die door het onderzoeksteam werd uitgevoerd, toonde aan dat gegevensbias extremer kan zijn dan veel deskundigen eerder hadden geschat.
Een van de meest populaire toepassingen van AI in de afgelopen jaren, in medische contexten, is het gebruik van AI-modellen om patiënten te diagnosticeren op basis van medische beelden. Het onderzoeksteam analyseerde modellen die werden gebruikt om de aanwezigheid van verschillende medische aandoeningen zoals longontsteking, cardiomegalie of hernia’s te detecteren vanuit röntgenfoto’s. Het onderzoeksteam onderzocht drie open-source modelarchitecturen: Inception-v3, ResNet en DenseNet-121. De modellen werden getraind op borstfoto’s die afkomstig waren van twee open-source datasets van Stanford University en de National Institutes of Health. Hoewel de datasets zelf redelijk gebalanceerd zijn wat betreft sekse-representatie, hebben de onderzoekers de gegevens kunstmatig geskeerd door ze op te delen in subsets met een sekse-ongelijkheid.
Het onderzoeksteam creëerde vijf verschillende trainingsdatasets, elk bestaande uit verschillende verhoudingen van mannelijke/vrouwelijke patiëntscans. De vijf trainingssets werden als volgt onderverdeeld:
- Alle beelden waren van mannelijke patiënten
- Alle beelden waren van vrouwelijke patiënten
- 25% mannelijke patiënten en 75% vrouwelijke patiënten
- 75% vrouwelijke patiënten en 25% mannelijke patiënten
- Helft mannelijke patiënten en helft vrouwelijke patiënten
Nadat het model was getraind op een van de subsets, werd het getest op een collectie scans van zowel mannelijke als vrouwelijke patiënten. Er was een opvallende trend die aanwezig was bij de verschillende medische aandoeningen, de nauwkeurigheid van de modellen was veel slechter wanneer de trainingsgegevens aanzienlijk sekse-gebiast waren. Een interessante zaak om te noteren is dat, als één sekse oververtegenwoordigd was in de trainingsgegevens, deze sekse niet leek te profiteren van de oververtegenwoordiging. Ongeacht of het model was getraind op gegevens die geskeerd waren voor één sekse of de andere, presteerde het niet beter op die sekse in vergelijking met wanneer het was getraind op een inclusieve dataset.
De senior auteur van de studie, Enzo Ferrante, werd geciteerd door Statnews als verklarend dat de studie onderstreept hoe belangrijk het is voor trainingsgegevens om divers en representatief te zijn voor alle populaties die u van plan bent om het model te testen.
Het is niet helemaal duidelijk waarom modellen die op één sekse zijn getraind, slechter presteren wanneer ze op een andere sekse worden toegepast. Sommige van de discrepanties kunnen te wijten zijn aan fysiologische verschillen, maar verschillende sociale en culturele factoren kunnen ook verantwoordelijk zijn voor een deel van het verschil. Bijvoorbeeld, vrouwen kunnen geneigd zijn om röntgenfoto’s te krijgen op een ander stadium van de ziekteprogressie in vergelijking met mannen. Als dit waar is, kan het de kenmerken (en dus de patronen die door het model zijn geleerd) die worden aangetroffen in trainingsbeelden, beïnvloeden. Als dit het geval is, maakt het het veel moeilijker voor onderzoekers om hun datasets te debiasen, omdat de bias in de dataset is ingebakken door de mechanismen van gegevensverzameling.
Zelfs onderzoekers die nauwlettend letten op gegevensdiversiteit, hebben soms geen andere keuze dan te werken met gegevens die geskeerd of gebiast zijn. Situaties waarin een dispariteit bestaat tussen hoe medische aandoeningen worden gediagnosticeerd, leiden vaak tot onevenwichtige gegevens. Bijvoorbeeld, gegevens over borstkankerpatiënten worden bijna volledig verzameld van vrouwen. Evenzo manifesteert autisme zich anders bij vrouwen en mannen, en als gevolg daarvan wordt de aandoening gediagnosticeerd bij een veel hogere frequentie bij jongens dan bij meisjes.
Niettemin is het extreem belangrijk voor onderzoekers om geskeerde gegevens en gegevensbias te controleren op elke manier die ze kunnen. Om die reden zullen toekomstige studies onderzoekers helpen de impact van gebiaste gegevens te kwantificeren.












