Kunstig intelligens
Algoritme kunne adresse raciale bias i sundhedspleje, hvis det trænes korrekt

Et hold af forskere fra Stanford University, Harvard University og University of Chicago har trænet algoritmer til at diagnostisere leddegigt i røntgenbilleder af knæ. Det viser sig, at når patienternes rapporter bruges som træningsdata for algoritmen, var algoritmen mere præcis end radiologer, når de analyserede optegnelserne fra sorte patienter.
Problemet med algoritme-bias
Brugen af maskinel læring i sundhedssektoren kan potentielt forbedre patienternes resultater, men der er også velkendte problemer med at bruge AI-algoritmer til at diagnostisere patienter. Studier af de udsendte AI-modellers virkninger har fundet en række bemærkelsesværdige tilfælde med algoritme-bias. Disse omfatter algoritmer, der giver minoriteter færre henvisninger til kardiologien end hvide patienter, selvom alle rapporterede symptomer var de samme.
En af forfatterne til studiet, professor Ziad Obermeyer ved University of California Berkeleys School of Public Health, besluttede at anvende AI til at undersøge uligheder mellem diagnostik af røntgenbilleder af radiologer og mængden af smerte, som patienterne rapporterede. Selvom sorte patienter og lavindkomstpatienter rapporterede højere niveauer af smerte, blev deres røntgenfortolkninger vurderet på samme måde som den generelle befolkning. Data om de rapporterede smerteniveauer kom fra NIH, og forskerne ønskede at undersøge, om menneskelige læger missede noget i deres analyse af data.
Som rapporteret af Wired, for at identificere årsagerne til disse forskelle, designede Obermeyer og andre forskere en computer-vision-model, der var trænet på data fra NIH. Algoritmernes formål var at analysere røntgenbilleder og forudsige en patients smerteniveauer på basis af billederne. Softwaren formåede at finde mønstre inden for billederne, der viste sig at være meget korrelerede med en patients smerteniveauer.
Når algoritmen præsenteres med et ubeset billede, returnerer modellen forudsigelser for en patients niveau af rapporteret smerte. Forudsigelserne returneret af modellen stemte mere overens med de faktiske rapporterede smerteniveauer hos patienterne end vurderingerne fra radiologerne. Dette var især sandt for sorte patienter. Obermeyer forklarede via Wired, at computer-vision-algoritmen kunne detektere fænomener, der mere hyppigt var forbundet med smerte hos sorte patienter.
Korrekt træning af systemer
Ifølge rapporten var kriterierne for vurdering af røntgenbilleder oprindeligt udviklet på basis af resultaterne fra en lille studie udført i Nordengland i 1957. Den oprindelige population, der blev brugt til at udvikle kriterier for osteoartritis-vurdering, var meget forskellig fra den meget diverse befolkning i det moderne USA, så det er ikke overraskende, at der sker fejl, når der diagnosticeres disse diverse mennesker.
Den nye studie demonstrerer, at når AI-algoritmer trænes korrekt, kan de reducere bias. Træningen var baseret på feedback fra patienterne selv i stedet for ekspertmeningers. Obermeyer og kolleger har tidligere demonstreret, at en almindelig brugt AI-algoritme gav fordel til hvide patienter over for sorte patienter, men Obermeyer har også vist, at træning af et maskinel læringssystem på de rigtige data kan hjælpe med at forebygge bias.
En bemærkelsesværdig kaveat til studiet er en, der er velkendt for mange maskine-læring-forskere. Den AI-model, der er udviklet af forskerholdet, er en sort kasse, og forskerholdet selv er ikke sikre på, hvilke slags funktioner algoritmen detekterer i røntgenbillederne, hvilket betyder, at de ikke kan fortælle lægerne, hvad de mangler.
Andre radiologer og forskere søger at grave dybere i den sorte kasse og afsløre mønstrene inden i den, i håb om at hjælpe lægerne med at forstå, hvad de mangler. Radiolog og professor ved Emory University, Judy Gichoya, indsamler en mere omfattende og varieret samling af røntgenbilleder for at træne AI-modellen. Gichoya vil få radiologer til at skabe detaljerede noter om disse røntgenbilleder. Disse noter vil blive sammenlignet med modellens output for at se, om mønstrene, der detekteres af algoritmen, kan afsløres.












