Santé
Les modèles d’IA formés à partir de données biaisées en fonction du sexe ont de moins bonnes performances pour diagnostiquer les maladies

Récemment, une étude publiée dans la revue PNAS et menée par des chercheurs d’Argentine, a laissé entendre que la présence de données d’entraînement biaisées en fonction du sexe conduit à de moins bonnes performances des modèles lors du diagnostic de maladies et d’autres problèmes médicaux. Selon Statnews, l’équipe de chercheurs a expérimenté avec des modèles formés où les patientes femmes étaient nettement sous-représentées ou exclues complètement, et a constaté que l’algorithme avait de moins bonnes performances lors du diagnostic de ces patientes. La même chose s’est avérée vraie pour les cas où les patients masculins étaient exclus ou sous-représentés.
Au cours de la dernière demi-décennie, à mesure que les modèles d’IA et l’apprentissage automatique sont devenus plus ubiquitaires, plus d’attention a été portée aux problèmes de jeux de données biaisés et aux modèles d’apprentissage automatique biaisés qui en résultent. Les biais de données dans l’apprentissage automatique peuvent conduire à des applications d’IA gênantes, socialement nuisibles et exclusives, mais lorsqu’il s’agit d’applications médicales, des vies peuvent être en jeu. Cependant, malgré la connaissance du problème, peu d’études ont tenté de quantifier à quel point les jeux de données biaisés peuvent être nuisibles. L’étude menée par l’équipe de recherche a constaté que les biais de données pourraient avoir des effets plus extrêmes que ce que de nombreux experts avaient précédemment estimé.
L’une des utilisations les plus populaires de l’IA au cours des dernières années, dans les contextes médicaux, a été l’utilisation de modèles d’IA pour diagnostiquer les patients sur la base d’images médicales. L’équipe de recherche a analysé des modèles utilisés pour détecter la présence de diverses affections médicales comme la pneumonie, la cardiomegalie ou les hernies à partir de radiographies. L’équipe de recherche a étudié trois architectures de modèles open source : Inception-v3, ResNet et DenseNet-121. Les modèles ont été formés sur des radiographies thoraciques issues de deux jeux de données open source provenant de l’Université de Stanford et des National Institutes of Health. Bien que les jeux de données eux-mêmes soient assez équilibrés en termes de représentation sexuelle, les chercheurs ont artificiellement biaisé les données en les divisant en sous-ensembles où il y avait un déséquilibre sexuel.
L’équipe de recherche a créé cinq différents jeux de données d’entraînement, chacun composé de ratios différents de scans de patients masculins et féminins. Les cinq ensembles d’entraînement ont été répartis comme suit :
- Toutes les images étaient de patients masculins
- Toutes les images étaient de patientes féminines
- 25 % de patients masculins et 75 % de patientes féminines
- 75 % de patientes féminines et 25 % de patients masculins
- La moitié des patients étaient des hommes et l’autre moitié des femmes
Après que le modèle ait été formé sur l’un des sous-ensembles, il a été testé sur une collection de scans de patients masculins et féminins. Il y avait une tendance notable qui était présente dans les différentes affections médicales, l’exactitude des modèles était nettement moins bonne lorsque les données d’entraînement étaient significativement biaisées en fonction du sexe. Une chose intéressante à noter est que si un sexe était surreprésenté dans les données d’entraînement, ce sexe ne semblait pas bénéficier de la surreprésentation. Quelle que soit la façon dont le modèle a été formé sur des données biaisées pour un sexe ou l’autre, il n’a pas performé mieux sur ce sexe par rapport à lorsqu’il a été formé sur un ensemble de données inclusif.
L’auteur principal de l’étude, Enzo Ferrante, a été cité par Statnews comme expliquant que l’étude souligne à quel point il est important que les données d’entraînement soient diverses et représentatives de toutes les populations que vous souhaitez tester le modèle.
Il n’est pas entièrement clair pourquoi les modèles formés sur un sexe tendent à avoir de moins bonnes performances lorsqu’ils sont mis en œuvre sur un autre sexe. Certaines des disparités pourraient être dues à des différences physiologiques, mais divers facteurs sociaux et culturels pourraient également rendre compte d’une partie de la différence. Par exemple, les femmes peuvent tendre à subir des radiographies à un stade différent de progression de leur maladie par rapport aux hommes. Si cela était vrai, cela pourrait avoir un impact sur les caractéristiques (et donc les modèles appris par le modèle) trouvées dans les images d’entraînement. Si c’est le cas, cela rend beaucoup plus difficile pour les chercheurs de débaiser leurs ensembles de données, car le biais serait intégré dans l’ensemble de données via les mécanismes de collecte de données.
Même les chercheurs qui prêtent une attention particulière à la diversité des données n’ont parfois pas d’autre choix que de travailler avec des données biaisées ou déséquilibrées. Les situations où une disparité existe entre la façon dont les affections médicales sont diagnostiquées conduiront souvent à des données déséquilibrées. Par exemple, les données sur les patientes atteintes de cancer du sein sont presque entièrement collectées auprès de femmes. De même, l’autisme se manifeste différemment entre les femmes et les hommes, et en conséquence, la condition est diagnostiquée à un taux nettement plus élevé chez les garçons que les filles.
Néanmoins, il est extrêmement important que les chercheurs contrôlent les données biaisées et les biais de données de quelque manière que ce soit. À cette fin, les études futures aideront les chercheurs à quantifier l’impact des données biaisées.












