Suivez nous sur

Des informaticiens s'attaquent aux biais dans l'IA

Intelligence Artificielle

Des informaticiens s'attaquent aux biais dans l'IA

mm

Des informaticiens de l'UniversitĂ© de Princeton et de Stanford sont maintenant rĂ©soudre les problèmes de biais en intelligence artificielle (IA). Ils travaillent sur des mĂ©thodes qui aboutissent Ă  des ensembles de donnĂ©es plus justes contenant des images de personnes. Les chercheurs travaillent en Ă©troite collaboration avec ImageNet, une base de donnĂ©es de plus de 13 millions d'images. Au cours de la dernière dĂ©cennie, ImageNet a contribuĂ© Ă  faire progresser la vision par ordinateur. Grâce Ă  l’utilisation de leurs mĂ©thodes, les chercheurs ont ensuite recommandĂ© des amĂ©liorations Ă  la base de donnĂ©es. 

ImageNet Comprend des images d'objets, de paysages et de personnes. Les chercheurs qui créent des algorithmes d'apprentissage automatique pour classer les images utilisent ImageNet comme source de données. Compte tenu de la taille importante de la base de données, il était nécessaire de procéder à une collecte automatisée et à une annotation participative des images. L'équipe d'ImageNet s'efforce désormais de corriger les biais et autres problèmes. Les images contiennent souvent des personnes qui sont des conséquences imprévues de la construction d'ImageNet.

Olga Russakovsky est co-auteur et professeure adjointe d'informatique Ă  Princeton. 

« La vision par ordinateur fonctionne désormais très bien, ce qui signifie qu'elle est déployée partout dans des contextes très variés », a-t-il déclaré. « Il est donc temps de discuter de son impact sur le monde et de réfléchir à ces questions d'équité. »

Dans le nouvel article, l'Ă©quipe d'ImageNet a systĂ©matiquement identifiĂ© les concepts non visuels et les catĂ©gories offensantes. Ces catĂ©gories comprenaient des caractĂ©risations raciales et sexuelles, et l'Ă©quipe a proposĂ© de les supprimer de la base de donnĂ©es. L'Ă©quipe a Ă©galement dĂ©veloppĂ© un outil qui permet aux utilisateurs de spĂ©cifier et de rĂ©cupĂ©rer des ensembles d'images de personnes, et il peut le faire par âge, expression de genre et couleur de peau. L'objectif est de crĂ©er des algorithmes qui classent plus Ă©quitablement les visages et les activitĂ©s des personnes dans les images. 

Le travail effectuĂ© par les chercheurs a Ă©tĂ© prĂ©sentĂ© le 30 janvier Ă  la confĂ©rence de l'Association for Computing Machinery sur l'Ă©quitĂ©, la responsabilitĂ© et la transparence Ă  Barcelone, en Espagne. 

«Il est absolument nécessaire que des chercheurs et des laboratoires possédant une expertise technique de base dans ce domaine s'engagent dans ce type de conversations», a déclaré Russakovsky. «Étant donné la réalité dont nous avons besoin pour collecter les données à grande échelle, étant donné la réalité que cela va se faire avec le crowdsourcing parce que c'est le pipeline le plus efficace et le mieux établi, comment pouvons-nous le faire d'une manière plus juste - cela ne fonctionne pas» t tomber dans ce genre de pièges antérieurs? Le message central de ce document concerne les solutions constructives. »

ImageNet a Ă©tĂ© lancĂ© en 2009 par un groupe d'informaticiens de Princeton et de Stanford. Il Ă©tait destinĂ© Ă  servir de ressource pour les chercheurs universitaires et les Ă©ducateurs. La crĂ©ation du système a Ă©tĂ© dirigĂ©e par les anciens de Princeton et membre du corps professoral Fei-Fei Li. 

ImageNet a pu devenir une si grande base de donnĂ©es d'images Ă©tiquetĂ©es grâce Ă  l'utilisation du crowdsourcing. L'une des principales plateformes utilisĂ©es Ă©tait Amazon Mechanical Turk (MTurk), et les travailleurs Ă©taient payĂ©s pour vĂ©rifier les images des candidats. Cela a causĂ© quelques problèmes, et il y avait beaucoup de prĂ©jugĂ©s et de catĂ©gorisations inappropriĂ©es. 

L'auteur principal Kaiyu Yang est un Ă©tudiant diplĂ´mĂ© en informatique. 

"Lorsque vous demandez aux gens de vĂ©rifier les images en sĂ©lectionnant les bonnes parmi un grand nombre de candidats, les gens se sentent obligĂ©s de sĂ©lectionner certaines images et ces images ont tendance Ă  ĂŞtre celles qui prĂ©sentent des caractĂ©ristiques distinctives ou stĂ©rĂ©otypĂ©es", a-t-il dĂ©clarĂ©. 

La première partie de l'Ă©tude consistait Ă  filtrer les catĂ©gories de personnes potentiellement offensantes ou sensibles d'ImageNet. Les catĂ©gories offensantes ont Ă©tĂ© dĂ©finies comme celles qui contenaient des grossièretĂ©s ou des insultes raciales ou sexistes. L'une de ces catĂ©gories sensibles Ă©tait la classification des personnes basĂ©e sur l'orientation sexuelle ou la religion. Douze Ă©tudiants diplĂ´mĂ©s d'horizons divers ont Ă©tĂ© invitĂ©s Ă  annoter les catĂ©gories, et on leur a demandĂ© d'Ă©tiqueter une catĂ©gorie sensible s'ils n'en Ă©taient pas sĂ»rs. Environ 54% des catĂ©gories ont Ă©tĂ© Ă©liminĂ©es, soit 1,593 2,932 des XNUMX XNUMX catĂ©gories de personnes dans ImageNet. 

Les travailleurs de MTurk ont ​​ensuite Ă©valuĂ© l'"imageabilitĂ©" des catĂ©gories restantes sur une Ă©chelle de 1 Ă  5. 158 catĂ©gories ont Ă©tĂ© classĂ©es Ă  la fois sĂ»res et imageables, avec une note de 4 ou plus. Cet ensemble filtrĂ© de catĂ©gories comprenait plus de 133,000 XNUMX images, ce qui peut ĂŞtre très utile pour la formation d'algorithmes de vision par ordinateur. 

Les chercheurs ont étudié la représentation démographique des personnes dans les images et le niveau de biais dans ImageNet a été évalué. Le contenu provenant des moteurs de recherche fournit souvent des résultats qui surreprésentent les hommes, les personnes à la peau claire et les adultes âgés de 18 à 40 ans.

"Les gens ont constaté que les distributions de données démographiques dans les résultats de recherche d'images sont très biaisées, et c'est pourquoi la distribution dans ImageNet est également biaisée", a déclaré Yang. "Dans cet article, nous avons essayé de comprendre à quel point il est biaisé, et aussi de proposer une méthode pour équilibrer la distribution."

Les chercheurs ont pris en compte trois attributs qui sont Ă©galement protĂ©gĂ©s par les lois anti-discrimination amĂ©ricaines : la couleur de la peau, l'expression de genre et l'âge. Les travailleurs de MTurk ont ​​ensuite annotĂ© chaque attribut de chaque personne dans une image. 

Les résultats ont montré que le contenu d'ImageNet a un biais considérable. Les plus sous-représentés étaient les personnes à la peau foncée, les femmes et les adultes de plus de 40 ans.

Un outil d'interface Web a Ă©tĂ© conçu pour permettre aux utilisateurs d'obtenir un ensemble d'images Ă©quilibrĂ©es sur le plan dĂ©mographique d'une manière que l'utilisateur choisit. 

"Nous ne voulons pas dire quelle est la bonne façon d'équilibrer les données démographiques, car ce n'est pas un problème très simple", a déclaré Yang. «La distribution pourrait être différente dans différentes parties du monde - la distribution des couleurs de peau aux États-Unis est différente de celle des pays d'Asie, par exemple. Nous laissons donc cette question à notre utilisateur, et nous fournissons simplement un outil pour récupérer un sous-ensemble équilibré des images. »

L'Ă©quipe ImageNet travaille actuellement sur des mises Ă  jour techniques de son matĂ©riel et de sa base de donnĂ©es. Ils tentent Ă©galement de mettre en place le filtrage des catĂ©gories de personnes et l'outil de rééquilibrage dĂ©veloppĂ© dans cette recherche. ImageNet devrait ĂŞtre rééditĂ© avec les mises Ă  jour, ainsi qu'un appel Ă  commentaires de la communautĂ© de recherche sur la vision par ordinateur. 

L'article a Ă©galement Ă©tĂ© co-Ă©crit par Princeton Ph.D. Ă©tudiant Klint Qinami et professeur adjoint d'informatique Jia Deng. La recherche a Ă©tĂ© soutenue par la National Science Foundation.  

 

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.