Éthique

Les chercheurs développent des algorithmes visant à prévenir les mauvais comportements dans l’IA

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Avec toutes les avancées et les avantages que l’intelligence artificielle a présentés jusqu’à présent, il y a également eu des rapports sur des effets secondaires indésirables tels que les préjugés raciaux et de genre dans l’IA. Alors que sciencealert.com pose la question « comment les scientifiques peuvent-ils s’assurer que les systèmes de pensée avancés peuvent être équitables, ou même sûrs ? »

La réponse peut se trouver dans le rapport des chercheurs de Stanford et de l’ Université du Massachusetts Amherst, intitulé Prévenir les comportements indésirables des machines intelligentes. Comme eurekaalert.org le note dans son article sur ce rapport, l’IA commence maintenant à gérer des tâches sensibles, donc « les décideurs politiques exigent que les informaticiens offrent des garanties que les systèmes automatisés ont été conçus pour minimiser, voire éviter complètement, les résultats indésirables tels que les risques excessifs ou les préjugés raciaux et de genre. »

Le rapport que cette équipe de chercheurs a présenté « présente une nouvelle technique qui traduit un objectif flou, tel que l’évitement des préjugés de genre, en critères mathématiques précis qui permettraient à un algorithme d’apprentissage automatique de former une application d’IA pour éviter ce comportement. »

L’objectif était, comme Emma Brunskill, professeure agrégée d’informatique à Stanford et auteur principal de l’article, le souligne « nous voulons faire progresser l’IA qui respecte les valeurs de ses utilisateurs humains et justifie la confiance que nous plaçons dans les systèmes autonomes. »

L’idée était de définir les résultats ou les comportements « dangereux » ou « injustes » en termes mathématiques. Cela rendrait, selon les chercheurs, « possible de créer des algorithmes qui peuvent apprendre à partir de données pour éviter ces résultats indésirables avec une grande confiance. »

Le deuxième objectif était de « développer un ensemble de techniques qui rendraient facile pour les utilisateurs de spécifier quels types de comportements indésirables ils veulent restreindre et permettraient aux concepteurs d’apprentissage automatique de prédire avec confiance qu’un système formé à partir de données passées peut être fiable lorsqu’il est appliqué dans des circonstances du monde réel. »

ScienceAlert indique que l’équipe a nommé ce nouveau système « algorithmes Seldonien », du nom du personnage central de la série de romans de science-fiction Foundation d’Isaac Asimov. Philip Thomas, professeur agrégé d’informatique à l’Université du Massachusetts Amherst et auteur principal de l’article, note, « Si j’utilise un algorithme Seldonien pour le traitement du diabète, je peux spécifier que le comportement indésirable signifie une hypoglycémie dangereusement basse ou une hypoglycémie. »

« Je peux dire à la machine : « Pendant que vous essayez d’améliorer le contrôle de la pompe à insuline, n’apportez pas de modifications qui augmenteraient la fréquence de l’hypoglycémie. » La plupart des algorithmes ne vous offrent pas de moyen de mettre ce type de contrainte sur le comportement ; cela n’a pas été inclus dans les conceptions précédentes. »

Thomas ajoute que « ce cadre Seldonien rendra plus facile pour les concepteurs d’apprentissage automatique d’intégrer des instructions d’évitement de comportement dans tous les types d’algorithmes, de manière à permettre d’évaluer la probabilité que les systèmes formés fonctionnent correctement dans le monde réel. »

Pour sa part, Emma Brunskill note également que « réfléchir à la façon dont nous pouvons créer des algorithmes qui respectent le mieux les valeurs telles que la sécurité et l’équité est essentiel alors que la société compte de plus en plus sur l’IA. »

Unite.AI

Les chercheurs développent des algorithmes visant à prévenir les mauvais comportements dans l’IA

You may like