Intelligence artificielle

Algorithme TextFooler trompe l’IA de traitement du langage naturel

Published February 24, 2020

Updated April 5, 2026

Daniel Nelson

Aussi impressionnants que les algorithmes et les systèmes de traitement du langage naturel soient devenus ces dernières années, ils sont toujours vulnérables à une sorte d’exploit connue sous le nom d’« exemple adverse ». Les exemples adverses sont des phrases soigneusement conçues qui peuvent causer un comportement inattendu et indésirable d’un système de traitement du langage naturel. Les programmes d’IA peuvent être amenés à se comporter de manière anormale avec ces exemples étranges, et en conséquence, les chercheurs en IA tentent de concevoir des moyens pour se protéger contre les effets des exemples adverses.

Récemment, une équipe de chercheurs de l’Université de Hong Kong et de l’Agence pour la science, la technologie et la recherche de Singapour a collaboré pour créer un algorithme qui démontre le danger des exemples adverses. Comme l’a rapporté Wired, l’algorithme a été surnommé TextFooler par l’équipe de recherche et il fonctionne en modifiant subtilement des parties d’une phrase, ce qui affecte la façon dont un classificateur de traitement du langage naturel interprète la phrase. Par exemple, l’algorithme a converti une phrase en une autre phrase similaire et la phrase a été alimentée dans un classificateur conçu pour déterminer si une critique était négative ou positive. La phrase originale était :

« Les personnages, jetés dans des situations impossiblement artificielles, sont totalement étrangers à la réalité. »

Elle a été convertie en cette phrase :

« Les personnages, jetés dans des circonstances impossiblement conçues, sont pleinement étrangers à la réalité. »

Ces changements subtils ont incité le classificateur de texte à classifier la critique comme positive au lieu de négative. L’équipe de recherche a testé la même approche (en remplaçant certains mots par des synonymes) sur plusieurs ensembles de données et algorithmes de classification de texte. L’équipe de recherche rapporte qu’ils ont pu réduire la précision de classification d’un algorithme à seulement 10 %, contre 90 %. Cela malgré le fait que les personnes lisant ces phrases les interpréteraient comme ayant le même sens.

Ces résultats sont inquiétants à une époque où les algorithmes de traitement du langage naturel et l’IA sont utilisés de plus en plus fréquemment, et pour des tâches importantes comme l’évaluation des demandes médicales ou l’analyse des documents juridiques. Il est inconnu à quel point les exemples adverses constituent un danger pour les algorithmes actuellement utilisés. Les équipes de recherche du monde entier tentent encore de déterminer à quel point ils peuvent avoir un impact. Récemment, un rapport publié par le groupe Stanford Human-Centered AI a suggéré que les exemples adverses pourraient tromper les algorithmes d’IA et être utilisés pour perpétrer des fraudes fiscales.

Il y a certaines limites à l’étude récente. Par exemple, alors que Sameer Singh, professeur adjoint de sciences informatiques à l’UC Irvine, note que la méthode adverse utilisée était efficace, elle repose sur certaines connaissances de l’architecture de l’IA. L’IA doit être sondée à plusieurs reprises jusqu’à ce qu’un groupe efficace de mots puisse être trouvé, et de telles attaques répétées pourraient être détectées par des programmes de sécurité. Singh et ses collègues ont mené leurs propres recherches sur le sujet et ont constaté que des systèmes avancés comme les algorithmes OpenAI peuvent produire des textes racistes et nocifs lorsqu’ils sont déclenchés par certaines phrases déclencheuses.

Les exemples adverses sont également un problème potentiel lorsqu’il s’agit de données visuelles comme des photos ou des vidéos. Un exemple célèbre implique l’application de certaines transformations numériques subtiles à une image d’un chaton, ce qui amène le classificateur d’images à l’interpréter comme un moniteur ou un ordinateur de bureau. Dans un autre exemple, des recherches menées par le professeur de l’UC Berkeley, Dawn Song, ont constaté que les exemples adverses peuvent être utilisés pour modifier la façon dont les panneaux de signalisation routière sont perçus par les systèmes de vision par ordinateur, ce qui pourrait potentiellement être dangereux pour les véhicules autonomes.

Des recherches comme celles menées par l’équipe de Hong Kong-Singapour pourraient aider les ingénieurs en IA à mieux comprendre quels types de vulnérabilités les algorithmes d’IA ont, et potentiellement concevoir des moyens pour se protéger contre ces vulnérabilités. Par exemple, des classificateurs d’ensemble peuvent être utilisés pour réduire la probabilité qu’un exemple adverse puisse tromper le système de vision par ordinateur. Avec cette technique, plusieurs classificateurs sont utilisés et des transformations légères sont appliquées à l’image d’entrée. La majorité des classificateurs discernent généralement des aspects du contenu réel de l’image, qui sont ensuite agrégés. Le résultat est que même si quelques classificateurs sont trompés, la plupart d’entre eux ne le sont pas et l’image est correctement classifiée.

Daniel Nelson

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.

Unite.AI

Algorithme TextFooler trompe l’IA de traitement du langage naturel

You may like